anranhui

2020-06-18   阅读量: 2945

Python数据分析 机器学习 决策树

决策树的优缺点

扫码加入数据分析学习群

决策树(DT)是一种用于分类回归的非参数监督学习方法。目标是创建一个模型,通过学习从数据特征推断出的简单决策规则来预测目标变量的值。

决策树的一些优点是:

  • 易于理解和解释。树木可以可视化。
  • 需要很少的数据准备。其他技术通常需要数据规范化,需要创建伪变量并删除空白值。但是请注意,此模块不支持缺少的值。
  • 使用树的成本(即预测数据)与用于训练树的数据点数量成对数。
  • 能够处理数字和分类数据。其他技术通常专用于分析仅具有一种类型的变量的数据集。有关更多信息,请参见算法
  • 能够处理多输出问题。
  • 使用白盒模型。如果模型中可以观察到给定的情况,则可以通过布尔逻辑轻松解释条件。相反,在黑匣子模型中(例如,在人工神经网络中),结果可能更难以解释。
  • 可以使用统计测试来验证模型。这使得考虑模型的可靠性成为可能。
  • 即使生成数据的真实模型在某种程度上违背了它的假设,也可以表现良好。

决策树的缺点包括:

  • 决策树学习者可能会创建过于复杂的树,从而无法很好地概括数据。这称为过度拟合。为避免此问题,必须使用诸如修剪,设置叶节点处所需的最小样本数或设置树的最大深度之类的机制。
  • 决策树可能不稳定,因为数据中的细微变化可能会导致生成完全不同的树。通过使用集成中的决策树可以缓解此问题。
  • 在最优性的几个方面,甚至对于简单的概念,学习最优决策树的问题都被认为是NP完全的。因此,实用的决策树学习算法基于启发式算法(例如贪婪算法),其中在每个节点上做出局部最优决策。这样的算法不能保证返回全局最优决策树。可以通过在集成学习器中训练多棵树来缓解这种情况,在该学习器中,特征和样本将通过替换随机抽样。
  • 有些概念很难学习,因为决策树无法轻松表达它们,例如XOR,奇偶校验或多路复用器问题。
  • 如果某些类别占主导地位,则决策树学习者会创建有偏见的树。因此,建议在与决策树拟合之前平衡数据集。

决策树的复杂性

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
14.3059 2 0 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子