决策树的优缺点_CDA答疑社区

2020-06-18 阅读量: 2945

Python数据分析机器学习决策树

决策树的优缺点

扫码加入数据分析学习群

决策树（DT）是一种用于分类和回归的非参数监督学习方法。目标是创建一个模型，通过学习从数据特征推断出的简单决策规则来预测目标变量的值。

决策树的一些优点是：

决策树的缺点包括：

决策树学习者可能会创建过于复杂的树，从而无法很好地概括数据。这称为过度拟合。为避免此问题，必须使用诸如修剪，设置叶节点处所需的最小样本数或设置树的最大深度之类的机制。
决策树可能不稳定，因为数据中的细微变化可能会导致生成完全不同的树。通过使用集成中的决策树可以缓解此问题。
在最优性的几个方面，甚至对于简单的概念，学习最优决策树的问题都被认为是NP完全的。因此，实用的决策树学习算法基于启发式算法（例如贪婪算法），其中在每个节点上做出局部最优决策。这样的算法不能保证返回全局最优决策树。可以通过在集成学习器中训练多棵树来缓解这种情况，在该学习器中，特征和样本将通过替换随机抽样。
有些概念很难学习，因为决策树无法轻松表达它们，例如XOR，奇偶校验或多路复用器问题。
如果某些类别占主导地位，则决策树学习者会创建有偏见的树。因此，建议在与决策树拟合之前平衡数据集。

决策树的复杂性：