anranhui

决策树中经常用熵作为判别条件而不是基尼不纯度?基尼不纯度是什么?

绝大部分情况下熵(entropy)和基尼指数(Gini Index)在决策树节点分裂时做出的决策都是等价的。先看一下如何定义节点分裂时的不纯度函数(impurity)有三种(假设有k个类别): 不难看出,三个函数均为凸函数。只不过误分率(函数1)是分段线性函数(piece-wise linear),有时候节点分裂会无法降低不纯度。所以函数2和3一般是常采用的手段,它们的优势如下:二者

14.4630 4 2
  • 关注作者
  • 收藏
PhilipLiang

决策树剪枝策略及优缺点

预剪枝在决策树的生长过程中限制其规模,使其较早的停止生长。对每个节点划分前用验证集进行估计,通过比较划分前后的验证集精度来判断是否剪枝。若当前节点的划分不能带来决策树泛化能力的提升,则停止划分并标记当前节点为叶子结点。优缺点:预剪枝使得决策树的很多分支没有“展开”,降低了过拟合的风险,还能够减少决策树的训练时间以及预测事件开销。但是,有些分支可能当前划分不能提升模型的泛化性能甚至导致泛化性能

54.7519 5 6
  • 关注作者
  • 收藏
PhilipLiang

ID3,C4.5,CART算法对比

ID3ID3决策树可以有多个分支,但是不能处理特征值为连续的情况。在ID3中,每次根据“最大信息熵增益”选取当前最佳的特征来分割数据,并按照该特征的所有取值来切分,也就是说如果一个特征有4种取值,数据将被切分4份,一旦按某特征切分后,该特征在之后的算法执行中,将不再起作用。ID3算法十分简单,核心是根据“最大信息熵增益”原则选择划分当前数据集的最好特征,信息熵是信息论里面的概念,是信息的度量方式

0.0237 1 7
  • 关注作者
  • 收藏
anranhui

树算法:ID3,C4.5,C5.0和CART¶的相互关系

ID3(迭代二分法3)由Ross Quinlan于1986年开发。该算法创建多路树,为每个节点(即,以贪婪的方式)找到分类特征,该分类特征将为分类目标产生最大的信息增益。将树长到最大大小,然后通常应用修剪步骤以提高树概括未见数据的能力。C4.5是ID3的后继版本,并通过动态定义离散属性(基于数字变量)来消除要素必须分类的限制,该离散属性将连续属性值划分为离散的间隔集。C4.5将训练后的树(即

14.3059 2 4
  • 关注作者
  • 收藏
anranhui

决策树的优缺点

决策树(DT)是一种用于分类和回归的非参数监督学习方法。目标是创建一个模型,通过学习从数据特征推断出的简单决策规则来预测目标变量的值。决策树的一些优点是:易于理解和解释。树木可以可视化。需要很少的数据准备。其他技术通常需要数据规范化,需要创建伪变量并删除空白值。但是请注意,此模块不支持缺少的值。使用树的成本(即预测数据)与用于训练树的数据点数量成对数。能够处理数字和分类数据。其他

14.3059 2 0
  • 关注作者
  • 收藏
陈革007

机器学习: 监督学习和无监督学习有什么区别

监督学习:对具有标记的训练样本进行学习,这里,所有的标记是已知的。如:决策树算法、朴素贝叶斯算法、KNN 算法。无监督学习:对没有标记的训练养样本进行学习,目的是为了发现训练集中的结构特征。如聚类算法

28.0292 8 1
  • 关注作者
  • 收藏
陈革007

机器学习: 请解释偏差和方差的权衡

偏差反映了模型的拟合能力,方差描述的是数据集变换对模型的影响。如果一味追求模型的拟合能力,可以使得偏差降低,但可能会导致不同数据训练出的不同模型之间的差异非常大,方差过大,模型的泛化能力较差,容易出现过拟合现象。模型不能同时兼顾偏差和方差

14.3283 4 0
  • 关注作者
  • 收藏
陈革007

机器学习: 如何对多参数进行调参?

网格化搜索:对于多个参数,首先根据经验确定大致的参数范围。然后选择较大的步长进行控制变量的方法进行搜索,找到最优解后;然后逐步缩小步长,使用同样的方法在更小的区间内寻找更精确的最优解。

14.3283 4 4
  • 关注作者
  • 收藏
陈革007

机器学习: K-means算法中初始点的选择对最终结果有影响吗?K-means聚类中每个类别中心的初始点如何选择?

会有影响,不同的初始值结果可能不一样。初始值离得尽可能远。

14.3283 4 3
  • 关注作者
  • 收藏
陈革007

机器学习: 在K-Means中如何选择k?

K-Means 算法的最大缺点是不能自动选择分类数k,常见的确定k的方法有:(1)根据先验知识来确定(2)手肘法(3)轮廓系数法

0.1829 3 1
  • 关注作者
  • 收藏
陈革007

机器学习: K均值算法的调优一般可以从哪几个角度出发?

1) 对于离群点和孤立点敏感:数据归一化和离群点处理。2) k值选择:手肘法,轮廓系数法选择3) 初始聚类中心的选择:多次选择4) 大数据集minibachkmeans

0.1829 3 4
  • 关注作者
  • 收藏
陈革007

机器学习: Kmeans的原理,优缺点

1)从N个数据对象中挑选出k个质心。2)计算N个数据对象距离不同质心的距离,并将N个数据对象划分到与之距离最小的质心,形成新的k个聚类。3)重新计算步骤2中获取新的k个聚类的质心,计算方法为求取聚类中所有数据对象的均值。4)重复2-3步骤,直到每个聚类的数据成员不再发生变化。优点:1) 计算机时间短,速度快2) 容易解释3) 对球状聚类效果还不错缺点:1) 对于离群点和孤立点敏感

14.2039 3 2
  • 关注作者
  • 收藏
PhilipLiang

机器学习第二天作业知识点整理

KMeans的原理先从没有标签的元素集合A中随机取k个元素作为k个子集各自的中心 分别计算剩下的元素到k个子集中心的距离,将这些元素分别划归到最近的子集 根据聚类结果,重新计算中心(子集中所有元素各个维度的算数平均数) 将集合A中全部元素按照新的中心然后再重新聚类 重复以上步骤,直到聚类的结果不再发生变化KMeans的优点原理比较简单,实现也很容易,收敛速度快。球状聚类效果较优

0.0000 0 3
  • 关注作者
  • 收藏
大魔王泛泛

python 中怎样对不同的列分别填充不同的缺失值

对于这种情况我们会采用 fillna()函数对缺失值进行处理,参数是一个字典,用字典对不同的列填充不同的缺失数据如下图所示:

14.1454 1 7
  • 关注作者
  • 收藏
陈革007

机器学习: KNN 预测范围 注意点

KNN 不能做 超出训练集范围(0-70)的预测, 否则就是一条直线, 如下:

25.3481 7 3
  • 关注作者
  • 收藏
陈革007

KNN的优缺点

优点1、 思想简单,能做分类和回归2、 惰性学习,无需训练(蛮力法),KD树的话,则需要建树3、 对异常点不敏感缺点1、 计算量大、速度慢2、 样本不平衡的时候,对稀有类别的预测准确率低3、 KD树,球树之类的模型建立需要大量的内存4、 相比决策树模型,KNN模型可解释性不强

25.0618 5 2
  • 关注作者
  • 收藏
陈革007

如何选择knn模型中的k?k值大小和模型欠拟合和过拟合如何对应?

(1)如果选择较小的K值,就相当于用较小的领域中的训练实例进行预测,“学习”近似误差会减小,只有与输入实例较近或相似的训练实例才会对预测结果起作用,与此同时带来的问题是“学习”的估计误差会增大,换句话说,K值的减小就意味着整体模型变得复杂,容易发生过拟合;(2)如果选择较大的K值,就相当于用较大领域中的训练实例进行预测,其优点是可以减少学习的估计误差,但缺点是学习的近似误差会增大。这时候,与输入

25.0231 4 1
  • 关注作者
  • 收藏
陈革007

在模型评估过程中,过拟合和欠拟合具体是指什么现象?常用的过拟合解决方法有哪些?

过拟合:模型在训练集上的评估指标表现很好,但在测试集和新数据上的表现很差欠拟合:模型在训练和预测评估指标都不好过拟合解决方法:(1) 增大数据集(2)减少数据特征(降维,特征选择)(3)正则化(L1和L2)(4)降低模型复杂度(如对决策树剪枝等)(5)交叉验证(6)集成学习方法

25.0231 4 3
  • 关注作者
  • 收藏
PhilipLiang

机器学习第一天作业知识点整理

欠拟合是指模型拟合程度不高,数据距离拟合曲线较远,或指模型没有很好地捕捉到数据特征,不能够很好地拟合数据。对于训练好的模型,若在训练集表现差,在测试集表现同样会很差。一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在训练数据外的数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。过拟合是指为了得到一致假设而使假设变得过度严格。过拟合解决方法:增大数据集合,使用更多数据

25.1336 4 3
  • 关注作者
  • 收藏
大魔王泛泛

numpy.random.seed()的参数说明

seed( ) 用于指定随机数生成时所用算法开始的整数值,如果使用相同的seed( )值,则每次生成的随即数都相同 ,如下图所示:

29.7890 3 0
  • 关注作者
  • 收藏

热门用户 换一批

本月PGC排行 总奖励

暂无数据