anranhui

决策树中经常用熵作为判别条件而不是基尼不纯度?基尼不纯度是什么?

绝大部分情况下熵(entropy)和基尼指数(Gini Index)在决策树节点分裂时做出的决策都是等价的。先看一下如何定义节点分裂时的不纯度函数(impurity)有三种(假设有k个类别): 不难看出,三个函数均为凸函数。只不过误分率(函数1)是分段线性函数(piece-wise linear),有时候节点分裂会无法降低不纯度。所以函数2和3一般是常采用的手段,它们的优势如下:二者

14.4630 4 2
  • 关注作者
  • 收藏
PhilipLiang

决策树剪枝策略及优缺点

预剪枝在决策树的生长过程中限制其规模,使其较早的停止生长。对每个节点划分前用验证集进行估计,通过比较划分前后的验证集精度来判断是否剪枝。若当前节点的划分不能带来决策树泛化能力的提升,则停止划分并标记当前节点为叶子结点。优缺点:预剪枝使得决策树的很多分支没有“展开”,降低了过拟合的风险,还能够减少决策树的训练时间以及预测事件开销。但是,有些分支可能当前划分不能提升模型的泛化性能甚至导致泛化性能

14.4132 4 6
  • 关注作者
  • 收藏
PhilipLiang

ID3,C4.5,CART算法对比

ID3ID3决策树可以有多个分支,但是不能处理特征值为连续的情况。在ID3中,每次根据“最大信息熵增益”选取当前最佳的特征来分割数据,并按照该特征的所有取值来切分,也就是说如果一个特征有4种取值,数据将被切分4份,一旦按某特征切分后,该特征在之后的算法执行中,将不再起作用。ID3算法十分简单,核心是根据“最大信息熵增益”原则选择划分当前数据集的最好特征,信息熵是信息论里面的概念,是信息的度量方式

0.0237 1 7
  • 关注作者
  • 收藏
PhilipLiang

机器学习第二天作业知识点整理

KMeans的原理先从没有标签的元素集合A中随机取k个元素作为k个子集各自的中心 分别计算剩下的元素到k个子集中心的距离,将这些元素分别划归到最近的子集 根据聚类结果,重新计算中心(子集中所有元素各个维度的算数平均数) 将集合A中全部元素按照新的中心然后再重新聚类 重复以上步骤,直到聚类的结果不再发生变化KMeans的优点原理比较简单,实现也很容易,收敛速度快。球状聚类效果较优

0.0000 0 3
  • 关注作者
  • 收藏
anranhui

scikit-learn算法选择路径图【scikit-learn algorithm cheat sheet】

中文翻译版本 英文原版英文原版链接:http://scikit-learn.org/stable/tutorial/machine_learning_map/

11.7839 6 2
  • 关注作者
  • 收藏
anranhui

SVD-矩阵奇异值分解 —— 原理与几何意义

1.简介SVD 全称:Singular Value Decomposition。SVD 是一种提取信息的强大工具,它提供了一种非常便捷的矩阵分解方式,能够发现数据中十分有意思的潜在模式。主要应用领域包括:隐性语义分析 (Latent Semantic Analysis, LSA) 或隐性语义索引 (Latent Semantic Indexing, LSI);推荐系统 (Recommend

39.0120 6 5
  • 关注作者
  • 收藏

热门用户 换一批

本月PGC排行 总奖励
01
ermutuxia
21649.3212
02
赵娜0418
9499.2759
03
詹惠儿
7185.4587
04
liting李
4158.0854
05
LXM21
2376.1543
06
读童话的狼
2077.5392
07
PGC123
1480.5070
08
马锦涛
1047.6925
09
心盛待花开
680.5725
10
Dragon男爵
623.3936
11
235239
598.4692
12
17国本二
583.2604
13
樊江龙
501.9402
14
闪呀闪
435.3966
15
孙媛呀
418.3265
16
wangxishi
414.6179
17
18192654262
289.1581
18
SUKI-ZY
228.3905
19
85691082
220.7702
20
Sasyo
209.4047
21
永洪科技
173.3812
22
15119939905120
156.9421
23
Mosquito-
150.0168
24
yaolily
138.0199
25
白璐123
137.9088
26
16637023243
124.3920
27
r1cky
120.8189
28
野娃子
99.5190
29
Chin。
95.4506
30
BOBOLEYOUYOU
81.1556
31
hunter.Z
77.4616
32
杨谋
74.9150
33
kgdpesai
73.6167
34
1027670370
65.7718
35
wanghuijie2222
65.3341
36
soulspirits
50.5485
37
CDA-18810556009
45.3245
38
骆逸铭
42.4651
39
yw172716
40.5263
40
icey小媛
40.0812
41
我是大魔王哈哈
40.0623
42
刘圣杰
37.8449
43
CDA-13917481347
37.4575
44
星!
36.8621
45
201701010305
35.3692
46
夏光军
35.3585
47
admin
26.7460
48
291294878
23.8664
49
zxq997
5.4900
50
-黄纬
2.1889