anranhui

决策树中经常用熵作为判别条件而不是基尼不纯度?基尼不纯度是什么?

绝大部分情况下熵(entropy)和基尼指数(Gini Index)在决策树节点分裂时做出的决策都是等价的。先看一下如何定义节点分裂时的不纯度函数(impurity)有三种(假设有k个类别): 不难看出,三个函数均为凸函数。只不过误分率(函数1)是分段线性函数(piece-wise linear),有时候节点分裂会无法降低不纯度。所以函数2和3一般是常采用的手段,它们的优势如下:二者

14.4630 4 2
  • 关注作者
  • 收藏
PhilipLiang

决策树剪枝策略及优缺点

预剪枝在决策树的生长过程中限制其规模,使其较早的停止生长。对每个节点划分前用验证集进行估计,通过比较划分前后的验证集精度来判断是否剪枝。若当前节点的划分不能带来决策树泛化能力的提升,则停止划分并标记当前节点为叶子结点。优缺点:预剪枝使得决策树的很多分支没有“展开”,降低了过拟合的风险,还能够减少决策树的训练时间以及预测事件开销。但是,有些分支可能当前划分不能提升模型的泛化性能甚至导致泛化性能

14.4132 4 6
  • 关注作者
  • 收藏
PhilipLiang

ID3,C4.5,CART算法对比

ID3ID3决策树可以有多个分支,但是不能处理特征值为连续的情况。在ID3中,每次根据“最大信息熵增益”选取当前最佳的特征来分割数据,并按照该特征的所有取值来切分,也就是说如果一个特征有4种取值,数据将被切分4份,一旦按某特征切分后,该特征在之后的算法执行中,将不再起作用。ID3算法十分简单,核心是根据“最大信息熵增益”原则选择划分当前数据集的最好特征,信息熵是信息论里面的概念,是信息的度量方式

0.0237 1 7
  • 关注作者
  • 收藏
PhilipLiang

机器学习第二天作业知识点整理

KMeans的原理先从没有标签的元素集合A中随机取k个元素作为k个子集各自的中心 分别计算剩下的元素到k个子集中心的距离,将这些元素分别划归到最近的子集 根据聚类结果,重新计算中心(子集中所有元素各个维度的算数平均数) 将集合A中全部元素按照新的中心然后再重新聚类 重复以上步骤,直到聚类的结果不再发生变化KMeans的优点原理比较简单,实现也很容易,收敛速度快。球状聚类效果较优

0.0000 0 3
  • 关注作者
  • 收藏
anranhui

scikit-learn算法选择路径图【scikit-learn algorithm cheat sheet】

中文翻译版本 英文原版英文原版链接:http://scikit-learn.org/stable/tutorial/machine_learning_map/

11.7839 6 2
  • 关注作者
  • 收藏
anranhui

SVD-矩阵奇异值分解 —— 原理与几何意义

1.简介SVD 全称:Singular Value Decomposition。SVD 是一种提取信息的强大工具,它提供了一种非常便捷的矩阵分解方式,能够发现数据中十分有意思的潜在模式。主要应用领域包括:隐性语义分析 (Latent Semantic Analysis, LSA) 或隐性语义索引 (Latent Semantic Indexing, LSI);推荐系统 (Recommend

39.0120 6 5
  • 关注作者
  • 收藏

热门用户 换一批

本月PGC排行 换一批

01
ermutuxia
20060.4960
02
詹惠儿
6130.4790
03
liting李
5050.3440
04
开花结果02
3110.2528
05
赵娜0418
2833.6401
06
LXM21
2524.2753
07
shauna570392
2301.2868
08
s1223452840
1963.8890
09
读童话的狼
1388.5484
10
18192654262
966.9400
11
85691082
653.1058
12
wangxishi
571.2332
13
马锦涛
557.3984
14
永洪科技
424.4525
15
宋俊花
417.7947
16
bigdata~
416.5680
17
你应该是一阵风丫
414.5987
18
隋东芝
389.3198
19
zhxiaol
322.0296
20
我是大魔王哈哈
307.7717
21
叶yyf
266.6598
22
梁程晴
244.7252
23
东方祥
237.4341
24
PanHero_龙宝宝
231.9958
25
陈yy123
222.3672
26
岳松同学
211.7586
27
曹翔888
193.1606
28
gracejpw1117
174.8793
29
1530553748
167.2216
30
Zxmzxm11
165.2367
31
ALEXSONG_JY
162.4142
32
-黄纬
155.5404
33
WXlJ1l5
151.5480
34
13285917268
118.0985
35
田先生1
109.0227
36
admin
101.5527
37
k_0711
100.6867
38
hunter.Z
100.4091
39
fuli2020
97.3386
40
M15828292569
72.9557
41
cda讲师号
72.8814
42
PGC123
72.3793
43
小朱520
63.2051
44
aralexu
62.1749
45
觉得是快乐
53.9994
46
lihui15
52.1454
47
291294878
43.9832
48
jojogigi
42.2674
49
liujie01-09
42.1503
50
zzfcda
41.2856