数据科学专业问答社区，好文章，一字千金--CDA答疑社区

机器学习中构建决策树中ID3算法和C4.5的算法的区别

ID3算法决策树是通过信息增益的值得大小来构造决策树最大的为顶层，如图示例C4.5是通过信息增益率来构建决策树，根据值最的为顶层，算法如图这里算的为outlook的信息增益率，14为样本总数。当然可以以此来计算其他。

小朱520

2020-08-08

37.4340 2 0

对于决策树算法而言，如果说上一节点为分类型变量的话，下一节点不可以使用这个属性，如图outlook为分类型变量，如果下面没有分完是不可以再使用了，但是如果上一节点是离散型变量，好比是humidity这个变量，如果下面的yes项并没有分完是还可以在yes节点使用humidity这个变量继续分，只不过是需要在小于70的这个连续变量中重新确定阈值在划分。（而这个windy虽然在上面的别的枝干使用过了，但

小朱520

2020-08-08

37.4340 2 1

python中的一些导入文件的代码

%matplotlib inline 在线显示图片import numpy as npdata = np.genfromtxt('kmeans.txt',delimiter=' ') 使用np导入文件import pandas as pddata=pd.read_csv('D:\CDA\File\datingTestSet.txt',sep=' ',names=['x1','x2','x3','y

小朱520

2020-08-07

32.3851 4 3

机器学习中关于聚类和分类中k值得解释

在算法kmeans中的k代表数据分类的簇数应用于聚类，原始数据为分散数据，k=n_clusters，一般为10个以内。在算法knn中k代表，原数据已经分好类用于新数据的预测分类，k=n-neighbors，表示选择样本数据中前k个最相似的数据，应用于分类。

小朱520

2020-08-07

37.7656 4 3

机器学习中聚类中kmeans关于k值（分为几个簇）的代码展示（肘部优化法则）

这里的sse代表的是每个质心与本簇其他样本的距离，一般最优的效果是哪个拐点k=4

小朱520

2020-08-07

37.5657 2 4

python关于knn的分类报告各个数值的解释

precision为精准率 recall为召回率 f1-score为调和参数 support为样本总数其中1/p+1/r=2/f accuracy 为正确率 macro avg 宏平均 = 3类样本precision的均值=（1+1+1）/3weighted avg 加权平均=3类样本的每个precision乘以每类的support除以总样本support45(1*

小朱520

2020-08-06

22.5540 3 0

机器学习，knn中的参数n-jobs的理解

这里的n_jobs=-1表示的是把电脑里的相关配置全部运行计算，一般为默认可以不设置。

小朱520

2020-08-05

22.6493 4 2

python中的机器学习关于特征筛选的理解

特征筛选是在处理完异常值和缺失值之后，筛选出除了业务经验变量之外的x变量，一般为删除30%的保留70%就是第三部中的(score_func=f_regression,percentile=70上面的60换成70，这句代码的意思是保留百分之七十的有效x变量，第4步是对进行筛选的变量重新传入运行，第5步是对筛选后的值进行合并，x.iloc[:,fit.get_support(indices=True)

小朱520

2020-07-29

28.4000 4 4