ID3算法决策树是通过信息增益的值得大小来构造决策树最大的为顶层,如图示例C4.5是通过信息增益率来构建决策树,根据值最的为顶层,算法如图这里算的为outlook的信息增益率,14为样本总数。当然可以以此来计算其他。
小朱520
2020-08-08
对于决策树算法而言,如果说上一节点为分类型变量的话,下一节点不可以使用这个属性,如图outlook为分类型变量,如果下面没有分完是不可以再使用了,但是如果上一节点是离散型变量,好比是humidity这个变量,如果下面的yes项并没有分完是还可以在yes节点使用humidity这个变量继续分,只不过是需要在小于70的这个连续变量中重新确定阈值在划分。(而这个windy虽然在上面的别的枝干使用过了,但
小朱520
2020-08-08
%matplotlib inline 在线显示图片import numpy as npdata = np.genfromtxt('kmeans.txt',delimiter=' ') 使用np导入文件import pandas as pddata=pd.read_csv('D:\CDA\File\datingTestSet.txt',sep=' ',names=['x1','x2','x3','y
小朱520
2020-08-07
在算法kmeans中的k代表数据分类的簇数应用于聚类,原始数据为分散数据,k=n_clusters,一般为10个以内。在算法knn中k代表,原数据已经分好类用于新数据的预测分类,k=n-neighbors,表示选择样本数据中前k个最相似的数据,应用于分类。
小朱520
2020-08-07
precision为精准率 recall为召回率 f1-score为调和参数 support为样本总数 其中1/p+1/r=2/f accuracy 为正确率 macro avg 宏平均 = 3类样本precision的均值=(1+1+1)/3weighted avg 加权平均=3类样本的每个precision乘以每类的support除以总样本support45(1*
小朱520
2020-08-06
特征筛选是在处理完异常值和缺失值之后,筛选出除了业务经验变量之外的x变量,一般为删除30%的保留70%就是第三部中的(score_func=f_regression,percentile=70上面的60换成70,这句代码的意思是保留百分之七十的有效x变量,第4步是对进行筛选的变量重新传入运行,第5步是对筛选后的值进行合并,x.iloc[:,fit.get_support(indices=True)
小朱520
2020-07-29
使用0S.进行批量读取数据文件的格式具体为第4第5,其中lagou-copy为要读取数据的总文件夹,第11条为过滤出来除了自己所需要的csv文件以外的不需要文件类型第15条为查询所读入的需要文件格式,
小朱520
2020-07-26