读童话的狼

pip安装的时候的可以设置保存路径吗?

不可以,pip安装的文件会默认放到anaconda下的文件夹内,如果放到其他位置,有可能会调用不了

读童话的狼

2020-03-20

5.4377 2 2
  • 关注作者
  • 收藏

决策树模型用看一下数据的分布吗?

传统的决策树算法是数据分布敏感的,面对数据分布偏斜的样本集时,常导致少数类别样本的分类精度很低。已有的可以处理偏斜样本集的决策树算法只针对两种类别样本的集合。 在数据预处理中也是需要看数据分布的,需要提前进行变换处理。

读童话的狼

2020-03-20

0.0000 0 2
  • 关注作者
  • 收藏

决策树的优势在哪?

决策树易于理解和实现,人们在在学习过程中不需要使用者了解很多的背景知识,这同时是它的能够直接体现数据的特点,只要通过解释后都有能力去理解决策树所表达的意义。 对于决策树,数据的准备往往是简单或者是不必要的,而且能够同时处理数据型和常规型属性,在相对短的时间内能够对大型数据源做出可行且效果良好的结果。 易于通过静态测试来对模型进行评测,可以测定模型可信度;如果给定一个观察的模型,那么根据所产生的决策

读童话的狼

2020-03-20

0.0000 0 1
  • 关注作者
  • 收藏

决策树处理连续变量的是不是就是回归?

决策树是一种基本的分类与回归方法,本文叙述的是回归部分。回归决策树主要指CART(classification and regression tree)算法,内部结点特征的取值为“是”和“否”, 为二叉树结构。 所谓回归,就是根据特征向量来决定对应的输出值。回归树就是将特征空间划分成若干单元,每一个划分单元有一个特定的输出。因为每个结点都是“是”和“否”的判断,所以划分的边界是平行于坐标轴的。对

读童话的狼

2020-03-20

0.0000 0 2
  • 关注作者
  • 收藏

决策树为什么不做归一化?

因为数值缩放不影响分裂点位置,对树模型的结构不造成影响。 按照特征值进行排序的,排序的顺序不变,那么所属的分支以及分裂点就不会有不同。 而且,树模型是不能进行梯度下降的,因为构建树模型(回归树)寻找最优点时是通过寻找最优分裂点完成的,因此树模型是阶跃的,阶跃点是不可导的,并且求导没意义,也就不需要归一化。

读童话的狼

2020-03-20

0.0000 0 2
  • 关注作者
  • 收藏

C4.5分支时是利用的二分法吗?

当属性类型为离散型,无须对数据进行离散化处理;当属性类型为连续型,则需要对数据进行离散化处理。C4.5算法针对连续属性的离散化处理,核心思想:将属性A的N个属性值按照升序排列;通过二分法将属性A的所有属性值分成两部分(共有N-1种划分方法,二分的阈值为相邻两个属性值的中间值);计算每种划分方法对应的信息增益,选取信息增益最大的划分方法的阈值作为属性A二分的阈值。

读童话的狼

2020-03-20

0.0000 0 3
  • 关注作者
  • 收藏

决策树也是用于客户画像吗

用户画像,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。 用户画像最初是在电商领域得到应用的,在大数据时代背景下,用户信息充斥在网络中,将用户的每个具体信息抽象成标签,利用这些标签将用户形象具体化,从而为用户提供有针对性的服务。 决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价

读童话的狼

2020-03-20

0.0000 0 3
  • 关注作者
  • 收藏

决策树算法什么时候需要对变量进行分箱?

1、某些自变量类别数量较多或者区间型自变量,需要数据转换,分箱或多模型验证和测试 2、决策树算法对区间型自变量进行分箱操作时,无论是否考虑了顺序因素,都有可能因为分箱丧失某些重要的信息。尤其是当分箱前的区间型变量与目标变量有明显的线性关系时,这种分箱操作造成的信息损失更为明显。

读童话的狼

2020-03-20

0.0000 0 3
  • 关注作者
  • 收藏

在选择停止分支的时候看信息熵吗?

停止分支就是剪枝,剪枝是有很多参数的,最大树深,最大叶子节点数等,不只是看信息增益率的,可以设置信息增益小于某个值就不分支

读童话的狼

2020-03-20

0.0000 0 0
  • 关注作者
  • 收藏

信息增益是越高越好么?

信息增益是整个数据集的经验熵与特征A对整个数据集的经验条件熵的差值,信息增益越大即经验条件熵越小,那什么情况下的属性会有极小的的经验条件熵呢?举个极端的例子,如果将身份证号作为一个属性,那么,其实每个人的身份证号都是不相同的,也就是说,有多少个人,就有多少种取值,如果用身份证号这个属性去划分原数据集,那么,原数据集中有多少个样本,就会被划分为多少个子集,这样的话,会导致信息增益公式的第二项整体为0

读童话的狼

2020-03-20

0.0000 0 1
  • 关注作者
  • 收藏

如何更改DataFrame中某一列的名字?

df.rename(columns={'原列名':'新列名'},inplace=True)

读童话的狼

2020-03-18

0.0000 0 1
  • 关注作者
  • 收藏

轮廓系数如何计算的?

轮廓系数(Silhouette Coefficient),是聚类效果好坏的一种评价方式。最早由 Peter J. Rousseeuw 在 1986 提出。它结合内聚度和分离度两种因素。可以用来在相同原始数据的基础上用来评价不同算法、或者算法不同运行方式对聚类结果所产生的影响。 方法: 1,计算样本i到同簇其他样本的平均距离ai。ai 越小,说明样本i越应该被聚类到该簇。将ai 称为样本i的簇内不相

读童话的狼

2020-03-18

0.0000 0 4
  • 关注作者
  • 收藏

k-means中随着k增大总距离平方和是越来越小吗?

随着k增大,平方和是会逐渐变小的,直到k==n时平方和为0,因为每个点都是它所在的簇中心本身。

读童话的狼

2020-03-18

0.0000 0 2
  • 关注作者
  • 收藏

.labels_与.predict()的应用区别?

当数据量太大的时候!其实我们不必使用所有的数据来寻找质心,少量的数据就可以帮助我们确定质心了。当我们数据量非常大的时候,我们可以使用部分数据来帮助我们确认质心, 剩下的数据的聚类结果,使用predict来调用。 # 实例化的对象一致 k_means_partdata = KMeans(n_clusters=3, random_state=10) # 隔着选取一半样本进行聚类, 此处会生成3个质心

读童话的狼

2020-03-18

0.0000 0 1
  • 关注作者
  • 收藏

k-means相同数据运行出来的标签不一样?

k-means是聚类算法,也就是unsupervised learning也就是非监督学习. 所以clustering出来的标签是没有意义的。标签也就是用来表示相同标签的属于一个聚类,不同的标签的数据不同而已。而且,严格来说就不能叫标签,只能叫标记。

读童话的狼

2020-03-18

0.0000 0 1
  • 关注作者
  • 收藏

无监督学习需要分训练集、测试集吗?

无监督学习中,我们不知道数据集中数据、特征之间的关系,而是要根据聚类或一定的模型得到数据之间的关系。 测试集的目的是为了评估模型的准确率,也就是要将预测标签与真实标签进行对比,因为无监督学习是没有标签的,划分测试集也就没有意义

读童话的狼

2020-03-18

0.0000 0 3
  • 关注作者
  • 收藏

plt.cm.tab10如何选择颜色?

matplotlib.cm是matplotlib库中内置的色彩映射函数。 使用方法:matplotlib.cm.[色彩]('[数据集]')即对[数据集]应用[色彩]

读童话的狼

2020-03-18

0.0000 0 1
  • 关注作者
  • 收藏

K-means算法如何确定初始质心?

常见的方法是随机的选取初始质心,但是这样簇的质量常常很差。处理选取初始质心问题的一种常用技术是:多次运行,每次使用一组不同的随机初始质心,然后选取具有最小SSE(误差的平方和)的簇集。这种策略简单,但是效果可能不好,这取决于数据集和寻找的簇的个数。              第二种有效的方法是,取一个样本,并使用层次聚类技术对它聚类。从层次聚类中提取K个簇,并用这些簇的质心作为初始质心。该方法通常

读童话的狼

2020-03-18

0.0000 0 5
  • 关注作者
  • 收藏

map()、apply()、applymap()有什么区别?

map()是Series对象的一个函数,DataFrame中没有map(),map()的功能是将一个自定义函数作用于Series对象的每个元素; 现在使用map()函数来将data1这一列的数据改为保留三位小数显示 df['data1'] = df['data1'].map(lambda x : "%.3f"%x) apply()函数的功能是将一个自定义函数作用于DataFrame的行或者列; 现

读童话的狼

2020-03-18

0.0000 0 0
  • 关注作者
  • 收藏

数据库导入数据汉字乱码怎么解决呢?

MySQL数据库导入数据默认是utf8,所以导入数据要提前查看下文件的编码,csv文件一般是ANSI格式的,导入数据库需要设定下,还要注意分隔符号

读童话的狼

2020-03-18

28.9745 1 3
  • 关注作者
  • 收藏
<140414258>