数据科学专业问答社区，好文章，一字千金--CDA答疑社区

数据清洗的一些小技巧

批量读取数据防止中文乱码的现象类似于.format文本处理中的去除非中英文字符

小朱520

2020-09-08

30.9477 1 1

SQL，bi，python三者表连接的区别之处

sql中的表连接：bi中的表连接：python中的表连接：三个工具的表连接有一定的相同之处，又是有区别的，需要注意区分。

小朱520

2020-09-02

32.2574 1 0

机器学习，探索性分析的目的，以及数据编码的一种技巧

探索性分析的主要目的是，挖掘新的有价值的东西，以及对数据的平衡度进行一个检测。对序列编码的一种格式操作，

小朱520

2020-08-23

37.9030 4 0

机器学习中PCA和LDA的两种降维方法解读

降维主要有两种方法，pca和lda，两者的区别是，pca是一种五监督的降维，是使数据尽可能散的在一条线上，而lda是一种有监督的降维，是使数据有分类的落在一条线上。

小朱520

2020-08-18

24.4744 2 1

机器学习，数据清洗中LabeEncoder编码的演示

一般的LabeEncoder是对一个序列进行编码，如果数据是一个df形式的它的编码需要借助for循环来完成，如图

小朱520

2020-08-18

24.4744 2 1

python中对unstack和stack的区别

这个是去除订单中含有c的订单上图中的1是对数据格式的转换操作，unstack是把下图转为上图的格式，stack是把上图转为下图的格式。

小朱520

2020-08-16

68.9602 1 3

机器学习关于关联规则的简单操作

对于关联规则，大致可以分为两大步骤，第一步是使用apriori 库找出频繁集的操作为：1是为了让原本的dataset数据变成2的模式，因为机器学习都是m*n的数据格式。第二大步是使用association_rules库找关联规则操作为：

小朱520

2020-08-15

37.1459 1 2

假设关联规则为x==》y支持度的意思是事物x和y在总事物集出现的频次，好比牛肉和鸡肉同时购买的次数占整个订单集的数为三分之七就是它的支持度，以概率呈现，越大越好。置信度是指买了x会买y的概率，公式为，买了x又买y的单次数除以所有买x的单次数，好比上图，如果x是牛肉，y是鸡肉，那么它的置信度为4/3.以概率呈现，概率越大说明这个x==》y的关联规则越好。一般强关联规则都是需要支持度大于最小支持度（自

小朱520

2020-08-15

37.1459 1 2

机器学习中K折交叉验证法的操作和解释

K折交叉验证，是将数据集按等比例划分成K份，以其中的一份作为测试数据，其他的K-1份数据作为训练数据进行实验，并循环交替K次

小朱520

2020-08-14

47.5540 3 3

机器学习，对贝叶斯的三种模型的简单总结

贝叶斯常常用于文本的分类问题，有两种对于处理文本特征的模型第一种：词袋模型是把原来的1转为2，第二种为是比较常用的，当然还有结巴：贝叶斯有三种模型，分别是多项式模型多用于离散化数据，有一个参数需要优化还有就是伯努利模型同样适用于离散化数据，但是他的取值只能是1和0这样的二值化处理，也是有一个参数需要优化：第三个是高斯模型，适用于连续变量，没有需要优化的参数可以直接使用。一下是三种模型的代码操作

小朱520

2020-08-14

47.5540 3 2

机器学习中关于逻辑回归参数调节的设置注意点

逻辑回归一般处理的都是二分类问题，但是进行参数的选择也是可以达成多分类问题，需要调节的参数有下图：需要注意的是在进行multi—class这个参数的优化时需要改变solver的参数,如下图：

小朱520

2020-08-12

22.4147 3 2

机器学习中交叉验证和网格搜索，cv的设置

交叉验证的次数一般都是5或者10.

小朱520

2020-08-12

22.3108 3 2

机器学习中四种线性回归模型的实现操作方式

sklearn中的标准线性回归模型的实现它没有需要优化的系数上图是岭回归，lasso回归和弹性网的模型创建以及优化方法，除了弹性网的优化系数为两个，而其他两个都是一个，下图为三种回归方法带入案例中的示例：可以注意一下上面的粗细调值问题，多次选择找出最优的法则。

小朱520

2020-08-11

34.9110 3 0

机器学习中对数据进行编码以及降维的操作

因为模型喂进去的数据需要是数值型的，所以在进行建模之前要对一些不是数值型的数据进行编码，图上步骤一是序列型编码的操作，步骤二是把数据中不是二分类的数值列筛选出来到column中进行哑编码如下图操作：对于进行过哑编码的数据会存在维度增多数据过拟合等问题，这时候就需要进行降维（pca（主成分））下图就是降维的操作，1可以是数值也可以是百分比，数值代表降到几个维度，2是查看降维后每个维度所保留的信息百分

小朱520

2020-08-10

34.4753 4 4

机器学习中交叉验证法中scoring这个参数的设置要求

在交叉验证中，对于scoring这个参数，除了在二分类问题（y有两个类别，是或不是，卖或不买等）以及样本不平衡的时候经常设置这个参数，别的默认即可，其实这个参数的背后意思就是根据roc线面积来确定的。

小朱520

2020-08-10

34.4645 4 0

python中三种查看数据类型的区别

图中1表示查看数据中数值型数据的类型，2表示只查看oject类型的数据类型。其中count代表共有多少数据，unique代表每列数据中有几类，比如性别一列为2表示两类，top表示那种类型出现次数最高，freq表示出现次数最高类别的次数。这个可以查看不同类型的全部数据类型注意三者的区别

小朱520

2020-08-09

31.4607 2 3

机器学习回归树的构建以及参数的优化，和模型的保存具体操作流程

上图是回归树的代码操作，只是简单的执行，里面的参数并没有优化，上图是对回归树的一些参数进行优化的操作，图中的1，是可以显示出模型在优化的过程当然也可以不设置，2是打印出最优模型形成的参数，3可以说是相同的意义取一个就可以，最下面的是将打印出的最优参数进行带入测试，而上面是直接在2的基础上得分。上图是如果觉得这个模型比较好还需要再利用，可以进行保存，可以节约下次使用模型还需要进行训练的流程，把直接训

小朱520

2020-08-09

31.4607 2 1

机器学习中决策树的中英文展示操作

操作以上代码可以展示出树的模型，标注1的地方是需要先在cmd里pip install 它，然后把装有grabhviz的文件放入2中执行即可。想要让树的根节点展示为中文，需要先执行1，然后在装有grabhviz的文件下的bin里查找存入的tree，dot文件使用Notepad++打开，然后修改fontname为2，然后在anacondaprompt打开输入cd 和1中的文件路径进行执行，然后输入2

小朱520

2020-08-08

31.3758 1 2

机器学习ID3，C4.5，CART决策树构建原理对比

三者算法原理的比较

小朱520

2020-08-08

37.6146 2 9

机器学习cart二叉树的算法展示

在图中年龄是cart二叉树中的回归问题使用的平方误差最小化选择特征的方法。从图上来看得知先从职业这个属性中选取最小的平方误差，算法如图4,5,6，最小的为5，然后以相同的方法计算出性别这个属性，选出最小的平方误差，然后与职业中的5相比选择最小的平方误差，作为顶层树根结，而是否已婚是二叉树的分类问题原理相同。

小朱520

2020-08-08

31.3758 1 1