数据科学专业问答社区，好文章，一字千金--CDA答疑社区

聚类与分类的区别

分类：监督学习，有限类别中的某一类聚类：无监督学习，不依赖预先定义的类或带类标记的训练实例，需要由聚类学习算法自动确定标记。聚类是一种探索性的分析，聚类分析所使用方法的不同，常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析，所得到的聚类数未必一致

姚慧扬

2020-08-05

22.5651 3 2

机器学习入门

什么是机器学习?专门研究计算机怎样模拟人类的学习行为,用获取到的新知识重新组织已有的知识结构,不断改善自身的性能机器学习的分类:监督学习（supervised learning）无监督学习（unsupervised learning ）半监督学习（semi-supervised learning ）强化学习（reinforcement learning，增强学习)监督学习:训练模型时有样本对应的

姚慧扬

2020-08-04

34.9290 2 5

归一化对模型的影响

对于Lasso模型，使用MaxAbsScaler方式时，mse增大十分明显，且归一化后结果高于不进行归一化时;对于Redige模型，归一化结果也明显高于不归一化时的结果;对于SVR模型，不进行归一化时，其MSE会非常大;对于RandomForest和XGBoost来说，是否进行归一化对结果影响不大;

姚慧扬

2020-08-03

45.6462 5 2

使用最小二乘的条件

①告诉我模型长什么样;②根据模型得到它的损失函数,损失函数就是让误差让误差在等号的左侧,其他全放右侧用来表示误差; 至于为什么要取平方,取完平方项图像由直线变成了U形图,方便求导获得最小点,这个最小点就是误差最小的地方;③根据这个最小的点就可以误差最小的β0和β1.

姚慧扬

2020-08-01

29.6773 6 3

主成分判断标准

主成分分析优劣的判定标准：第一，尽量将更多变量压缩在第一主成分和第二主成分之内；第二，第一主成分解释的信息能够超过 50%；第三，第一主成分和第二主成分解释的信息总和超过 70%；第四，第一主成分除以第二主成分的比值大于 3；第五，用更少的主成分代表更多的变量。

姚慧扬

2020-07-30

30.6373 2 3

逻辑回归

logistic回归1.模型长成什么样? log(p/1-p)=β0+β1x+ε a.y是分类数据 b.R^2与线性回归的R^完全不同(P,R,f,准确率) c.数据分区(可以处理数据过拟合)2.损失函数(成本函数)长成什么样? a.大概记住损失函数是什么样子?3.更新函数长成什么样? a.更新函数的内容都一样,在机器学习中的形式可能不一样 b.python包中参数怎么选?参数搜索功能分区测试

姚慧扬

2020-07-29

30.7657 4 2

算法特征汇总

最小二乘法（1）多元回归中，ols 可以处理多个自变量的情况，寻求残差平方和最小化；（2）将数据视为矩阵，利用线性代数寻求系数最优化，对内存要求很高；（3）大数据场景下，存在线性和内存约束问题。（4）小数据情况的常用算法；正则化法（1）一方面寻求最小化模型误差，另一方面可以减少模型复杂度（取 L1 绝对值），如自变量个数很多的时候，选择较少的重要变量来表示模型。（2）有利于消除共线性和过拟合现

姚慧扬

2020-07-28

31.0330 3 1

1.需求：搭建业务框架。2.y 量化：连接业务和统计。3.特征选择：区分 x 的重要性，特征选择。4.描述：描述 y 和重要的 x、不合理取值。------------------5.预分析：缺失值、异常值、拟合判断、变量变换、取值编码、特征选择、共线性。6.建模：可視化描述→相关分析→模型。 7.修正：假设条件、优缺点。------------------8.评估：拟合指标和业务评价。9.应用：

姚慧扬

2020-07-27

30.8409 1 5

数据分析流内容

1.需求：搭建业务框架。2.y 量化：连接业务和统计。3.特征选择：区分 x 的重要性，特征选择。4.描述：描述 y 和重要的 x、不合理取值。------------------5.预分析：缺失值、异常值、拟合判断、变量变换、取值编码、特征选择、共线性。6.建模：可視化描述→相关分析→模型。 7.修正：假设条件、优缺点。------------------8.评估：拟合指标和业务评价。9.应用：

姚慧扬

2020-07-27

30.8409 1 2

什么是KPI指标?

将原始数据进行维度分组后按照统计规则汇总计算得到的汇总值，此类指标可以帮助决策者快速了解大体的经营情况，往往称之为KPI指标1求和类指标：对度量值进行求和计算得到的指标，诸如销售数量、销售金额指标结合特定维度的统计结果，可以帮助决策者了解总趋势。2 求平均类指标：对度量值进行求平均计算得到的指标，诸如人均消费，月均成单量指标结合特定维度的统计结果，可以帮助决策者了解业务运营的平均水

姚慧扬

2020-07-23

35.9300 4 1

pandas中的重要函数和方法

panda中的 map 是 Series 中特有的方法，通过它可以对 Series 中的每个元素实现转换。panda中的applymap 是 DataFrame 中特有的方法，通过它可以对 DataFrame 中的每个元素实现转换。rename 用来修改列名，索引名方法:df1.append(df2) 按照列索引纵向连接函数:pd.concat() 可以通过指定轴,来进行不同方向的拼接, 拼接

姚慧扬

2020-07-22

36.3844 4 5

数据分析方法论

树状分析方法论：1.梳理行业常用指标，选取其中一个作为总指标；2.将总指标拆解成其他指标的求和或者乘积，如果指标较少的话，可以将指标拆成不同纬度下的同一指标，逐层下拆，直至不能拆解为止。3.将指标拆解思路排列成树状结构，并增加环比或者同比值，借变化比率来快速定位问题。

姚慧扬

2020-07-21

25.2870 3 2

python之pandas的部分知识点

Pandas通常是用于数据分析过程中, 数据的清洗, 数据预处理, 数据的描述性分析等过程中.在整个Python数据分析的生态环境中, Pandas的地位非常重要, 利用Pandas可以快速便捷的对数据进行各种各样的处理与操作.Pandas的名称来自于面板数据（panel data）和python数据分析（data analysis）。在Pandas中, 最重要的两种数据结构是1维的Series和

姚慧扬

2020-07-21

25.1982 2 5

ndarray的一些注意事项

非常重要# 每一个坐标轴 axis 都有一个编号# 从外层到内层编号, 0, 1, 2 axis=0 axis = 1 axis=2# 从内层到外层进行编号 -1, -2, -3 axis = -1, axis = -2 , axis = -3# axis = 0 , axis = -3 是一个轴# axis = 1, axis=-2 是一个轴# axis = 2 axis =

姚慧扬

2020-07-20

27.4900 1 2

Numpy包的使用

重要对象:ndarray (n-dimension-array)每个ndarray只能装一种数据类型!如果类型不匹配，NumPy 将会向上转换（如果可行）.PS:向上转化:字符串(最大)>浮点型(次之)>整数型(最小)ndarray中的每个元素在内存中使用相同大小的块.查看数据类型:a.dtype改变数据类型:astype()ndarray 与 python 原生 array 有什么区别NumPy

姚慧扬

2020-07-20

27.7749 3 2

面向对象的课上笔记

所有实例化出来的对象,同时获得类属性面向三大特性:封装,继承,多态类的两个东西类属性(变量,数据)类方法(函数,动作)访问类属性的时候不需要括号;访问类方法的时候就需要括号

姚慧扬

2020-07-19

27.5542 2 3

pymsql包的使用

(一)pymysql的安装(二)python连接mysql步骤: 1.创建python与mysql的连接connect 2.利用connect创建游标cursor 3.创建变量接收SQL语句(SQL语句用双引号框住) 4.利用游标cursor执行sql语句用游标执行SQL,cursor.execute(SQL) 情况①:增删改后需要用连接提交 connect.commit() 后才能操作生效

姚慧扬

2020-07-17

28.4489 3 2

python进行文件操作的步骤:

第一步: 打开文件f = open(文件名, 操作模式, encoding=文件编码)第二步: 读写文件f.read()f.write()第三步: 关闭文件f.close()文件指针:文件读写中有指针的概念存在, 打开文件时默认指针处于文件内容开头, 当读取文件全部内容后, 指针移动到文件末尾.当文件处于指针末尾时, 是无法读取文件中的字符串的. 而这时如果写入字符串, 会写入到当前文件最后.re

姚慧扬

2020-07-16

28.3396 3 0

python集合&函数&模块内容补充

s1 & s2 交集s1 | s2 并集s1-s2 差集all(全真才真,一假全假)any(全假才假,一真全真)return 除了返回函数结果,还代表函数的终止不同的函数，可以定义相同的名字的局部变量，但是各用个的不会产生影响局部变量的作用，为了临时保存数据需要在函数中定义变量来进行存储，这就是它的作用对于可变类型全局变量,是不能在函数内部进行修改的,非要改需要用global进行声明;对于不可变类

姚慧扬

2020-07-15

20.0496 2 6

描述统计

Question：某华润万家超市后台记录了一年内53万余条消费者的消费数据，如何做描述统计分析（撰写一份数据描述统计分析报告）？五个角度：一.总体规模的描述——总量指标二.对比关系的描述——相对指标三.集中趋势的描述——平均指标四.离散程度的描述——变异指标五.分布形态的描述——偏态与峰态

姚慧扬

2020-07-14

13.6228 2 1