姚慧扬

聚类与分类的区别

分类:监督学习, 有限类别中的某一类聚类:无监督学习, 不依赖预先定义的类或带类标记的训练实例, 需要由聚类学习算法自动确定标记。 聚类是一种探索性的分析, 聚类分析所使用方法的不同, 常常会得到不同的结论。 不同研究者对于同一组数据进行聚类分析, 所得到的聚类数未必一致

姚慧扬

2020-08-05

22.5651 3 2
  • 关注作者
  • 收藏

机器学习入门

什么是机器学习?专门研究计算机怎样模拟人类的学习行为,用获取到的新知识重新组织已有的知识结构,不断改善自身的性能机器学习的分类:监督学习(supervised learning)无监督学习(unsupervised learning )半监督学习(semi-supervised learning )强化学习(reinforcement learning, 增强学习)监督学习:训练模型时有样本对应的

姚慧扬

2020-08-04

34.9290 2 5
  • 关注作者
  • 收藏

归一化对模型的影响

对于Lasso模型,使用MaxAbsScaler方式时,mse增大十分明显,且归一化后结果高于不进行归一化时;对于Redige模型,归一化结果也明显高于不归一化时的结果;对于SVR模型,不进行归一化时,其MSE会非常大;对于RandomForest和XGBoost来说,是否进行归一化对结果影响不大;

姚慧扬

2020-08-03

45.6462 5 2
  • 关注作者
  • 收藏

使用最小二乘的条件

①告诉我模型长什么样;②根据模型得到它的损失函数,损失函数就是让误差让误差在等号的左侧,其他全放右侧用来表示误差; 至于为什么要取平方,取完平方项图像由直线变成了U形图,方便求导获得最小点,这个最小点就是误差最小的地方;③根据这个最小的点就可以误差最小的β0和β1.

姚慧扬

2020-08-01

29.6773 6 3
  • 关注作者
  • 收藏

主成分判断标准

主成分分析优劣的判定标准:第一,尽量将更多变量压缩在第一主成分和第二主成分之内;第二,第一主成分解释的信息能够超过 50%;第三,第一主成分和第二主成分解释的信息总和超过 70%;第四,第一主成分除以第二主成分的比值大于 3;第五,用更少的主成分代表更多的变量。

姚慧扬

2020-07-30

30.6373 2 3
  • 关注作者
  • 收藏

逻辑回归

logistic回归1.模型长成什么样? log(p/1-p)=β0+β1x+ε a.y是分类数据 b.R^2与线性回归的R^完全不同(P,R,f,准确率) c.数据分区(可以处理数据过拟合)2.损失函数(成本函数)长成什么样? a.大概记住损失函数是什么样子?3.更新函数长成什么样? a.更新函数的内容都一样,在机器学习中的形式可能不一样 b.python包中参数怎么选?参数搜索功能分区测试

姚慧扬

2020-07-29

30.7657 4 2
  • 关注作者
  • 收藏

算法特征汇总

最小二乘法(1)多元回归中,ols 可以处理多个自变量的情况,寻求残差平方和最小化;(2)将数据视为矩阵,利用线性代数寻求系数最优化,对内存要求很高;(3)大数据场景下,存在线性和内存约束问题。(4)小数据情况的常用算法;正则化法 (1)一方面寻求最小化模型误差,另一方面可以减少模型复杂度(取 L1 绝对值),如自变量个数很多的时候,选择较少的重要变量来表示模型。 (2)有利于消除共线性和过拟合现

姚慧扬

2020-07-28

31.0330 3 1
  • 关注作者
  • 收藏

数据分析流内容

1.需求:搭建业务框架。2.y 量化:连接业务和统计。3.特征选择:区分 x 的重要性,特征选择。4.描述:描述 y 和重要的 x、不合理取值。------------------5.预分析:缺失值、异常值、拟合判断、变量变换、取值编码、特征选择、共线性。6.建模:可視化描述→相关分析→模型。 7.修正:假设条件、优缺点。------------------8.评估:拟合指标和业务评价。9.应用:

姚慧扬

2020-07-27

30.8409 1 5
  • 关注作者
  • 收藏

数据分析流内容

1.需求:搭建业务框架。2.y 量化:连接业务和统计。3.特征选择:区分 x 的重要性,特征选择。4.描述:描述 y 和重要的 x、不合理取值。------------------5.预分析:缺失值、异常值、拟合判断、变量变换、取值编码、特征选择、共线性。6.建模:可視化描述→相关分析→模型。 7.修正:假设条件、优缺点。------------------8.评估:拟合指标和业务评价。9.应用:

姚慧扬

2020-07-27

30.8409 1 2
  • 关注作者
  • 收藏

什么是KPI指标?

将原始数据进行维度分组后按照统计规则汇总计算得到的汇总值,此类指标可以帮助决策者快速了解大体的经营情况,往往称之为KPI指标1求和类指标:对度量值进行求和计算得到的指标,诸如销售数量、销售金额指标结合特定维度的统计结果,可以帮助决策者了解总趋势。2 求平均类指标:对度量值进行求平均计算得到的指标,诸如人均消费,月均成单量指标结合特定维度的统计结果,可以帮助决策者了解业务运营的平均水

姚慧扬

2020-07-23

35.9300 4 1
  • 关注作者
  • 收藏

pandas中的重要函数和方法

panda中的 map 是 Series 中特有的方法,通过它可以对 Series 中的每个元素实现转换。panda中的applymap 是 DataFrame 中特有的方法,通过它可以对 DataFrame 中的每个元素实现转换。rename 用来修改列名,索引名方法:df1.append(df2) 按照列索引纵向连接函数:pd.concat() 可以通过指定轴,来进行不同方向的拼接, 拼接

姚慧扬

2020-07-22

36.3844 4 5
  • 关注作者
  • 收藏

数据分析方法论

树状分析方法论:1.梳理行业常用指标,选取其中一个作为总指标;2.将总指标拆解成其他指标的求和或者乘积,如果指标较少的话,可以将指标拆成不同纬度下的同一指标,逐层下拆,直至不能拆解为止。3.将指标拆解思路排列成树状结构,并增加环比或者同比值,借变化比率来快速定位问题。

姚慧扬

2020-07-21

25.2870 3 2
  • 关注作者
  • 收藏

python之pandas的部分知识点

Pandas通常是用于数据分析过程中, 数据的清洗, 数据预处理, 数据的描述性分析等过程中.在整个Python数据分析的生态环境中, Pandas的地位非常重要, 利用Pandas可以快速便捷的对数据进行各种各样的处理与操作.Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。在Pandas中, 最重要的两种数据结构是1维的Series和

姚慧扬

2020-07-21

25.1982 2 5
  • 关注作者
  • 收藏

ndarray的一些注意事项

非常重要# 每一个坐标轴 axis 都有一个编号# 从外层到内层编号, 0, 1, 2 axis=0 axis = 1 axis=2# 从内层到外层进行编号 -1, -2, -3 axis = -1, axis = -2 , axis = -3# axis = 0 , axis = -3 是一个轴# axis = 1, axis=-2 是一个轴# axis = 2 axis =

姚慧扬

2020-07-20

27.4900 1 2
  • 关注作者
  • 收藏

Numpy包的使用

重要对象:ndarray (n-dimension-array)每个ndarray只能装一种数据类型!如果类型不匹配,NumPy 将会向上转换(如果可行).PS:向上转化:字符串(最大)>浮点型(次之)>整数型(最小)ndarray中的每个元素在内存中使用相同大小的块.查看数据类型:a.dtype改变数据类型:astype()ndarray 与 python 原生 array 有什么区别NumPy

姚慧扬

2020-07-20

27.7749 3 2
  • 关注作者
  • 收藏

面向对象的课上笔记

所有实例化出来的对象,同时获得类属性面向三大特性:封装,继承,多态类的两个东西类属性(变量,数据)类方法(函数,动作)访问类属性的时候不需要括号;访问类方法的时候就需要括号

姚慧扬

2020-07-19

27.5542 2 3
  • 关注作者
  • 收藏

pymsql包的使用

(一)pymysql的安装(二)python连接mysql步骤: 1.创建python与mysql的连接connect 2.利用connect创建游标cursor 3.创建变量接收SQL语句(SQL语句用双引号框住) 4.利用游标cursor执行sql语句 用游标执行SQL,cursor.execute(SQL) 情况①:增删改后需要用连接提交 connect.commit() 后才能操作生效

姚慧扬

2020-07-17

28.4489 3 2
  • 关注作者
  • 收藏

python进行文件操作的步骤:

第一步: 打开文件f = open(文件名, 操作模式, encoding=文件编码)第二步: 读写文件f.read()f.write()第三步: 关闭文件f.close()文件指针:文件读写中有指针的概念存在, 打开文件时默认指针处于文件内容开头, 当读取文件全部内容后, 指针移动到文件末尾.当文件处于指针末尾时, 是无法读取文件中的字符串的. 而这时如果写入字符串, 会写入到当前文件最后.re

姚慧扬

2020-07-16

28.3396 3 0
  • 关注作者
  • 收藏

python集合&函数&模块内容补充

s1 & s2 交集s1 | s2 并集s1-s2 差集all(全真才真,一假全假)any(全假才假,一真全真)return 除了返回函数结果,还代表函数的终止不同的函数,可以定义相同的名字的局部变量,但是各用个的不会产生影响局部变量的作用,为了临时保存数据需要在函数中定义变量来进行存储,这就是它的作用对于可变类型全局变量,是不能在函数内部进行修改的,非要改需要用global进行声明;对于不可变类

姚慧扬

2020-07-15

20.0496 2 6
  • 关注作者
  • 收藏

描述统计

Question:某华润万家超市后台记录了一年内53万余条消费者的消费数据,如何做描述统计分析(撰写一份数据描述统计分析报告) ?五个角度:一.总体规模的描述——总量指标二.对比关系的描述——相对指标三.集中趋势的描述——平均指标四.离散程度的描述——变异指标五.分布形态的描述——偏态与峰态

姚慧扬

2020-07-14

13.6228 2 1
  • 关注作者
  • 收藏

上一页123>