数据科学专业问答社区，好文章，一字千金--CDA答疑社区

随机森林

- 随机森林: - 是Bagging 的一个扩展变体,每一个弱分类器都为一棵决策树且进一步在决策树的训练过程中引入随机属性选择. - 随机森林的**随机属性**体现在三个部分: ==1) 随机样本采样 2) 在进入模型训练前,对特征随机选择 3) 在每个节点,先从属性集合中选择包含$k = log_2{d}$个子集,再从这些子集中选择一个最优属性进行划分.== -

慢慢爬的Rui

2020-06-30

24.6788 4 2

对于类别P(x)来说, 朴素贝叶斯的判定准则为: 根据大数定律, 当训练集包含充足的独立分布样本,P(c) 可通过各类样本出现的频率估计 P(c) = |D(c)| / |D|, 所以问题关键为如何求出条件概率P(x|c),根据数据集的种类(离散,连续), 使用场景, 朴素贝叶斯可分为三类: (1) 高斯贝叶斯高斯贝叶斯要求数据集是连续性且符合正态分布,则条件概率P(x|c) 可由正态分布密度函数

慢慢爬的Rui

2020-06-28

19.1182 4 1

Anaconda 安装graphviz

Graphviz作为决策树可视化工具,本文接收GraphViz如何安装: 1, 在 anaconda 导航点击左侧environment , 在搜索中搜索graphviz ,找到graphviz相关包与依赖组件2. 点击apply,开始安装,安装成功后会显示 3. 使用代码测试 ,输出决策树PDF

慢慢爬的Rui

2020-06-18

22.3975 2 5

K-NN 基本知识

类别基本分类与回归方法核心思想一个样本在特征空间中的k个最相邻的样本大多属于一个类别工作原理计算距离欧氏距离曼哈顿距离马氏距离夹角余弦: 用两个向量的夹角余弦值衡量两个样本差异大小,余弦值越趋向于1, 说明两个向量夹角趋向于0 k-近邻算法步骤计算已知类别数据中点与当前点之间距离按照距离递增次序排序

慢慢爬的Rui

2020-06-16

24.8306 2 3

标准化的方法

(一) 为什么要进行标准化把特征的各个维度标准化到特定的区间把有量纲表达式变为无量纲表达式 (二)标准化常用方法 1. standard scaler : 需满足数据为正太分布 (x- mean(x))/std(x) 2. MinmaxScaler : 将数据变换到要求的范围 (b-a) * (x-min)/(max-min) * a 3. RobustScaler: 在数据分

慢慢爬的Rui

2020-06-11

27.2622 2 3

逻辑回归

(一) 基本概念 (二) 代码实现: from sklearn import linear_model log = linear_model.LogisticRegression(solver='lbfgs',C=3,max_iter=1000) #实例化 log.fit(xtrain,ytrain) #拟合数据 log.score(xtest,ytest) #评估模型

慢慢爬的Rui

2020-06-11

16.5545 5 5

方差分析

方差分析是研究类别型自变量与数值型因变量之间的关系，它在形式上是比较多个总体的均值是否相等。方差分析的思想来自于误差的分解，对于来自同一个分布的数据，抽样带来的误差其实只有随机误差，即随机抽样抽到的不同值与均值之间的差距, 这一部分被称为组内误差; 不同组之间误差被称为组间误差(SSA) 总体误差（SST）分为组间误差和组内误差一个连续型 , 一个分类型(1 or 2) --- 使用t检验;

慢慢爬的Rui

2020-06-08

16.1780 4 1

dataframe 的索引

df索引看似比较复杂,但还是有规律可循: 1. [ ] 索引列时,形式为: df[[ ]] [ ] 无法单独索引某行,索引是需要借助; 例: df[ 2:5] 2. df.loc 索引列时: 形式为: df.loc[: , ['A']] df.loc 索引行时,形式为 : df.loc[['a','b ' ]] 3. 当同时索引列和行时, 推荐采用df.loc[ ]

慢慢爬的Rui

2020-06-03

14.7792 5 4

绘制pyecharts

1. 在官方文档中寻找所需要的绘制图像的类型 ; http://pyecharts.org/#/zh-cn/basic_charts 2. 找到所需图像后,在gallery 示例中寻找示例代码 ; 3. 研究代码,将示例中使用的数据替换成自己的数据 ; 4. 绘制图像

慢慢爬的Rui

2020-06-02

18.2548 5 2

变化数组形态

1. np.hstack : 相当于横向堆叠,要求: 行数一致 = np.concatenate((a,b),axis = 1) 2. np.vstack : 数组的纵向堆叠 = np.concatenate((a,b),axis = 0) 3.np.vsplit : 数组的纵向切割 4. np.hsplit( )数组的横向切割

慢慢爬的Rui

2020-06-01

13.8882 2 3

安装python常用模块

1. 在网站中 https://pypi.org/ 找到所需的包 eg. numpy 2. 点击复制 ,获取安装路径 3. 为了增加下载速度, 在获得的安装路径下 -i https://pypi.tuna.tsinghua.edu.cn/simple 4. 下载完成

慢慢爬的Rui

2020-05-28

8.8496 3 2

字典几点注意事项

1. 字典是无序的，所以不存在切片 2. 字典里面的key，必须是不可变数据类型，而且不能重复 3. value无要求 4. 不可变数据类型：布尔，数值，字符串，元组 5. 可变：列表,字典，集合

慢慢爬的Rui

2020-05-27

30.6543 5 2

永久修改字符串

在python中，字符串的方法一般无法永久改变字符串，比如：以下介绍几种可以永久改变字符串的方法： 1）将字符串转换为列表，修改列表后，再将列表转换回字符串； 2) 通过切片的形式； 3) 通过replace的方式；

慢慢爬的Rui

2020-05-26

0.0023 2 5

Jupyter Notebook 中好用的插件

1.Table of contents : 可以更容易导航 Table of Contents 通过添加 TOC 链接解决了这个问题，通过 TOC 链接你可以定位到页面中的任何位置。 2. Variable Inspector : 显示所有创建的变量，同Spyder 3. Autopep8 : 自动更改代码格式，使代码更漂亮 4. Hinterland :代码补全与提示

慢慢爬的Rui

2020-05-25

13.8629 7 2

导数与微分

导数由极限的含义严格定义：于是：其中，Δy代表了微分几何含义：导数：代表了变化率；切线：有了导数后可被确定下来；微分： dy, 代表向上变化的一点数值；

慢慢爬的Rui

2020-05-20

15.9075 4 5

有关移动平均

1. 利用时间智能函数 datesinperiod 创建某一间隔移动平均 eg.销量移动平均 = CALCULATE(AVERAGE('批售数据'[销量]),DATESINPERIOD('调用的函数'[调用日期],LASTDATE('调用的函数'[调用日期]),-3,MONTH)); 注意： lastdate 为调用选择日期的最后一天所以此表达式为所选日期前推3个月； 2. 若想方便控

慢慢爬的Rui

2020-05-15

83.5945 6 0

餐饮案例

餐饮分析仪：用来描述事实，对运营情况有所了解；餐饮行业因具有快消属性，所以在汇总时往往以天为单位统计，其展现内容由服务业性质决定在此案例中，为了避免跨表汇总，重点汇总指标在power query 中建立好。

慢慢爬的Rui

2020-05-14

70.2644 3 2

客户属性

根据九宫格，可将客户分为5个属性：忠诚，进阶，大众，保值，偶然为了企业收益最大化，通过数据分析，选择将哪种会员属性进化（加速度a 最大的会员种类）忠诚：已经没有提升空间，不是店家重点关注对象，不会推广更大的福利与折扣；进阶 - 忠诚：推广难度大于保值 - 大众，需通过人群数量决定；大众 - 进阶：推广难度大于保值 - 大众，需通过人群数量决定；进阶-

慢慢爬的Rui

2020-05-13

43.2785 3 6

梳理 all 和 all_selected 函数

All函数在power BI中是增删改上中的删除，即在原来的基础上扩大范围；如上图所示，维度，筛选条件是城市，利用all筛选函数，可以去除城市这个筛选条件，从而计算所有城市的总合计值。但是，在上表中，没有选择显示北京的销售金额，所有百分比总计值为53.94%；但，实际分析情况汇中，如只想比较除去北京外其他城市的金额占比且要求合计为100%，就要引进ALLSELECTED函数：对表中

慢慢爬的Rui

2020-05-12

27.3778 4 4

课上提到的魔力四象限

Gartner 魔力四象限是对某一特定企业级 IT 技术市场的研究总结，通过统一的评估准则并汇总至固定两个维度上 — Ability to Execute（执行层面，即当前产品、服务、销售等表现）和 Compleness of Vision （战略层面，即未来愿景的清晰完整性）。魔力四象限根据各家供应商们的表现，将其划分入如下四个象限中，分别为：Leaders（领导者）、Visionaries（远

慢慢爬的Rui

2020-05-07

24.9187 2 1