数据科学专业问答社区，好文章，一字千金--CDA答疑社区

有监督学习和无监督学习的区别

对比一：有标签 vs 无标签有监督学习的方法就是识别事物，识别的结果表现在给待识别数据加上了标签。因此训练样本集必须由带标签的样本组成。而非监督学习方法只有要分析的数据集的本身，预先没有什么标签。如果发现数据集呈现某种聚集性，则可按自然的聚集性分类，但不予以某种预先分类标签对上号为目的。对比二：分类 vs 聚类有监督机器学习的核心是分类，无监督机器学习的核心是聚类（将数据集合分成由类似的对

zjjwf

2020-08-11

35.0655 3 2

Bagging（装袋法）和 Boosting（提升法）的比较

Bagging VS Boosting1. 1. 样本选择上Bagging：训练集是在原始集中有放回选取的，从原始集中选出的各轮训练集之间是独⽴的。Boosting：每⼀轮的训练集不变，只是训练集中每个样例在分类器中的权重发⽣变化，⽽权值是根据上⼀轮的分类结果进⾏调整。2. 样例权重Bagging：使⽤均匀取样，每个样例的权重相等。Boosting：根据错误率不断调整样例的权重，错误率越⼤则权重越

zjjwf

2020-08-03

45.6462 5 2

随机森林算法的优缺点比较

随机森林有许多优点：1.准确率极高2.能够有效地在大数据集上运行3.引入了随机性，不容易过拟合4. 随机森林有很好的抗噪声能力，但是在在数据噪音比较大的情况下会过拟合。5.能处理很高维度的数据，而且不用降维6. 不仅能处理离散型数据，还能处理连续型数据，而且不需要将数据集规范化7.训练速度快，能够得到变量重要性排序8.容易实现并行化9.即使对于缺省值问题也能够获得很好得结果10.超参数的数量不是很

zjjwf

2020-08-03

45.5756 4 0

贝叶斯算法的优缺点

优点：1、对待预测样本进行预测，过程简单速度快(想想邮件分类的问题，预测就是分词后进行概率乘积，在log域直接做加法更快)。2、对于多分类问题也同样很有效，复杂度也不会有大程度上升。3、在分布独立这个假设成立的情况下，贝叶斯分类器效果奇好，会略胜于逻辑回归，同时我们需要的样本量也更少一点。4、对于类别类的输入特征变量，效果非常好。对于数值型变量特征，我们是默认它符合正态分布的。缺点：1

zjjwf

2020-07-29

28.2525 2 4

数据挖掘与统计的算法区别

1.统计模型法（1）计算变量的统计量，如均值、标准差、样本量等，依据这些信息就可以直接计算（一元）线性回归的系数；（2）阶矩模型中均可以利用这类信息直接运算sem等模型。（3）特点：计算速度快，无须重复运算模型。2.最小二乘法（1）多元回归中，ols可以处理多个自变量的情况，寻求残差平方和最小化；（2）将数据视为矩阵，利用线性代数寻求系数最优化，对内存要求很高；（3）大数据场景下，存在线性

zjjwf

2020-07-22

24.9743 3 2

k-NN 模型评价

1.应用广泛2.计算效率低，耗费计算资源较大3.抗噪性较弱，对噪声数据（异常值）较为敏感4.模型不稳定，可重复性较弱5.需要进行归一化处理

zjjwf

2020-07-22

24.9122 2 2

KNN算法优缺点

KNN的主要优点有：1.理论成熟，思想简单，既可以用来做分类又可以做回归2.可以用于非线性分类3.训练时间复杂度比支持向量机之类的算法低3.和朴素贝叶斯之类的算法比，对数据没有假设，准确度高，对异常点不敏感4.由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属的类别，因此对于类域的交叉或重叠较多的待分类样本集来说，KNN方法较其他方法更为适合5.该算法比较适用于样本容量比较

zjjwf

2020-07-14

13.7934 4 5

假设检验的过程

1 ）提出假设在假设检验中，假设有两类：原假设和备择假设，两者之间的关系是对立关系。1.原假设 :待检验的假设；表示为H 0 。是研究者想收集证据予以推翻的假设，但是不容易推翻的假设。2.备择假设:与原假设对立的假设；表示为H 1 。是研究者想收集证据予以支持的假设，但是不容易支持的假设。2 ）确定适当的检验统计量3 ）规定显著性水平即：规定一个拒绝域的面积；常用的取值有 0.01

zjjwf

2020-06-20

27.2615 1 2

参数估计的四步骤

选定参数 ——确定需要估计的参数选定统计量 ——确定估计参数的统计量抽样分布 ——已知或假定模型分布估计 ——得出结果

zjjwf

2020-06-20

27.3927 2 0

置信区间怎么用excel展示

在excel文件选项卡选择“选项”，添加功能至数据分析

zjjwf

2020-06-20

27.2615 1 2

评价估计量的三标准

1 无偏性（ Unbiasedness ）：估计量抽样分布的数学期望等于被估计的总体参数2 有效性（ Efficiency ）：也称最小方差性，即方差越小的估计量越有效3 一致性 Consistency ）：随着样本容量的增大，估计量的值越来越接近被估计的总体参数

zjjwf

2020-06-20

27.2615 1 3

数据的分类

将数据按照计量尺度：1.分类型数据（定义：对事物进行分类的结果）（特点：数据表现为类别，用文字来表述）2.顺序型数据（定义：对事物类别顺序的测度）（特点：数据表现为类别，用文字来表述）3.数值型数据（定义：对事物的精确测度）（特点：结果表现为具体的数字）按与时间的关系不同：截面数据：是不同主体在同一时间点或同一时间段的数据，也称静态数据，是样本数据中的常见类型之一。时间序列数据：是

zjjwf

2020-06-19

22.5580 6 2

数据的分类

将数据按照计量尺度：1.分类型数据（定义：对事物进行分类的结果）（特点：数据表现为类别，用文字来表述）2.顺序型数据（定义：对事物类别顺序的测度）（特点：数据表现为类别，用文字来表述）3.数值型数据（定义：对事物的精确测度）（特点：结果表现为具体的数字）按与时间的关系不同：截面数据：是不同主体在同一时间点或同一时间段的数据，也称静态数据，是样本数据中的常见类型之一。时间序列数据：是

zjjwf

2020-06-19

22.4547 3 0

数据的分类

将数据按照计量尺度：1.分类型数据（定义：对事物进行分类的结果）（特点：数据表现为类别，用文字来表述）2.顺序型数据（定义：对事物类别顺序的测度）（特点：数据表现为类别，用文字来表述）3.数值型数据（定义：对事物的精确测度）（特点：结果表现为具体的数字）按与时间的关系不同：截面数据：是不同主体在同一时间点或同一时间段的数据，也称静态数据，是样本数据中的常见类型之一。时间序列数据：是

zjjwf

2020-06-19

22.4165 2 3

餐饮案例分享

餐饮案例指标值：需要注意的是：但均消费=总消费金额/总订单数人均消费=总消费金额/总到店人数翻台率=总单数/总台数上座率=总人数/总座位数

zjjwf

2020-06-12

11.6971 5 2

电商流量指标

电商黄金公式：销售额 = 流量 * 转化率 * 客单价流量数量重要指标： • 访客数（ UV ）：到达店铺页面的非重复用户数 • 浏览量（ PV ）：店铺内浏览和查看页面的累加次数 • 访问次数（ Visits ）：一个会话内被用户连续访问的次数 • 新访客数：新进访客数流量质量重要指标： • 平均访问深度：浏览量 / 访问次数 • 跳失率：跳出次数 / 访问次数 • 新访客占比

zjjwf

2020-06-12

11.5868 1 0

什么是powerbi

Power BI 简单且快速，能够从 Excel电子表格或本地数据库创建图表。同时Power BI也是可靠的、企业级的，可进行丰富的建模和实时分析，及自定义开发。因此它既是你的个人报表和可视化工具，还可用项目、部门或整个企业背后的分析和决策引擎。先来看一下PowerBI的组成部分。 1、整体解决方案：Power BI 包含 Windows 桌面应用程序（称为 Power BI Desktop

zjjwf

2020-06-11

0.1869 4 2

开窗函数

开窗函数是在满足某种条件的记录集合上执行的特殊函数。对于每条记录都要在此窗口内执行函数，有的函数随着记录不同，窗口大小都是固定的，这种属于静态窗口；有的函数则相反，不同的记录对应着不同的窗口，这种动态变化的窗口叫滑动窗口。开窗函数的本质还是聚合运算，只不过它更具灵活性，它对数据的每一行，都使用与该行相关的行进行计算并返回计算结果。语法开窗函数的一个概念是当前行，当前行属于某个窗口，窗口由

zjjwf

2020-06-08

13.8493 1 1

My Sql 中多表查询连接比较

1.内连接按照连接条件合并两个表，返回满足条件的行。 select 字段 1[,…] from 表 1[ inner] join 表 2 on 表 1.key= 表 2.key; 内连接就是把两个表里面的共同部分显示出来 2.左连接结果中除了包括满足连接条件的行外，还包括左表的所有行。 select 字段 1[,…] from 表 1 left join 表 2 on 表 1.key

zjjwf

2020-06-02

13.7987 3 4