zjjwf

有监督学习和无监督学习的区别

对比一 : 有标签 vs 无标签有监督学习的方法就是识别事物,识别的结果表现在给待识别数据加上了标签。因此训练样本集必须由带标签的样本组成。而非监督学习方法只有要分析的数据集的本身,预先没有什么标签。如果发现数据集呈现某种聚集性,则可按自然的聚集性分类,但不予以某种预先分类标签对上号为目的。对比二 : 分类 vs 聚类有监督机器学习的核心是分类,无监督机器学习的核心是聚类(将数据集合分成由类似的对

zjjwf

2020-08-11

35.0655 3 2
  • 关注作者
  • 收藏

Bagging(装袋法)和 Boosting(提升法)的比较

Bagging VS Boosting1. 1. 样本选择上Bagging:训练集是在原始集中有放回选取的,从原始集中选出的各轮训练集之间是独⽴的。Boosting:每⼀轮的训练集不变,只是训练集中每个样例在分类器中的权重发⽣变化,⽽权值是根据上⼀轮的分类结果进⾏调整。2. 样例权重Bagging:使⽤均匀取样,每个样例的权重相等。Boosting:根据错误率不断调整样例的权重,错误率越⼤则权重越

zjjwf

2020-08-03

45.6462 5 2
  • 关注作者
  • 收藏

随机森林算法的优缺点比较

随机森林有许多优点:1.准确率极高2.能够有效地在大数据集上运行3.引入了随机性,不容易过拟合4. 随机森林有很好的抗噪声能力,但是在在数据噪音比较大的情况下会过拟合。5.能处理很高维度的数据,而且不用降维6. 不仅能处理离散型数据,还能处理连续型数据,而且不需要将数据集规范化7.训练速度快,能够得到变量重要性排序8.容易实现并行化9.即使对于缺省值问题也能够获得很好得结果10.超参数的数量不是很

zjjwf

2020-08-03

45.5756 4 0
  • 关注作者
  • 收藏

相关分析与回归分析的区别和联系是什么?

一、回归分析和相关分析主要区别是:1、在回归分析中,y被称为因变量,处在被解释的特殊地位,而在相关分析中,x与y处于平等的地位,即研究x与y的密切程度和研究y与x的密切程度是一致的;2、相关分析中,x与y都是随机变量,而在回归分析中,y是随机变量,x可以是随机变量,也可以是非随机的,通常在回归模型中,总是假定x是非随机的;3、相关分析的研究主要是两个变量之间的密切程度,而回归分析不仅可以揭示x对y

zjjwf

2020-07-29

28.4379 3 1
  • 关注作者
  • 收藏

贝叶斯算法的优缺点

优点:1、对待预测样本进行预测,过程简单速度快(想想邮件分类的问题,预测就是分词后进行概率乘积,在log域直接做加法更快)。2、对于多分类问题也同样很有效,复杂度也不会有大程度上升。3、在分布独立这个假设成立的情况下,贝叶斯分类器效果奇好,会略胜于逻辑回归,同时我们需要的样本量也更少一点。4、对于类别类的输入特征变量,效果非常好。对于数值型变量特征,我们是默认它符合正态分布的。 缺点:1

zjjwf

2020-07-29

28.2525 2 4
  • 关注作者
  • 收藏

数据挖掘与统计的算法区别

1.统计模型法 (1)计算变量的统计量,如均值、标准差、样本量等,依据这些信息就可以直接计算(一元)线性回归的系数;(2)阶矩模型中均可以利用这类信息直接运算sem等模型。(3)特点:计算速度快,无须重复运算模型。2.最小二乘法 (1)多元回归中,ols可以处理多个自变量的情况,寻求残差平方和最小化;(2)将数据视为矩阵,利用线性代数寻求系数最优化,对内存要求很高;(3)大数据场景下,存在线性

zjjwf

2020-07-22

24.9743 3 2
  • 关注作者
  • 收藏

k-NN 模型评价

1.应用广泛2.计算效率低,耗费计算资源较大3.抗噪性较弱,对噪声数据(异常值)较为敏感4.模型不稳定,可重复性较弱5.需要进行归一化处理

zjjwf

2020-07-22

24.9122 2 2
  • 关注作者
  • 收藏

KNN算法优缺点

KNN的主要优点有:1.理论成熟,思想简单,既可以用来做分类又可以做回归2.可以用于非线性分类3.训练时间复杂度比支持向量机之类的算法低3.和朴素贝叶斯之类的算法比,对数据没有假设,准确度高,对异常点不敏感4.由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属的类别,因此对于类域的交叉或重叠较多的待分类样本集来说,KNN方法较其他方法更为适合5.该算法比较适用于样本容量比较

zjjwf

2020-07-14

13.7934 4 5
  • 关注作者
  • 收藏

假设检验的过程

1 )提出假设在假设检验中,假设有两类:原假设 和 备择假设 ,两者之间的关系是 对立关系 。1.原假设 :待检验的假设;表示为H 0 。是研究者想收集证据予以推翻的假设,但是不容易推翻的假设 。2.备择假设:与原假设对立的假设;表示为H 1 。是研究者想收集证据予以支持的假设,但是不容易支持的假设 。2 )确定适当的检验统计量3 )规定显著性水平 即:规定一个拒绝域的面积;常用的取值有 0.01

zjjwf

2020-06-20

27.2615 1 2
  • 关注作者
  • 收藏

参数估计的四步骤

选定参数 ——确定需要估计的参数选定统计量 ——确定估计参数的统计量抽样分布 ——已知或假定 模型分布估计 ——得出结果

zjjwf

2020-06-20

27.3927 2 0
  • 关注作者
  • 收藏

置信区间怎么用excel展示

在excel文件选项卡选择“选项”,添加功能至数据分析

zjjwf

2020-06-20

27.2615 1 2
  • 关注作者
  • 收藏

评价估计量的三标准

1 无偏性( Unbiasedness ):估计量抽样分布的数学期望等于被估计的总体参数2 有效性( Efficiency ):也称最小方差性,即方差越小的估计量越有效3 一致性 Consistency ):随着样本容量的增大,估计量的值越来越接近被估计的总体参数

zjjwf

2020-06-20

27.2615 1 3
  • 关注作者
  • 收藏

数据的分类

将数据按照计量尺度 :1.分类型数据(定义:对事物进行分类的结果)(特点:数据表现为类别,用 文字 来表述)2.顺序型数据 (定义:对事物类别顺序的测度)(特点:数据表现为类别,用 文字 来表述)3.数值型数据 (定义:对事物的精确测度)(特点:结果表现为具体的 数字)按与时间的关系不同:截面数据:是不同主体在同一时间点或同一时间段的数据,也称静态数据,是样本数据中的常见类型之一。时间序列数据:是

zjjwf

2020-06-19

22.5580 6 2
  • 关注作者
  • 收藏

数据的分类

将数据按照计量尺度 :1.分类型数据(定义:对事物进行分类的结果)(特点:数据表现为类别,用 文字 来表述)2.顺序型数据 (定义:对事物类别顺序的测度)(特点:数据表现为类别,用 文字 来表述)3.数值型数据 (定义:对事物的精确测度)(特点:结果表现为具体的 数字)按与时间的关系不同:截面数据:是不同主体在同一时间点或同一时间段的数据,也称静态数据,是样本数据中的常见类型之一。时间序列数据:是

zjjwf

2020-06-19

22.4547 3 0
  • 关注作者
  • 收藏

数据的分类

将数据按照计量尺度 :1.分类型数据(定义:对事物进行分类的结果)(特点:数据表现为类别,用 文字 来表述)2.顺序型数据 (定义:对事物类别顺序的测度)(特点:数据表现为类别,用 文字 来表述)3.数值型数据 (定义:对事物的精确测度)(特点:结果表现为具体的 数字)按与时间的关系不同:截面数据:是不同主体在同一时间点或同一时间段的数据,也称静态数据,是样本数据中的常见类型之一。时间序列数据:是

zjjwf

2020-06-19

22.4165 2 3
  • 关注作者
  • 收藏

餐饮案例分享

餐饮案例 指标值: 需要注意的是: 但均消费=总消费金额/总订单数 人均消费=总消费金额/总到店人数 翻台率=总单数/总台数 上座率=总人数/总座位数

zjjwf

2020-06-12

11.6971 5 2
  • 关注作者
  • 收藏

电商流量指标

电商黄金公式: 销售额 = 流 量 * 转化率 * 客单价 流量数量重要指标: • 访客数( UV ):到达店铺页面的非重复用户数 • 浏览量( PV ):店铺内浏览和查看页面的累加次数 • 访问次数( Visits ):一个会话内被用户连续访问的次数 • 新访客数: 新进访客数 流量质量重要指标: • 平均访问深度:浏览量 / 访问次数 • 跳失率:跳出次数 / 访问次数 • 新访客占比

zjjwf

2020-06-12

11.5868 1 0
  • 关注作者
  • 收藏

什么是powerbi

Power BI 简单且快速,能够从 Excel电子表格或本地数据库创建图表。 同时Power BI也是可靠的、企业级的,可进行丰富的建模和实时分析,及自定义开发。因此它既是你的个人报表和可视化工具,还可用项目、部门或整个企业背后的分析和决策引擎。先来看一下PowerBI的组成部分。 1、 整体解决方案:Power BI 包含 Windows 桌面应用程序(称为 Power BI Desktop

zjjwf

2020-06-11

0.1869 4 2
  • 关注作者
  • 收藏

开窗函数

开窗函数是在满足某种条件的记录集合上执行的特殊函数。对于每条记录都要在此窗口内执行函数,有 的函数随着记录不同,窗口大小都是固定的,这种属于静态窗口;有的函数则相反,不同的记录对应着 不同的窗口,这种动态变化的窗口叫滑动窗口。开窗函数的本质还是聚合运算,只不过它更具灵活性, 它对数据的每一行,都使用与该行相关的行进行计算并返回计算结果。 语法 开窗函数的一个概念是当前行,当前行属于某个窗口,窗口由

zjjwf

2020-06-08

13.8493 1 1
  • 关注作者
  • 收藏

My Sql 中多表查询连接比较

1.内连接 按照连接条件合并两个表,返回满足条件的行。 select 字段 1[,…] from 表 1[ inner] join 表 2 on 表 1.key= 表 2.key; 内连接就是把两个表里面的共同部分显示出来 2.左连接 结果中除了包括满足连接条件的行外,还包括左表的所有行。 select 字段 1[,…] from 表 1 left join 表 2 on 表 1.key

zjjwf

2020-06-02

13.7987 3 4
  • 关注作者
  • 收藏
12>