对比一 : 有标签 vs 无标签有监督学习的方法就是识别事物,识别的结果表现在给待识别数据加上了标签。因此训练样本集必须由带标签的样本组成。而非监督学习方法只有要分析的数据集的本身,预先没有什么标签。如果发现数据集呈现某种聚集性,则可按自然的聚集性分类,但不予以某种预先分类标签对上号为目的。对比二 : 分类 vs 聚类有监督机器学习的核心是分类,无监督机器学习的核心是聚类(将数据集合分成由类似的对
zjjwf
2020-08-11
Bagging VS Boosting1. 1. 样本选择上Bagging:训练集是在原始集中有放回选取的,从原始集中选出的各轮训练集之间是独⽴的。Boosting:每⼀轮的训练集不变,只是训练集中每个样例在分类器中的权重发⽣变化,⽽权值是根据上⼀轮的分类结果进⾏调整。2. 样例权重Bagging:使⽤均匀取样,每个样例的权重相等。Boosting:根据错误率不断调整样例的权重,错误率越⼤则权重越
zjjwf
2020-08-03
随机森林有许多优点:1.准确率极高2.能够有效地在大数据集上运行3.引入了随机性,不容易过拟合4. 随机森林有很好的抗噪声能力,但是在在数据噪音比较大的情况下会过拟合。5.能处理很高维度的数据,而且不用降维6. 不仅能处理离散型数据,还能处理连续型数据,而且不需要将数据集规范化7.训练速度快,能够得到变量重要性排序8.容易实现并行化9.即使对于缺省值问题也能够获得很好得结果10.超参数的数量不是很
zjjwf
2020-08-03
一、回归分析和相关分析主要区别是:1、在回归分析中,y被称为因变量,处在被解释的特殊地位,而在相关分析中,x与y处于平等的地位,即研究x与y的密切程度和研究y与x的密切程度是一致的;2、相关分析中,x与y都是随机变量,而在回归分析中,y是随机变量,x可以是随机变量,也可以是非随机的,通常在回归模型中,总是假定x是非随机的;3、相关分析的研究主要是两个变量之间的密切程度,而回归分析不仅可以揭示x对y
zjjwf
2020-07-29
优点:1、对待预测样本进行预测,过程简单速度快(想想邮件分类的问题,预测就是分词后进行概率乘积,在log域直接做加法更快)。2、对于多分类问题也同样很有效,复杂度也不会有大程度上升。3、在分布独立这个假设成立的情况下,贝叶斯分类器效果奇好,会略胜于逻辑回归,同时我们需要的样本量也更少一点。4、对于类别类的输入特征变量,效果非常好。对于数值型变量特征,我们是默认它符合正态分布的。 缺点:1
zjjwf
2020-07-29
1.统计模型法 (1)计算变量的统计量,如均值、标准差、样本量等,依据这些信息就可以直接计算(一元)线性回归的系数;(2)阶矩模型中均可以利用这类信息直接运算sem等模型。(3)特点:计算速度快,无须重复运算模型。2.最小二乘法 (1)多元回归中,ols可以处理多个自变量的情况,寻求残差平方和最小化;(2)将数据视为矩阵,利用线性代数寻求系数最优化,对内存要求很高;(3)大数据场景下,存在线性
zjjwf
2020-07-22
KNN的主要优点有:1.理论成熟,思想简单,既可以用来做分类又可以做回归2.可以用于非线性分类3.训练时间复杂度比支持向量机之类的算法低3.和朴素贝叶斯之类的算法比,对数据没有假设,准确度高,对异常点不敏感4.由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属的类别,因此对于类域的交叉或重叠较多的待分类样本集来说,KNN方法较其他方法更为适合5.该算法比较适用于样本容量比较
zjjwf
2020-07-14
1 )提出假设在假设检验中,假设有两类:原假设 和 备择假设 ,两者之间的关系是 对立关系 。1.原假设 :待检验的假设;表示为H 0 。是研究者想收集证据予以推翻的假设,但是不容易推翻的假设 。2.备择假设:与原假设对立的假设;表示为H 1 。是研究者想收集证据予以支持的假设,但是不容易支持的假设 。2 )确定适当的检验统计量3 )规定显著性水平 即:规定一个拒绝域的面积;常用的取值有 0.01
zjjwf
2020-06-20
1 无偏性( Unbiasedness ):估计量抽样分布的数学期望等于被估计的总体参数2 有效性( Efficiency ):也称最小方差性,即方差越小的估计量越有效3 一致性 Consistency ):随着样本容量的增大,估计量的值越来越接近被估计的总体参数
zjjwf
2020-06-20
将数据按照计量尺度 :1.分类型数据(定义:对事物进行分类的结果)(特点:数据表现为类别,用 文字 来表述)2.顺序型数据 (定义:对事物类别顺序的测度)(特点:数据表现为类别,用 文字 来表述)3.数值型数据 (定义:对事物的精确测度)(特点:结果表现为具体的 数字)按与时间的关系不同:截面数据:是不同主体在同一时间点或同一时间段的数据,也称静态数据,是样本数据中的常见类型之一。时间序列数据:是
zjjwf
2020-06-19
将数据按照计量尺度 :1.分类型数据(定义:对事物进行分类的结果)(特点:数据表现为类别,用 文字 来表述)2.顺序型数据 (定义:对事物类别顺序的测度)(特点:数据表现为类别,用 文字 来表述)3.数值型数据 (定义:对事物的精确测度)(特点:结果表现为具体的 数字)按与时间的关系不同:截面数据:是不同主体在同一时间点或同一时间段的数据,也称静态数据,是样本数据中的常见类型之一。时间序列数据:是
zjjwf
2020-06-19
将数据按照计量尺度 :1.分类型数据(定义:对事物进行分类的结果)(特点:数据表现为类别,用 文字 来表述)2.顺序型数据 (定义:对事物类别顺序的测度)(特点:数据表现为类别,用 文字 来表述)3.数值型数据 (定义:对事物的精确测度)(特点:结果表现为具体的 数字)按与时间的关系不同:截面数据:是不同主体在同一时间点或同一时间段的数据,也称静态数据,是样本数据中的常见类型之一。时间序列数据:是
zjjwf
2020-06-19
电商黄金公式: 销售额 = 流 量 * 转化率 * 客单价 流量数量重要指标: • 访客数( UV ):到达店铺页面的非重复用户数 • 浏览量( PV ):店铺内浏览和查看页面的累加次数 • 访问次数( Visits ):一个会话内被用户连续访问的次数 • 新访客数: 新进访客数 流量质量重要指标: • 平均访问深度:浏览量 / 访问次数 • 跳失率:跳出次数 / 访问次数 • 新访客占比
zjjwf
2020-06-12
Power BI 简单且快速,能够从 Excel电子表格或本地数据库创建图表。 同时Power BI也是可靠的、企业级的,可进行丰富的建模和实时分析,及自定义开发。因此它既是你的个人报表和可视化工具,还可用项目、部门或整个企业背后的分析和决策引擎。先来看一下PowerBI的组成部分。 1、 整体解决方案:Power BI 包含 Windows 桌面应用程序(称为 Power BI Desktop
zjjwf
2020-06-11
开窗函数是在满足某种条件的记录集合上执行的特殊函数。对于每条记录都要在此窗口内执行函数,有 的函数随着记录不同,窗口大小都是固定的,这种属于静态窗口;有的函数则相反,不同的记录对应着 不同的窗口,这种动态变化的窗口叫滑动窗口。开窗函数的本质还是聚合运算,只不过它更具灵活性, 它对数据的每一行,都使用与该行相关的行进行计算并返回计算结果。 语法 开窗函数的一个概念是当前行,当前行属于某个窗口,窗口由
zjjwf
2020-06-08
1.内连接 按照连接条件合并两个表,返回满足条件的行。 select 字段 1[,…] from 表 1[ inner] join 表 2 on 表 1.key= 表 2.key; 内连接就是把两个表里面的共同部分显示出来 2.左连接 结果中除了包括满足连接条件的行外,还包括左表的所有行。 select 字段 1[,…] from 表 1 left join 表 2 on 表 1.key
zjjwf
2020-06-02