数据科学专业问答社区，好文章，一字千金--CDA答疑社区

支持向量机 - 分类（SVM）

支持向量机（SVM）通过找到最大化两个类之间的余量的超平面来执行分类。定义超平面的向量（个案）是支持向量。 a 算法定义最佳超平面：最大化边距针对非线性可分的问题扩展上述定义：对错误分类进行惩罚。将数据映射到高维空间，更容易使用线性决策表面进行分类：重新设计问题，以便将数据隐式映射到此空间。要定义最佳超平面，我们需要最大化边距（w）的宽度。 a a 我们通过使用二次规划求解以下

809669515

2018-10-31

0.0000 0 2

多元线性回归

多元线性回归（MLR）是一种用于模拟因变量（目标）与一个或多个自变量（预测变量）之间的线性关系的方法。 MLR基于普通最小二乘法（OLS），该模型拟合使得观察值和预测值的差的平方和最小化。 MLR模型基于若干假设（例如，误差通常以零均值和恒定方差分布）。如果满足假设，则回归估计器在其无偏，有效且一致的意义上是最优的。无偏意味着估计量的期望值等于参数的真值。有效意味着估计量的方差小于任

809669515

2018-10-31

0.0000 0 4

支持向量机也可以用作回归方法，保持表征算法的所有主要特征（最大边距）。支持向量回归（SVR）使用与SVM相同的原则进行分类，只有一些细微差别。首先，因为输出是实数，所以很难预测手头的信息，这些信息具有无限的可能性。在回归的情况下，容差裕度（epsilon）被设置为近似于已经从问题请求的SVM。但除此之外，还有一个更复杂的原因，算法更复杂，因此需要考虑。然而，主要思想始终是相同的：为了最大限度地减少

809669515

2018-10-31

0.0000 0 2

人工神经网络

人工中性网络（ANN）是基于生物神经网络（例如大脑）的系统。大脑有大约1000亿个神经元，通过电化学信号进行通信。神经元通过称为突触的连接点连接。每个神经元接收数千个与其他神经元的连接，不断接收输入信号到达细胞体。如果得到的信号总和超过某个阈值，则通过轴突发送响应。人工神经网络尝试重建生物神经网络的计算镜像，尽管它不具有可比性，因为神经元的数量和复杂性以及生物神经网络中使用的数量和复杂性是人工中

809669515

2018-10-31

232.9437 1 1

K最近邻

K最近邻是一种简单的算法，其存储所有可用情况并基于相似性度量（例如，距离函数）对新情况进行分类。KNN已经在1970年代初作为非参数技术用于统计估计和模式识别。算法案例通过其邻居的多数票进行分类，案例被分配给由距离函数测量的其K个最近邻居中最常见的类。如果K = 1，则将该情况简单地分配给其最近邻居的类。还应注意，所有三个距离测量仅对连续变量有效。在分类变量的情况下，必须使用

809669515

2018-10-31

0.0000 0 1

Logistic回归

逻辑回归预测结果的概率只能有两个值（即二分法）。预测基于使用一个或多个预测变量（数值和分类）。线性回归不适合预测二元变量的值，原因有两个：线性回归将预测超出可接受范围的值（例如，预测 0到1范围之外的概率）由于二分法实验对于每个实验只能具有两个可能值中的一个，因此残差将不会正常地分布在预测线附近。另一方面，逻辑回归产生逻辑曲线，其限制在0和1之间的值。逻辑回归类似于线性回归，但曲线是使用目

809669515

2018-10-31

0.0000 0 3

线性判别分析

线性判别分析（LDA）是最初由RA Fisher于1936年开发的分类方法。它简单，数学上稳健，并且通常产生的模型的精度与更复杂的方法一样好。算法 LDA基于搜索最佳分离两个类（目标）的变量（预测变量）的线性组合的概念。为了捕捉可分性的概念，Fisher定义了以下得分函数。给定得分函数，问题是估计最大化得分的线性系数，其可以通过以下等式求解。评估歧视有效性的一种方

809669515

2018-10-31

0.0000 0 1

分类型模型——OneR

OneR是“一个规则”的缩写，是一种简单但准确的分类算法，它为数据中的每个预测变量生成一个规则，然后选择总误差最小的规则作为其“一个规则”。为了为预测器创建规则，我们为每个预测器构建一个针对目标的频率表。已经表明，OneR产生的规则仅比现有技术的分类算法稍微不准确，同时产生了易于人类解释的规则。 OneR算法对于每个预测变量，对于该预测变量的每个值，按如下方式制定规则;

809669515

2018-10-31

0.0000 0 1

分类模型——ZeroR

ZeroR是最简单的分类方法，它依赖于目标并忽略所有预测变量。ZeroR分类器只是预测大多数类别（类）。尽管ZeroR中没有可预测性，但将基线性能确定为其他分类方法的基准非常有用。算法构建目标的频率表并选择其最常用的值。示例：“Play Golf = Yes”是以下数据集的ZeroR模型，精度为0.64。预测者的贡献关于预测器对模型的贡献没有什么可说的，因为ZeroR不使用它们

809669515

2018-10-31

0.0000 0 1

朴素贝叶斯

朴素贝叶斯分类器基于贝叶斯定理，具有预测变量之间的独立假设。朴素贝叶斯模型易于构建，没有复杂的迭代参数估计，这使得它对于非常大的数据集特别有用。尽管朴素贝叶斯分类器简单，但它通常表现出色，并且被广泛使用，因为它通常优于更复杂的分类方法。算法贝叶斯定理提供了计算后验概率，的一种方法P（C ^ | X），从P（Ç），P（X），和P（X | C）。朴素贝叶斯分类器假设预测变量（x）的值对给定类（

809669515

2018-10-31

0.0000 0 0

交叉分解

交叉分解模块包含两个主要的算法族：偏最小二乘法（PLS）和典型相关分析（CCA）。算法这些家庭都是有用找到两个多元数据集之间的线性关系：在X与Y该论点fit的方法是二维数组。交叉分解算法找到两个矩阵（X和Y）之间的基本关系。它们是对这两个空间中的协方差结构进行建模的潜变量方法。他们将尝试在X空间中找到多维方向，解释Y空间中的最大多维方差方向。当预测变量矩阵的变量多于观测值，并且X值之间存

809669515

2018-10-31

0.0000 0 1

朴素贝叶斯

朴素贝叶斯方法是一组监督学习算法，基于贝叶斯定理应用给定类变量值的每对特征之间的条件独立性的“天真”假设。在给定类变量y和从属特征向量x1到xn，贝叶斯定理表明了以下关系：使用条件独立假设对于所有i，这种关系被简化为由于P(x1,…,xn)在输入时是常数，我们可以使用以下分类规则：我们可以使用最大后验（MAP）估计来估计 P(y)和P(xi∣y) ; 前者是

809669515

2018-10-31

0.0000 0 5

非参数监督学习方法——决策树（DT）

决策树（DT）是用于分类和回归的非参数监督学习方法。目标是创建一个模型，通过学习从数据特征推断出的简单决策规则来预测目标变量的值。例如，在下面的示例中，决策树从数据中学习以使用一组if-then-else决策规则来近似正弦曲线。树越深，决策规则越复杂，模型越适合。决策树的一些优点是：易于理解和解释。树木可以看到。需要很少的数据准备。其他技术通常需要数据规范化，需要创建虚拟变量并删除

809669515

2018-10-31

0.0000 0 4

基于抽样的算法SMOTE

2002年，引入了一种基于抽样的算法SMOTE（Synthetic Minority Over-Sampling Technique），试图解决类不平衡问题。由于其简单性和有效性，它是最常用的方法之一。它是过采样和欠采样的组合，但过采样方法不是复制少数类，而是通过算法构造新的少数类数据实例。在传统的过采样中，少数类正在被复制。在SMOTE中，以这种方式构造新的少数派实例： a 构造算法背后的直

809669515

2018-10-29

114.3933 1 2

如何缓解类不平衡问题？

现在知道类不平衡问题是什么以及它为什么是一个问题，我们需要知道如何处理这个问题。我们可以将方法粗略地分为两大类：基于抽样的方法和基于成本函数的方法。基于成本函数的方法基于成本函数的方法背后的直觉是，如果我们认为一个假阴性比一个假阳性更差，我们将计算一个假阴性，例如100个假阴性。例如，如果1个假阴性与100个假阳性一样昂贵，则机器学习算法将尝试与假阳性相比产生更少的假阴性（因为它更便宜）。

809669515

2018-10-29

0.0000 0 1

如何判断机器学习算法哪个更好？

为了告诉机器学习算法（或研究人员）模型2优于模型1，我们需要更好的指标，而不仅仅是计算错误的数量。我们介绍了真阳性，真阴性，假阳性和假阴性的概念：真阳性（TP rate） - 一个积极的例子，被正确归类为阳性真阴性（TN rate） - 一个阴性的例子，被正确分类为阴性误报（FP rate） - 一个否定的例子，但被错误地归类为正面假阴性（FN rate） - 一个积

809669515

2018-10-29

114.3933 1 1

什么是类不平衡问题？

什么是类不平衡问题？这是机器学习中的问题，其中一类数据的总数（正数）远小于另一类数据的总数（负数）。为什么这是一个问题？大多数机器学习算法在每个类的实例数大致相等时效果最佳。当一个类的实例数远远超过另一个类时，会出现问题。下面以一个例子来说明这一点。给定交易数据的数据集，我们想知道哪些是欺诈性的，哪些是真实的。现在，如果欺诈性交易发生，电子商务公司的成本很高，因为这会影响我们的客户对我

809669515

2018-10-29

0.0000 0 1

分类 (Classification)：ROC 和曲线下面积

ROC 曲线 ROC 曲线（接收者操作特征曲线）是一种显示分类模型在所有分类阈值下的效果的图表。该曲线绘制了以下两个参数：真正例率假正例率真正例率(TPR) 是召回率的同义词，因此定义如下：假正例率(FPR) 的定义如下： ROC 曲线用于绘制采用不同分类阈值时的 TPR 与 FPR。降低分类阈值会导致将更多样本归为正类别，从而增加假正例和真正例的个数。下图显示了一个典型的

809669515

2018-10-29

0.0000 0 1

如何在Python中获取当前时间

time模块 time模块提供的功能告诉我们“自纪元以来的秒数”以及其他实用程序的时间。 >>> import time Unix大纪元时间这是您应该获取用于保存数据库的时间戳的格式。它是一个简单的浮点数，可以转换为整数。它也适用于以秒为单位的算术运算，因为它表示自1970年1月1日00:00:00以来的秒数，并且它是相对于我们下一步要查看的其他时间表示的记忆灯： >>> time.

809669515

2018-10-29

0.0000 0 1

如何在Python中获取当前时间

time模块 time模块提供的功能告诉我们“自纪元以来的秒数”以及其他实用程序的时间。 >>> import time Unix大纪元时间这是您应该获取用于保存数据库的时间戳的格式。它是一个简单的浮点数，可以转换为整数。它也适用于以秒为单位的算术运算，因为它表示自1970年1月1日00:00:00以来的秒数，并且它是相对于我们下一步要查看的其他时间表示的记忆灯： >>> time.

809669515

2018-10-29

0.0000 0 2