数据科学专业问答社区，好文章，一字千金--CDA答疑社区

筛选进行到后期的时可以删除50%的不重要变量，是根据什么删除

筛选进行到后期的时候，可以删除50%的不重要变量，这个是根据什么来删除的？答：根据回归系数大小来删除的，因为删除50%是以数据为导向的，所以会根据回归系数的大小来做删除操作。

赵娜0418

2020-02-27

1.9347 2 1

如果变量只有30个的时候，可否和大量变量一样进行删除操作？

如果变量只有30个的时候，可否和大量变量一样进行删除操作？答：可以的，可以在前期筛选的时候按照30%进行删除，后期按照50%进行筛选删除操作。

赵娜0418

2020-02-27

1.9347 2 2

在某案例中，分部门删除变量是怎么删除的？是根据什么删除的？

在某案例中，分部门删除变量是怎么删除的？是根据什么删除的？答：因为在一个公司中给到你手中的变量总数可能是各个部门在自己部门内部收集上来的变量的一个汇总，这时候你就可以根据你要分析的方向以部门为单位将不重要的变量进行筛选删除。

赵娜0418

2020-02-27

1.9347 2 4

变量筛选整合变量之后的个数是怎么确定的？

变量筛选整合变量之后的个数是怎么确定的？答：例如有X1，X2，X3，X4，X5，X6，X7，X8八个变量，X1和X2整合为X11，X3和X4整合为X22，因为整合后的变量不参加主成分分析，所以筛选整合后的变量的个数就是4个

赵娜0418

2020-02-27

1.9347 2 4

为什么整合后的两个变量不参与主成分分析？

为什么整合后的两个变量不参与主成分分析？答：整合后的变量不参与主成分分析，主成分压缩之后主要变量的意义就没有了，测试x、y的相关性，相关性高的变量是可以留下来参与的。

赵娜0418

2020-02-27

1.9347 2 3

在SPSS中纯数据的变量，各分组删除50%还是随机删除50%

3、在SPSS中纯数据的变量，各分组删除50%，，还是随机删除50%，有什么讲究吗？答：不是随机删除，根据X变量的重要性，在筛选变量的时候，最前边的步骤建议删除30%的变量，这样不会把重要的变量在前边的筛选中被筛掉，后边步骤建议删除50%，因为经过层层筛选，重要变量已经被筛选出来，这样不重要的变量在后边的步骤就可以多删除一点。

赵娜0418

2020-02-27

1.9347 2 2

2 2 3=7个变量怎么来的？

2 2 3=7个变量怎么来的？答：2根据业务法判定 2根据共线性组合而来 3根据共线性压缩而来

赵娜0418

2020-02-27

1.9347 2 3

1、 SPSS中共线的X应该怎样处理？

SPSS中共线的X应该怎样处理？答：如果两个变量之间出现了高度共线性的关系，那么解决这样两个变量的方法就是将这两个变量进行整合。

赵娜0418

2020-02-27

1.9347 2 1

网格搜索可能是最简单、应用最广泛的超参数搜索算法，它通过查找搜索范围内的所有的点来确定最优值。如果采用较大的搜索范围以及较小的步长，网格搜索有很大概率找到全局最优值。然而，这种搜索方案十分消耗计算资源和时间，特别是需要调优的超参数比较多的时候。因此，在实际应用中，网格搜索法一般会先使用较广的搜索范围和较大的步长，来寻找全局最优值可能的位置；然后会逐渐缩小搜索范围和步长，来寻找更精确的最优值。这种操

赵娜0418

2020-02-25

0.7752 1 2

什么是Holdout检验？

Holdout 检验是最简单也是最直接的验证方法，它将原始的样本集合随机划分成训练集和验证集两部分。比方说，对于一个点击率预测模型，我们把样本按照70%～30% 的比例分成两部分，70% 的样本用于模型训练；30% 的样本用于模型验证，包括绘制ROC曲线、计算精确率和召回率等指标来评估模型性能。 Holdout 检验的缺点很明显，即在验证集上计算出来的最后评估指标与原始分组有很大关系。为了消除随机

赵娜0418

2020-02-25

4.0284 2 2

怎样有效地找到组合特征？

怎样有效地找到组合特征？答：以点击预测问题为例，假设原始输入特征包含年龄、性别、用户类型（试用期、付费）、物品类型（护肤、食品等）4个方面的信息，并且根据原始输入和标签（点击/未点击）构造出了决策树，如图所示：于是，每一条从根节点到叶节点的路径都可以看成一种特征组合的方式。具体来说，就有以下4种特征组合的方式。（1）“年龄<=35”且“性别=女”。（2）“年龄<=35”且“物品类别

赵娜0418

2020-02-25

0.7752 1 3

在对数据进行预处理时，应该怎样处理类别型特征？

在对数据进行预处理时，应该怎样处理类别型特征？答： 1、序号编码序号编码通常用于处理类别间具有大小关系的数据。例如成绩，可以分为低、中、高三档，并且存在“高>中>低”的排序关系。序号编码会按照大小关系对类别型特征赋予一个数值ID，例如高表示为3、中表示为2、低表示为1，转换后依然保留了大小关系。 2、独热编码独热编码通常用于处理类别间不具有大小关系的特征。例如血型，一共有4个取值（A型血、B

赵娜0418

2020-02-25

30.4223 2 1

GBDT的优点和局限性有哪些？

GBDT的优点和局限性有哪些？答： ■ 优点（1）预测阶段的计算速度快，树与树之间可并行化计算。（2）在分布稠密的数据集上，泛化能力和表达能力都很好，这使得GBDT在 Kaggle的众多竞赛中，经常名列榜首。 286 （3）采用决策树作为弱分类器使得GBDT模型具有较好的解释性和鲁棒性，能够自动发现特征间的高阶关系，并且也不需要对数据进行特殊的预处理如归一化等。 ■ 局限性（1）GBD

赵娜0418

2020-02-25

29.6471 2 2

梯度提升和梯度下降的区别和联系是什么？

梯度提升和梯度下降的区别和联系是什么？答：如下图是梯度提升算法和梯度下降算法的对比情况。可以发现，两者都是在每一轮迭代中，利用损失函数相对于模型的负梯度方向的信息来对当前模型进行更新，只不过在梯度下降中，模型是以参数化形式表示，从而模型的更新等价于参数的更新。而在梯度提升中，模型并不需要进行参数化表示，而是直接定义在函数空间中，从而大大扩展了可以使用的模型种类。

赵娜0418

2020-02-25

0.0000 0 1

什么是偏差和方差？

什么是偏差和方差？答：在有监督学习中，模型的泛化误差来源于两个方面——偏差和方差，具体来讲偏差和方差的定义如下：偏差指的是由所有采样得到的大小为m的训练数据集训练出的所有模型的输出的平均值和真实模型输出之间的偏差。偏差通常是由于我们对学习算法做了错误的假设所导致的，比如真实模型是某个二次函数，但我们假设模型是一次函数。由偏差带来的误差通常在训练误差上就能体现出来。方差指的是由所有采样得到的大

赵娜0418

2020-02-25

0.0000 0 6

可否将随机森林中的基分类器由决策树替换为线性分类器或K-近邻

可否将随机森林中的基分类器，由决策树替换为线性分类器或K-近邻？为什么？答：随机森林属于Bagging类的集成学习。Bagging的主要好处是集成后的分类器的方差，比基分类器的方差小。Bagging所采用的基分类器，最好是本身对样本分布较为敏感的（即所谓不稳定的分类器），这样Bagging才能有用武之地。线性分类器或者K-近邻都是较为稳定的分类器，本身方差就不大，所以以它们为基分类器使用Bagg

赵娜0418

2020-02-25

0.0000 0 3

常用的基分类器是什么？

常用的基分类器是什么？答：最常用的基分类器是决策树，主要有以下3个方面的原因。（1）决策树可以较为方便地将样本的权重整合到训练过程中，而不需要使用过采样的方法来调整样本权重。（2）决策树的表达能力和泛化能力，可以通过调节树的层数来做折中。（3）数据样本的扰动对于决策树的影响较大，因此不同子样本集合生成的决策树基分类器随机性较大，这样的“不稳定学习器”更适合作为基分类器。此外，在决策树节点分

赵娜0418

2020-02-25

0.0000 0 3

集成学习分哪几种？他们有何异同？

集成学习分哪几种？他们有何异同？答： 1、 Boosting Boosting方法训练基分类器时采用串行的方式，各个基分类器之间有依赖。它的基本思路是将基分类器层层叠加，每一层在训练的时候，对前一层基分类器分错的样本，给予更高的权重。测试时，根据各层分类器的结果的加权得到最终结果。 Boosting的过程很类似于人类学习的过程，我们学习新知识的过程往往是迭代式的，第一遍学习的时候，我们会记住一

赵娜0418

2020-02-25

0.0000 0 3

降维算法可以用在什么地方？

降维算法可以用在什么地方？答：主成分分析（Principal Component Analysis (PCA)）主成分回归（Principal Component Regression (PCR)）偏最⼩⼆乘回归（Partial Least Squares Regression(PLSR)） Sammon 映射（Sammon Mapping）

赵娜0418

2020-02-25

0.0000 0 1

使用Hopfield ⽹络有什么优势吗？

使用Hopfield ⽹络有什么优势吗？答：优点：在语⾳、语义、视觉、各类游戏（如围棋）的任务中表现极好。算法可以快速调整，适应新的问题。缺点：需要⼤量数据进⾏训练训练要求很⾼的硬件配置模型处于「⿊箱状态」，难以理解内部机制元参数（Metaparameter）与⽹络拓扑选择困难。

赵娜0418

2020-02-25

0.0000 0 5