数据科学专业问答社区，好文章，一字千金--CDA答疑社区

回归算法有哪些？

回归算法有哪些？答：普通最⼩⼆乘回归（Ordinary Least Squares Regression，OLSR）线性回归（Linear Regression）逻辑回归（Logistic Regression）逐步回归（Stepwise Regression）多元⾃适应回归样条（Multivariate Adaptive Regression Splines，MARS）本地散点平滑估

赵娜0418

2020-02-25

0.0000 0 1

应该怎样拒绝推断？

应该怎样拒绝推断？答：⼀般来说,信⽤评分的训练样本均来自于以前申请贷款被接受的那些人,⽽评分模型则是要应用到所有申请的人,因此如直接应用模型到被拒绝者,很有可能会出现问题。拒绝推断就是对模型修正来解决这个问题的.其核心的理念就是将历史贷款信息中拒绝的客户的信息加入建模的数据当中,并使⽤一定的手段(违约比,模型等等)来推断被拒绝用户是否违约作为标签。不同的公司,不同的业务会采取不同的手段完成。

赵娜0418

2020-02-25

0.0000 0 0

得出的PSI值要怎么评判？

得出的PSI值要怎么评判？答：如果PSI值小于0.1，该指标不重要，不需要采取任何行动；如果PSI值在0.1到0.25之间的话，是有一些小的改变，需要检查其他指标，进一步判断；如果PSI值大于0.25的话，有重大变化，需要调整模型，深挖原因。

赵娜0418

2020-02-25

0.2740 1 1

怎么对一个特征分箱？

怎么对一个特征分箱？答：1）我们首先把连续型变量分成一组数量较多的分类型变量，⽐比如，将几万个样本分成100组，或50组；（尽量有监督的分箱） 2）确保每一组中都要包含两种类别的样本，否则IV值会⽆无法计算； 3）我们对相邻的组进行卡方检验，卡方检验的P值很大的组进⾏合并，直到数据中的组数小于设定的N 箱为⽌止； 4）我们让一个特征分别分成[2,3,4.....20]箱，观察每个分箱个数下的IV

赵娜0418

2020-02-25

0.2740 1 2

Mi的具体意义会不会因为场景不同而不同？

Mi的具体意义会不会因为场景不同而不同？答：是的，Mi的具体意义可能因为场景不同适当调整 Mi中的i是非负整数，具体可以写为M0，M1，M2…… M0：约定还款日第二天到下一个账单日 M1：未还款的第二个账单日到第二个账单的最后约定还款日之间 M2：未还款的第三个账单日到第三个账单的最后约定还款日之间 Mi不是某⼀个时刻，而是⼀个时间区间

赵娜0418

2020-02-25

0.2740 1 0

贷款准⼊环节的申请评分卡具体的操作步骤是什么？

贷款准⼊环节的申请评分卡具体的操作步骤是什么？答：

赵娜0418

2020-02-25

0.2740 1 1

金融领域中信用风险的主体一般是什么？

金融领域中信用风险的主体一般是什么？信⽤风险发生的主体通常为：个人、公司及主权。 1、个人违约个人向金融机构进行借贷后，没有在规定期限内还款的行为。 2、公司违约公司向金融机构借贷后，没有在规定期限内还款的行为，或者公司在发行债券等融资产品后，没有履行或者延期履行利息或本金的支付义务。 3、主权违约是指一国政府无法按时对其向外担保借来的债务还本付息的情况，如债务重组。

赵娜0418

2020-02-25

0.2698 1 1

巴塞尔资本协定中的变量应用在什么地方？怎么计算？

巴塞尔资本协定中的变量应用在什么地方？怎么计算？答：主要可应⽤于主权、银⾏和公司⻛险暴露时，计算方法是：违约概率：Probability of default，PD。即特定时间段内借款⼈违约的可能性。违约损失率：Loss given default，LGD。即违约发⽣时风险暴露的损失程度。违约风险暴露：Exposure at default，EAD。即对某项贷款承诺⽽言，发⽣生违约时可能被

赵娜0418

2020-02-24

0.2698 1 3

KNN算法中K值如何选择？

如果k较小，就相当于用较小的邻域中的训练实例进行预测，“学习”的近似误差会减小，只有输入实例较近的（相似的）训练实例才会对预测结果起作用。但缺点是“学习”的估计误差会变大，预测结果会对近邻的实例点非常敏感。如果邻近的实例点恰好是噪声，预测会出错。k值的减小就意味着整体模型变得复杂，容易发生过拟合。如果k值太大，相当于用较大的邻域中的训练实例进行预测。其优点是可以减少学习的估计误差，但缺点是学

赵娜0418

2020-02-22

37.7698 2 3

决策树学习的算法通常是一个递归地选择最优特征，并根据该特征对训练数据进行分割，使得对各个子数据集有一个很好的分类的过程。这一过程对应着对特征空间的划分，也对应着决策树的构建。开始，构建根节点，将所有训练数据都放在根节点。选择一个最优特征，按照这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下最好的分类。如果这些子集已经能够被基本正确分类，那么构建叶结点，并将这些子集分到所对应的叶结点中

赵娜0418

2020-02-22

38.4769 3 2

什么是决策树的剪枝？

剪枝：从已生成的树上裁掉一些子树或叶结点，并将其根节点或父结点作为新的叶结点，从而简化分类树模型。剪枝就是当阿尔法确定时，选择损失函数最小的模型，即损失函数最小的子树。当阿尔法确定时，子树越大，往往与训练数据的拟合越好，但是模型的复杂度就越高，相反，子树越小，模型复杂度就越低，但是往往与训练数据的拟合不好，损失函数正好表示了对两者的平衡

赵娜0418

2020-02-22

0.8933 2 3

决策树为什么要进行剪枝？

决策树生成算法递归地产生决策树，知道不能继续下去为止。这样产生的树往往对训练数据的分类很准确，但对未知的测试数据的分类却没有那么准确，即出现过拟合现象。过拟合的原因在于学习时过多地考虑如何提高对训练数据的正确分类，从而构建出过于复杂的决策树。解决这个问题的方法是考虑决策树的复杂度，对已生成的决策树进行简化。

赵娜0418

2020-02-22

0.8933 2 5

什么是特征选择？

特征选择在于选取对训练数据具有分类能力的特征。这样可以提高决策树学习的效率。如果利用一个特征进行分类的结果与随机分类的结果没有很大的差别，则称这个特征空间是没有分类能力的。经验上扔掉这样的特征对决策树学习的精度影响不大。通常特征选择的准则是信息增益或信息增益比。

赵娜0418

2020-02-22

3.7755 3 2

四分位差是什么？

上下四分位数之差用于衡量中位数的代表性不受极端值影响反映了中间50%的数据的离散程度也称为内距或四分内距对顺序数据离散程度的测度

赵娜0418

2020-02-22

0.8933 2 1

平均差的性质及公式

数学性质较差，实际中应用较少能反应一组数据离散程度各变量与其平均数离差绝对值的平均数

赵娜0418

2020-02-22

0.8933 2 3

自由度有哪些性质

自由度 1、按着这一逻辑，如果对n个观测值附加的约束个数为k个，自由度则为n-k， 2、当样本数据的个数为n时，若样本平均数确定后，则附加给n个观测值的约束个数就是1个，因此只有n-1个数据可以自由取值，其中必有一个数据不能自由取值 3、从字面涵义来看，自由度是指一组数据中可以自由取值的个数， 4、自由度是指数据个数与附加给独立的观测值的约束或限制的个数之差

赵娜0418

2020-02-22

0.8680 2 1

怎样解释切比雪夫不等式

切比雪夫不等式 • 对于k=2，3，4，该不等式的含义是 1. 至少有75%的数据落在平均数加减2个标准差的范围之内 2. 至少有89%的数据落在平均数加减3个标准差的范围之内 3. 至少有94%的数据落在平均数加减4个标准差的范围之内对于任意分布形态的数据，根据切比雪夫不等式，至少有1-1/k方的数据落在平均数加减k 个标准差之内。其中k是大于1的任意值，但不一定是整数

赵娜0418

2020-02-22

0.7194 2 1

概率都有什么性质？

概率 ①由于事件的频数总是小于或等于试验的次数，所以频率在0~1之间，从而任何事件的概率在0~1之间，即 0≤P(A)≤1. ②每次试验中，必然事件一定发生，因此它的频率为1，从而必然事件的概率为1，如，在掷骰子试验中，由于出现的点数最大是6，因此P(E)=1 ③每次试验中，不可能事件一定不出现，因此他的频率为0，从而不可能事件的概率为0.如，在掷骰子试验中，P(F)=0 ④当事件A与B

赵娜0418

2020-02-22

0.7194 2 0

什么是事件的独立性？

事件的独立性答：一个事件的发生与否并不影响另一个事件发生的概率，则称两个事件独立若事件A与B独立，则P(B|A)=P(B)， P(A|B)=P(A) 乘法公式可简化为 :P(AB)=P(A)·P(B)

赵娜0418

2020-02-22

1.2364 2 2

全概率相关题目

某PC产品由甲、乙、丙三个供应商供货，供应商的次品率分别为4%、3%、2%，它们各自的供货分别占总产量的25%、35%、40%，将它们的产品组合在一起，求任取一个是次品的概率。解：设 A 1 表示“产品来自甲供应商”， A 2 表示“产品来自乙供应商”， A 3表示“产品来自丙供应商”， B表示“取到次品”。根据全概率公式有

赵娜0418

2020-02-22

1.2364 2 0