数据科学专业问答社区，好文章，一字千金--CDA答疑社区

jupyter报its size must be a divisor of the total size in bytes of the last axis of the array的错误

dtype属性代表array中数据的类型，可以是int，float，str等 a.dtype dtype('int32') dtype属性的修改不可以直接进行，而应该借助于astype()方法 a.dtype = "float64" ---------------------------------------------------------------------------

赵娜0418

2020-04-28

67.4684 8 0

Python机器学习报'function' object has no attribute 'keys'的错误

报上图中的错误，是因为“function”对象没有“keys”属性，需要运行cancer = load_breast_cancer()这段代码才可以

赵娜0418

2020-04-27

7.8408 5 2

传入数据时是否因为训练集是二维的，所以才传的二维的数据？

不是这样的，所有传入的X都是二维的,所有传入的y都是一维的

赵娜0418

2020-04-27

9.1569 6 1

Python机器学习报scatter() missing 1 required positional argument:'y'的错

在上图中np.arrary([12.2,3.5])这两个数不能同时上传，这是两个值，一个是x坐标，一个是y坐标，正确的写法应是如下图所示：

赵娜0418

2020-04-27

27.9253 6 3

维度是不是类别个数？

维度不是类别个数，维度是feature（特征）的个数

赵娜0418

2020-04-27

4.4133 5 0

逻辑回归是回归吗？

逻辑回归不是回归，只是名字比较有迷惑性，因为逻辑回归是一个广义线性回归，是从线性回归衍生出来的, 实际上是分类。

赵娜0418

2020-04-27

4.4133 5 3

机器学习中特征值和属性值相等吗？

不相等，一般属性值是在编程里边用到的内容，例如方法、类、对象等，会说它们有什么属性，模型中也有属性，在pandas里编程的时候，一般将特征叫做columns，

赵娜0418

2020-04-27

7.8408 5 3

使用C 和使用Python有什么不一样？

程序有两种执行方式，解释执行和编译执行。 PYTHON是一种脚本语言，是解释执行的，不需要经过编译，所以很方便快捷，且能够很好地跨平台，写一些小工具小程序特别合适。而C 则是一种需要编译后运行语言，在特定的机器上编译后在特定的机上运行，运行效率高，安全稳抄定。但编译后的程序一般是不跨平台的。

赵娜0418

2020-04-27

3.0972 4 2

jupyter notebook报name 'np' is not defined 的错误

jupyter notebook报name 'np' is not defined 的错误，是因为你现在执行的代码用到了numpy包里的方法，而你在运行这段代码之前还未导入numpy包，所以需要导入numpy的包，导包代码为import numpy as np

赵娜0418

2020-04-24

58.8264 7 2

jupyter notebook报name xx is not defined的错误

L1=[1200,1398,2200,1100,1521] L2=[1340,1211,1460,1121,1609] a1=np.array(L1) a2=np.array(L2) a1 a2 上图中报name 'a1' is not defined的错误，报次错误的原因是因为a1在运行a1 a2这行代码之前没有被定义，要想解决上图中的错误，需要先执行定义a1的代码，也就是下图红色框中的代

赵娜0418

2020-04-24

61.4826 8 2

哑变量的作用是什么？

哑变量，又称为虚拟变量、虚设变量或名义变量，从名称上看就知道，它是人为虚设的变量，通常取值为0或1，来反映某个变量的不同属性。对于有n个分类属性的自变量，通常需要选取1个分类作为参照，因此可以产生n-1个哑变量。将哑变量引入回归模型，虽然使模型变得较为复杂，但可以更直观地反映出该自变量的不同属性对于因变量的影响，提高了模型的精度和准确度。

赵娜0418

2020-04-23

41.4617 9 1

LinearSVC能不能选择特征值个数？

LinearSVC线性知识向量机是不能选择特征值个数的，但是SelectFromModel是可以选择的，SelectFromModel的语法中threshold=None是可以设置，通过设置这个门槛值就可以控制特征值的数量。

赵娜0418

2020-04-23

6.6487 7 0

特征重要性是什么意思？

像上图代码中的随机森林里边它会计算出每一个X的重要性，上图中计算出其中一个X的重要性是0.1759，如果其他X算出来的是0.9、0.8、0.2，那对应的X的重要性也是从大到小排列的，随机森林会计算出这样的指标，上图中模型的准确度是0.73。

赵娜0418

2020-04-23

21.8808 8 2

主成分分析处理不重要特征有什么影响

如果用主成分分析处理那些不重要特征，首先一点是主成分分析是不容易输出结果的，主成分分析一般有八大标准，其中有四个是非常主要的标准，这四个标准如果用它处理不重要的特征，你会发现这四个标准可能一个都达不到，所以这就会导致模型计算失败，假设你的X达到二十个，希望通过主成分分析压缩，但是压缩到最后它不成功，那你只能选择其他的方法了，会存在一定的风险。

赵娜0418

2020-04-23

22.0818 8 3

简单回归怎么判断是否剔除Xi？

建完模型之后根据系数，对它的系数进行排序，系数最靠后面的30%的变量全部剔除掉。

赵娜0418

2020-04-23

6.6487 7 1

机器学习的常用方法，主要分为有监督学习(supervised learning)和无监督学习(unsupervised learning)。监督学习，就是人们常说的分类，通过已有的训练样本（即已知数据以及其对应的输出）去训练得到一个最优模型（这个模型属于某个函数的集合，最优则表示在某个评价准则下是最佳的），再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的，也就具有

赵娜0418

2020-04-23

4.5214 6 1

log（p/(1-p)）=b0 b1x1 b2x2这个公式如何理解？

等号右侧对应的是X1和X2的特征，等号左侧就是P除以1-P，P是根据Y的取值和X的条件概率计算出来的

赵娜0418

2020-04-23

6.6233 6 3

误差越大是否迭代的越少？

一般是误差越小迭代的越少，误差越大它需要更多的迭代来让误差变小

赵娜0418

2020-04-23

6.6233 6 1

jupyter notebook代码中截距项b0的x为什么取1？

#2.sgd算法 """ 迭代#1 令：b0=0，b1=0，b2=0,则p=1/(1 exp(-(0 0*1 0*3)))=0.5 因为w=w alpha*(y-p)*p*(1-p)*x, 所以, b0=0 0.3*(1-0.5)*0.5*(1-0.5)*1=0.0375 b1=0 0.3*(1-0.5)*0.5*(1-0.5)*1=0.0375 b2=0 0.3*(1-0.5)*0.5*(1-

赵娜0418

2020-04-23

4.5214 6 2

iter和epoch一样吗？

不一样，iter是训练抽取的样本，epoch是使用训练集中的全部样本训练一次

赵娜0418

2020-04-22

4.9769 8 2