数据科学专业问答社区，好文章，一字千金--CDA答疑社区

8.20

1.主成分分析绝对不能用在实验室中，因为数据量太少，偶尔会用在问卷分析中，但也不常用；2.因子分析可用于因子效度分析，但并不常用；3.有几个变量就有几个主成分；4.接受条件：变量个数/最终降成的维度 >3，最终所选的主成分总比例>70%;5.主成分的每一个特征向量是构成主成分的每一个变量的系数，表示了各变量对不同主成分的影响程度大小；6.主成分不能对重要的变量进行压缩；7.主成分回归模型只能用于数

hcy吃猫的鱼

2020-08-20

36.1121 2 0

8.19

1.欺诈识别方法：逻辑回归、异常检测聚类；2.评分卡分类：申请评分卡、行为评分卡、催收评分卡；3.判断过拟合的条件：(1).训练集的判定系数大于90； (2).训练集的判定系数减去测试集的判定系数得出一个负值时，可能是欠拟合；4.数据分区是来评估模型是否有过拟合问题；5.判定系数只适用于连续型变量；6.当y的各取值所占比例不平衡时，得出的正确率不可信；7.谐波平均数：f1=2P*R/(P+R)

hcy吃猫的鱼

2020-08-19

28.0523 3 0

8.17-8.18

1.在y连续的情况下，当x是有两个取值的分类变量时，用t检验；当x是有多个取值的分类变量时，用方差分析；当x是连续型变量时，用方差分析；2.当数据量低于10万时，不要用机器学习模型，否则会导致结果不准确；3.小数据：样本量小于1万，来源为问卷大数据：样本量在10万--几亿之间，来源为数据库；4.方差分析结果显著时，才能进行多重比较；5.当存在多个x时，用“+”来连接；6

hcy吃猫的鱼

2020-08-18

24.4744 2 1

8.12

1.Series是一维的，DataFrame是二维的；2.map（）函数只能应用于Series;3.apply（）函数应用于DataFrame中的每一列；4.applymap()函数可以一次性对DataFrame的多列数据进行相同的操；5.表追加（append）时对应不上的会变为空值，可以一次性追加多个表；6.concat()默认以0轴进行拼接, 即上下拼接；7.删除某列中空值时，在dropna(

hcy吃猫的鱼

2020-08-15

37.1459 1 1

8.10-8.11

1.列表中元素的数据类型没有任何要求，ndarray只能有一种数据类型；2.向上转换原则：整数、小数、字符串（范围越来越大）；3.矢量：有大小，有方向的一个量；4.random.randint()中只填一个数，生成的是从0到这个数减一的范围--左闭右开；5.np.linspace()函数：# 默认是闭区间, 设置之后变成左闭右开区间；6.视图: 里面的数据是共享的, 但是形状是独立的；7. re

hcy吃猫的鱼

2020-08-11

22.4445 12 3

python基础测试总结

1.python中的变量命名规则如下：可以是数字、字母、 _(下划线)的组合，但是不能以数字开头。不能以关键字作为变量名。在python中可以使用中文作为变量名。2.布尔型数据在做算术运算的时候， True就是1， False就是0；3.列表是可变数据类型，列表也是有序的数据类型；4.元祖是不可变数据类型，但是元祖也是有序的数据

hcy吃猫的鱼

2020-08-10

34.4450 4 2

8.5-8.6

1.一定不要忘记 if/else 行的结尾":"，如果省略了":"会报错；2.一定不要忘记 if/else 执行行(if/else紧接的行)下的缩进，如果省略了缩进，程序依旧会报错；3.input()函数输出的是字符串；4.条件判断中表示等于时用“==”；5.zip( )函数是按照序列顺序进行压缩，即，各位置元素，依次对应；6.若迭代器(列表、字典等)长度不唯一，则以最短的为准；7.元组没有推导式

hcy吃猫的鱼

2020-08-06

22.5287 2 0

8.3-8.4

1.从文件夹进入jupyter notebook：shift+右键；2.布尔型的第一个字母要大写；3.只含有整数或者包含其符号的字符串才能转换为整数型；4.空字符串也属于字符串；5.用“+”合并列表后允许出现重复值；6.偏移量正向从1开始，负向从-1开始；7.[start : end ]——从start提取到end-1范围内，[start : ]——从start提取字符串，[ : end]——从开

hcy吃猫的鱼

2020-08-04

34.8508 3 2

7.29

1.列联分析用来分析定性变量对定性变量的影响；2.Excel中列联表的卡方检验：CHISQ.TEXT()函数，得出的结果为统计量对应的p值，注意数据的排法不同可能导致自由度不同；3.右击工作表名称选择移动或复制可建立当前工作表的副本；4.方差分析用来研究定性变量对定量变量的影响；5.组内只有随机误差的影响，组间不仅有随机误差还可能有因素的影响；6.SSE的自由度为n-k，SSA的自由度为k-1;7

hcy吃猫的鱼

2020-07-29

30.7694 4 2

7.28

1.导数表达式中多多少除多少；2.乘积的导数：每次求一个导数，然后再加总求和；3.复合函数：由外而内一层一层的求；4.函数求导网址：https://zs.symbolab.com/5.行列式的本质是一个数；6.行列式计算方法：1.对角线法则(仅适用于二阶、三阶)； 2.利用行列式性质（将行列式转化为三角形行列式）7.n阶行列式是n！项的代数和；8.用一个数乘以行列式，常数k只能乘以其中的某一行或某

hcy吃猫的鱼

2020-07-28

30.8409 1 1

7.27

1.总体信息未知时用估计，总体信息已知时用检验；2.以样本量等于30为界点来划分大样本和小样本；3.当总体非正态且小样本时，由于信息匮乏不考虑；4.样本比例中，n充分大要求np>=5且n(1-p)>=5;5.不能说“某个区间以90% 的概率包含总体参数"，也不能说总体参数有90% 的可能性落在某个区间；6.一个特定的区间只能包括或者不包括参数的真实值；7.概率是用于事前描述，事后描述不能用概率，事

hcy吃猫的鱼

2020-07-27

51.4838 3 2

7.24

1.数据既可以是数字形式，也可以是文字形式；2.根据能不能用来做运算(加、减、乘、除、比较)来区分数字和文字；3.分类数据和顺序数据统称为定性数据；4.定距数据：“0”有现实意义，不能用除法进行比较；5.不同类型的数据间可以进行转换，方向只能由高级转向低级，因此在抓取数据时尽量抓取高级数据；6.低级数据的方法高级数据可以用，反之不行；7.众数：分类数据的方法分位数：顺序数据的

hcy吃猫的鱼

2020-07-24

26.0463 4 3

7.16

1.合并查询是表之间横向合并，追加查询是纵向合并；2.表中可以用列表或者记录来定义列名，并通过嵌套列表来定义数据；3.DAX表达式中表名用单引号(‘ ’)引用；4.switch函数可以将数值描述替换为文字描述；5.添加自定义列后要注意需不需要更改字段类型；6.两张表之间不能重复引用（合并查询），例如b表合并查询连接了a表，那么a表不能通过合并查询连接b表引用其中的字段；7.当维度是逐渐的时候可以在

hcy吃猫的鱼

2020-07-16

19.9031 3 6

7.15

1.类型一：一表出维度，多表出度量；2.类型二：跨表，多表出维度，一表出度量；3.只有对应的字段为主键时才能用average()，否则在calculate()函数中放average()会得出错误的结果，要先分别计算出sum和count，然后用sum/count得出平均值；4.数据库中求平均用avg()，powerbi中用average()求平均；5.powerbi中用rankx()函数排序默认为降

hcy吃猫的鱼

2020-07-15

13.5415 1 5

7.14

1.一对一的表连接方式最不可能出现，多对多的连接方式可能出现但不能用，一对多是最正确的连接方法，一表出维度，多表出度量；2.模型选项中表连接的出发位置出维度，指向的位置出度量；3.一表出维度，多表出度量（类型一）：维度对度量进行合并同类项的计算；4.多表出维度，一表出度量（类型二）：维度下对应的连接用关键字段不同情况对度量进行汇总的结果；5.要避免多表筛一表和跨表筛选；6.维度和关键字段满足父子级

hcy吃猫的鱼

2020-07-14

13.6325 4 3

7.13

1.业务分析包含报告和报表，报告使用的工具为Excel，数据结构为表格，数据源为单源；报表使用工具的是BI，数据结构为表，数据源为多源；2.power query:数据收集，数据加工处理 power pivot：数据建模，分析规则创建 power view：数据展现；3.关系型数据库：用来存储、查询和调用数据，存放的是关系型表结构数据，以单一数据结构的方式存储，通过连接关系调用；数据仓库

hcy吃猫的鱼

2020-07-13

0.1714 6 3

7.8、7.9打卡

1.select 最多嵌套32层select语句；2.子查询必须放在括号里，表子查询必须设置别名，表子查询中的聚合字段如果引用在筛选条件中也要设置别名；3.concat最多合并255个字符串，如果有空值合并结果为空；4.Excel中的0是从1900年开始的，数据库中的0是从1970年开始的；5.group_concat函数在分组合并时会自动忽略空值，只能合并一个字段；6.开窗函数的本质还是聚合运算

hcy吃猫的鱼

2020-07-09

46.3610 3 1

7.7打卡

1.创建表之前首先要进入数据库，执行命令：use+数据库名称；2.查看表结构：desc 表名3.空值不能与任何值进行计算或比较，在SQL语言中为 is null 或 is not null ，不能用等号;4.每一条命令用分号（；）分隔，不然会出现连续执行命令；5.百分号匹配0个或多个字符，下划线匹配一个字符，可通过(not) like+通配符（%、_）实现模糊查询；6.没有指定排序方向时，默认是

hcy吃猫的鱼

2020-07-07

19.5594 5 0

7.6打卡

1.表数据中每一个字段必须有字段名，并且同一个表中的字段名不能重复。2.每个字段只能有一个数据类型；3.表数据的最小单位是一个字段，列称为字段，行称为记录；4.delete按条件一行一行判断删除数据，trucate直接清空数据但保留表结构,执行效率更高；5.如果没有条件批量修改或删除数据，运行会报错，此时需要执行set sql_safe_updates=0; -- 设置数据库安全权限；6.查询数据

hcy吃猫的鱼

2020-07-06

29.9926 5 3

7.3打卡

1.在销售案例分析中要注意类似订单号、流水号的明细值，需去重后才能进行后面的相关计数；2.RFM方法论：（1）根据业务场景找到关键性的指标，（2）找到指标后在指标下划分不同的程度，（3）设计程度下的模型样式，（4）根据统计的数值划分到特定的类别下；3.在设置条件格式时，是从选定数据范围的第一列或第一行开始判断，因此要注意首行或首列的选定；4.在构造树形图时，把所需数据区域复制，粘贴为图片链接，可实

hcy吃猫的鱼

2020-07-05

34.4172 3 2