hcy吃猫的鱼

8.20

1.主成分分析绝对不能用在实验室中,因为数据量太少,偶尔会用在问卷分析中,但也不常用;2.因子分析可用于因子效度分析,但并不常用;3.有几个变量就有几个主成分;4.接受条件:变量个数/最终降成的维度 >3,最终所选的主成分总比例>70%;5.主成分的每一个特征向量是构成主成分的每一个变量的系数,表示了各变量对不同主成分的影响程度大小;6.主成分不能对重要的变量进行压缩;7.主成分回归模型只能用于数

hcy吃猫的鱼

2020-08-20

36.1121 2 0
  • 关注作者
  • 收藏

8.19

1.欺诈识别方法:逻辑回归、异常检测聚类;2.评分卡分类:申请评分卡、行为评分卡、催收评分卡;3.判断过拟合的条件:(1).训练集的判定系数大于90; (2).训练集的判定系数减去测试集的判定系数得出一个负值时,可能是欠拟合;4.数据分区是来评估模型是否有过拟合问题;5.判定系数只适用于连续型变量;6.当y的各取值所占比例不平衡时,得出的正确率不可信;7.谐波平均数:f1=2P*R/(P+R)

hcy吃猫的鱼

2020-08-19

28.0523 3 0
  • 关注作者
  • 收藏

8.17-8.18

1.在y连续的情况下,当x是有两个取值的分类变量时,用t检验;当x是有多个取值的分类变量时,用方差分析;当x是连续型变量时,用方差分析;2.当数据量低于10万时,不要用机器学习模型,否则会导致结果不准确;3.小数据:样本量小于1万 ,来源为问卷 大数据:样本量在10万--几亿之间,来源为数据库;4.方差分析结果显著时,才能进行多重比较;5.当存在多个x时,用“+”来连接;6

hcy吃猫的鱼

2020-08-18

24.4744 2 1
  • 关注作者
  • 收藏

8.12

1.Series是一维的,DataFrame是二维的;2.map()函数只能应用于Series;3.apply()函数应用于DataFrame中的每一列;4.applymap()函数可以一次性对DataFrame的多列数据进行相同的操;5.表追加(append)时对应不上的会变为空值,可以一次性追加多个表;6.concat()默认以0轴进行拼接, 即上下拼接;7.删除某列中空值时,在dropna(

hcy吃猫的鱼

2020-08-15

37.1459 1 1
  • 关注作者
  • 收藏

8.10-8.11

1.列表中元素的数据类型没有任何要求,ndarray只能有一种数据类型;2.向上转换原则:整数、小数、字符串(范围越来越大);3.矢量:有大小,有方向的一个量;4.random.randint()中只填一个数,生成的是从0到这个数减一的范围--左闭右开;5.np.linspace()函数:# 默认是闭区间, 设置之后变成左闭右开区间;6.视图: 里面的数据是共享的, 但是形状是独立的;7. re

hcy吃猫的鱼

2020-08-11

22.4445 12 3
  • 关注作者
  • 收藏

python基础测试总结

1.python中的变量命名规则如下: 可以是数字、字母、 _(下划线)的组合,但是不能以数字开头。 不能以关键字作为变量名。 在python中可以使用中文作为变量名。2.布尔型数据在做算术运算的时候, True就是1, False就是0;3.列表是可变数据类型, 列表也是有序的数据类型;4.元祖是不可变数据类型, 但是元祖也是有序的数据

hcy吃猫的鱼

2020-08-10

34.4450 4 2
  • 关注作者
  • 收藏

8.5-8.6

1.一定不要忘记 if/else 行的结尾":",如果省略了":"会报错;2.一定不要忘记 if/else 执行行(if/else紧接的行)下的缩进,如果省略了缩进,程序依旧会报错;3.input()函数输出的是字符串;4.条件判断中表示等于时用“==”;5.zip( )函数是按照序列顺序进行压缩,即,各位置元素,依次对应;6.若迭代器(列表、字典等)长度不唯一,则以最短的为准;7.元组没有推导式

hcy吃猫的鱼

2020-08-06

22.5287 2 0
  • 关注作者
  • 收藏

8.3-8.4

1.从文件夹进入jupyter notebook:shift+右键;2.布尔型的第一个字母要大写;3.只含有整数或者包含其符号的字符串才能转换为整数型;4.空字符串也属于字符串;5.用“+”合并列表后允许出现重复值;6.偏移量正向从1开始,负向从-1开始;7.[start : end ]——从start提取到end-1范围内,[start : ]——从start提取字符串,[ : end]——从开

hcy吃猫的鱼

2020-08-04

34.8508 3 2
  • 关注作者
  • 收藏

7.29

1.列联分析用来分析定性变量对定性变量的影响;2.Excel中列联表的卡方检验:CHISQ.TEXT()函数,得出的结果为统计量对应的p值,注意数据的排法不同可能导致自由度不同;3.右击工作表名称选择移动或复制可建立当前工作表的副本;4.方差分析用来研究定性变量对定量变量的影响;5.组内只有随机误差的影响,组间不仅有随机误差还可能有因素的影响;6.SSE的自由度为n-k,SSA的自由度为k-1;7

hcy吃猫的鱼

2020-07-29

30.7694 4 2
  • 关注作者
  • 收藏

7.28

1.导数表达式中多多少除多少;2.乘积的导数:每次求一个导数,然后再加总求和;3.复合函数:由外而内一层一层的求;4.函数求导网址:https://zs.symbolab.com/5.行列式的本质是一个数;6.行列式计算方法:1.对角线法则(仅适用于二阶、三阶); 2.利用行列式性质(将行列式转化为三角形行列式)7.n阶行列式是n!项的代数和;8.用一个数乘以行列式,常数k只能乘以其中的某一行或某

hcy吃猫的鱼

2020-07-28

30.8409 1 1
  • 关注作者
  • 收藏

7.27

1.总体信息未知时用估计,总体信息已知时用检验;2.以样本量等于30为界点来划分大样本和小样本;3.当总体非正态且小样本时,由于信息匮乏不考虑;4.样本比例中,n充分大要求np>=5且n(1-p)>=5;5.不能说“某个区间以90% 的概率包含总体参数",也不能说总体参数有90% 的可能性落在某个区间;6.一个特定的区间只能包括或者不包括参数的真实值;7.概率是用于事前描述,事后描述不能用概率,事

hcy吃猫的鱼

2020-07-27

51.4838 3 2
  • 关注作者
  • 收藏

7.24

1.数据既可以是数字形式,也可以是文字形式;2.根据能不能用来做运算(加、减、乘、除、比较)来区分数字和文字;3.分类数据和顺序数据统称为定性数据;4.定距数据:“0”有现实意义,不能用除法进行比较;5.不同类型的数据间可以进行转换,方向只能由高级转向低级,因此在抓取数据时尽量抓取高级数据;6.低级数据的方法高级数据可以用,反之不行;7.众数:分类数据的方法 分位数:顺序数据的

hcy吃猫的鱼

2020-07-24

26.0463 4 3
  • 关注作者
  • 收藏

7.16

1.合并查询是表之间横向合并,追加查询是纵向合并;2.表中可以用列表或者记录来定义列名,并通过嵌套列表来定义数据;3.DAX表达式中表名用单引号(‘ ’)引用;4.switch函数可以将数值描述替换为文字描述;5.添加自定义列后要注意需不需要更改字段类型;6.两张表之间不能重复引用(合并查询),例如b表合并查询连接了a表,那么a表不能通过合并查询连接b表引用其中的字段;7.当维度是逐渐的时候可以在

hcy吃猫的鱼

2020-07-16

19.9031 3 6
  • 关注作者
  • 收藏

7.15

1.类型一:一表出维度,多表出度量;2.类型二:跨表,多表出维度,一表出度量;3.只有对应的字段为主键时才能用average(),否则在calculate()函数中放average()会得出错误的结果,要先分别计算出sum和count,然后用sum/count得出平均值;4.数据库中求平均用avg(),powerbi中用average()求平均;5.powerbi中用rankx()函数排序默认为降

hcy吃猫的鱼

2020-07-15

13.5415 1 5
  • 关注作者
  • 收藏

7.14

1.一对一的表连接方式最不可能出现,多对多的连接方式可能出现但不能用,一对多是最正确的连接方法,一表出维度,多表出度量;2.模型选项中表连接的出发位置出维度,指向的位置出度量;3.一表出维度,多表出度量(类型一):维度对度量进行合并同类项的计算;4.多表出维度,一表出度量(类型二):维度下对应的连接用关键字段不同情况对度量进行汇总的结果;5.要避免多表筛一表和跨表筛选;6.维度和关键字段满足父子级

hcy吃猫的鱼

2020-07-14

13.6325 4 3
  • 关注作者
  • 收藏

7.13

1.业务分析包含报告和报表,报告使用的工具为Excel,数据结构为表格,数据源为单源;报表使用工具的是BI,数据结构为表,数据源为多源;2.power query:数据收集,数据加工处理 power pivot:数据建模,分析规则创建 power view:数据展现;3.关系型数据库:用来存储、查询和调用数据,存放的是关系型表结构数据,以单一数据结构的方式存储,通过连接关系调用; 数据仓库

hcy吃猫的鱼

2020-07-13

0.1714 6 3
  • 关注作者
  • 收藏

7.8、7.9打卡

1.select 最多嵌套32层select语句;2.子查询必须放在括号里,表子查询必须设置别名,表子查询中的聚合字段如果引用在筛选条件中也要设置别名;3.concat最多合并255个字符串,如果有空值合并结果为空;4.Excel中的0是从1900年开始的,数据库中的0是从1970年开始的;5.group_concat函数在分组合并时会自动忽略空值,只能合并一个字段;6.开窗函数的本质还是聚合运算

hcy吃猫的鱼

2020-07-09

46.3610 3 1
  • 关注作者
  • 收藏

7.7打卡

1.创建表之前首先要进入数据库,执行命令:use+数据库名称;2.查看表结构:desc 表名3.空值不能与任何值进行计算或比较,在SQL语言中为 is null 或 is not null ,不能用等号;4.每一条命令用分号(;)分隔,不然会出现连续执行命令;5.百分号匹配0个或多个字符,下划线匹配一个字符,可通过(not) like+通配符(%、_)实现模糊查询;6.没有指定排序方向时,默认是

hcy吃猫的鱼

2020-07-07

19.5594 5 0
  • 关注作者
  • 收藏

7.6打卡

1.表数据中每一个字段必须有字段名,并且同一个表中的字段名不能重复。2.每个字段只能有一个数据类型;3.表数据的最小单位是一个字段,列称为字段,行称为记录;4.delete按条件一行一行判断删除数据,trucate直接清空数据但保留表结构,执行效率更高;5.如果没有条件批量修改或删除数据,运行会报错,此时需要执行set sql_safe_updates=0; -- 设置数据库安全权限;6.查询数据

hcy吃猫的鱼

2020-07-06

29.9926 5 3
  • 关注作者
  • 收藏

7.3打卡

1.在销售案例分析中要注意类似订单号、流水号的明细值,需去重后才能进行后面的相关计数;2.RFM方法论:(1)根据业务场景找到关键性的指标,(2)找到指标后在指标下划分不同的程度,(3)设计程度下的模型样式,(4)根据统计的数值划分到特定的类别下;3.在设置条件格式时,是从选定数据范围的第一列或第一行开始判断,因此要注意首行或首列的选定;4.在构造树形图时,把所需数据区域复制,粘贴为图片链接,可实

hcy吃猫的鱼

2020-07-05

34.4172 3 2
  • 关注作者
  • 收藏
12>