数据科学专业问答社区，好文章，一字千金--CDA答疑社区

CDA数据科学研究院 CDA考试中心 CDA网校企业服务

CDA社区

CDA竞赛 CDA技术答疑 CDA俱乐部

关于CDA APP下载

免密码登录

提交首次登录验证后自动注册

158****6283

在2020年05月25日加入
点赞能量: 100%
点赞价值: 0.5

简单随机抽样

import random import numpy as np #简单随机抽样 data = np.loadtxt('路径') data = list(data) print(len(data)) data_sample = random.sample(data, 2000) #随机抽取2000个样本 #sample()里面的数据不能是 numpy.ndarray，可以用list print(d

158****6283

2020-07-21

40.1654 4 4

广播(broadcasting)处理

让所有输入数组都向其中shape最长的数组看齐， shape中不足的部分都通过在前面加1补齐输出数组的shape是输入数组shape的各个轴上的最大值如果输入数组的某个轴和输出数组的对应轴的长度相同或者其长度为1时，这个数组能够用来计算，否则出错当输入数组的某个轴的长度为1时，沿着此轴运算时都用此轴上的第一组值

158****6283

2020-07-06

19.8337 4 3

单元格快捷键操作

命令状态（Esc状态）： C 复制 X 剪切 V 粘贴 DD 删除 L 显示行号 O 显示/隐藏输出 A 在当前clee(单元格)前插入一个cell B 在当前clee(单元格)后插入一个cell Y 切换代码状态

158****6283

2020-07-02

22.8554 2 4

生成器

生成器以前通过列表生成式创建元素，但是如果元素太多会占用内存，如果程序中只需要几个元素，则后面的一大堆元素占用的内存空间就浪费了。生成器：能够按照解析表达式逐次产生出数据集合中数据项元素的函数。也就是不必创建完成的数据集合，从而节省存储空间。生成器和普通函数的差别1. 生成器函数体内用yield关键词生成数据项，而不是用print输出数据项。当循环遍历，采用next()获取yield生成的数据项，

158****6283

2020-06-30

19.1817 1 1

运算符

运算符 +, *, [i],[i:j],[i:j:k], in和not in 函数 len(),max(),min() 方法查 index,find,count,上面的索引下标增 join，上面的运算符的+,* 删 strip/lstrip/rstrip 改 replace,lower,upper 分割 split 检测

158****6283

2020-06-30

19.1817 1 0

[1,2,3]有几种方法可以扩展成[1,2,3,4,5,6]

方法一lst.extend([4,5,6])print(lst) 方法二lst + [4,5,6]lst

158****6283

2020-06-29

19.3982 5 1

乘法表

方法一：i = 1 while i <= 9: #控制行的循环 j = 1 while j <=i: # 控制列的循环 print("{}*{}={}".format(j,i,j*i),end='\t') j += 1 i += 1 print('')方法二：i = 1while i <= 9: s

158****6283

2020-06-29

19.3430 5 4

求水仙花数

方法一：for a in range(100,1000): b = a % 10 c = ((a - b) % 100) / 10 d = (a - 10 * c - b) / 100 if (b ** 3 + c ** 3 + d ** 3 == a): print(a,sep=' ',end=' ') 方法二：for num

158****6283

2020-06-28

25.0498 4 1

机器学习(结构化数据，scikit-learn库)

1、机器学习基础有监督学习/无监督学习分类和回归训练集、测试集、验证集数据预处理和特征工程网格搜索和学习曲线欠拟合，过拟合，正则化代价函数/损失函数泛化性能—偏差，

158****6283

2020-06-28

25.0134 4 4

数据分析

1， python语言（Anaconda:jupyter）2， numpy科学计算库3， pandas数据分析库4，可视化库小可视化：matplotlib,seaborn,pycharts 大可视化：powerbi,tableau 5，网络爬虫

158****6283

2020-06-28

25.0134 4 3

数据基础

1，高等数学求导，链式法则，凸优化，梯度，KKT条件，泰勒公式2，线性代数全部（矩阵运算，特征值和特征向量），矩阵分解，矩阵论3，概率统计条件概率，线性回归，常见几种分布，最大似然数，隐马尔科夫模型（HMM），条件随机场（CRF）4，信息论信息熵

158****6283

2020-06-28

0.2147 2 3

各类分析方法处理的数据类别

列联分析：解决定性数据对定性数据的影响方差分析：定性数据（分类和顺序数据）对定量数据是否有显著影响的方法相关分析、回归分析：分析定量对定量之间的相关关系

158****6283

2020-06-24

29.9872 5 3

行列式和矩阵在Excel中公式及用法

求行列式：MDETERM求矩阵：矩阵相乘：MMULT 矩阵的转置TRANSPOSE 矩阵的逆：MINVERSE输入公式，选中区域，按：ctrl+shift+enter 必须三个键同时按才能出正确结果

158****6283

2020-06-22

25.3032 2 6

行列式的计算方法:

方法一：对角线法则,仅适用于二阶三阶,四阶及以上无法使用方法二:n 阶计算通式

158****6283

2020-06-21

28.6324 1 3

统计学所犯的两类错误

第一类错误：“弃真错误”，当假设为真时，拒绝假设所犯的错误；概率记为α（α错误）。 α也被称为显著性水平（拒绝域面积）②第二类错误“取伪错误”，当假设为假时，接受假设所犯的错误。概率记为β（β错误）

158****6283

2020-06-20

27.2917 2 4

小概率原理

在一次试验中，小概率事件是不可能发生的；如果发生，我们就认为该事件是假的；如果真的发生了，我们则认为犯错误了，统计学中把这种错误称为“统计学所犯的错误”（“两类错误”）。

158****6283

2020-06-20

27.2917 2 3

t分布

t分布实际上是Z分布小时候的样子（矮一点、胖一点），随着年龄的增长逐渐变高、变瘦，变成了Z分布

158****6283

2020-06-19

22.6089 3 2

开口组组中值

开口组组中值的计算公式：=下限+(邻组组距/2) or =上限-(邻组组距/2)例：【2000以下】【2000—3000】开口组：【2000以下】，上限：2000，组中值：=2000-（3000-2000）/2=1500

158****6283

2020-06-19

22.6089 3 3

正态分布

正态分布是一个神奇的分布：任何分布、任何统计量随着其自由度或样本量的增大，其最终都会服从正态分布。——正态分布是所有分布的终极形态

158****6283

2020-06-19

22.6089 3 2

基础函数

（一），M函数 1.M函数的注释：单行注释符为// 多行注释符为/*…..*/ 2.M函数基本表达式： let…in…结构： let用于封装计算结果，并为计算结果命名。 in用于显示结果 eg: let 源 = #table( {"客户id","客户名称"}, { {"aa","赵大"}

158****6283

2020-06-17

25.2129 4 2

123>