数据科学专业问答社区，好文章，一字千金--CDA答疑社区

返回函数

函数作为返回值高阶函数除了可以接受函数作为参数外，还可以把函数作为结果值返回。我们来实现一个可变参数的求和。通常情况下，求和的函数是这样定义的：但是，如果不需要立刻求和，而是在后面的代码中，根据需要再计算怎么办？可以不返回求和的结果，而是返回求和的函数：当我们调用lazy_sum()时，返回的并不是求和结果，而是求和函数：调用函数f时，才真正计算求和的结果：在这个例子中，我们在函数lazy_sum

PhilipLiang

2020-07-07

21.2427 4 0

sorted函数

排序也是在程序中经常用到的算法。无论使用冒泡排序还是快速排序，排序的核心是比较两个元素的大小。如果是数字，我们可以直接比较，但如果是字符串或者两个dict呢？直接比较数学上的大小是没有意义的，因此，比较的过程必须通过函数抽象出来。Python内置的sorted()函数就可以对list进行排序：此外, sorted()函数也是一个高阶函数，它还可以接收一个key函数来实现自定义的排序，例如按绝对值大

PhilipLiang

2020-07-02

22.8946 4 3

Python 偏函数

Python的functools模块提供了很多有用的功能，其中一个就是偏函数。要注意，这里的偏函数和数学意义上的偏函数不一样。在介绍函数参数的时候，我们讲到，通过设定参数的默认值，可以降低函数调用的难度。而偏函数也可以做到这一点。举例如下：int()函数可以把字符串转换为整数，当仅传入字符串时，int()函数默认按十进制转换：但int()函数还提供额外的base参数，默认值为10。如果传入base

PhilipLiang

2020-07-01

0.0034 2 2

filter 函数

Python内建的filter()函数用于过滤序列。和map()类似，filter()也接收一个函数和一个序列。和map()不同的是，filter()把传入的函数依次作用于每个元素，然后根据返回值是True还是False决定保留还是丢弃该元素。例如，在一个list中，删掉偶数，只保留奇数，可以这么写：把一个序列中的空字符串删掉，可以这么写：可见用filter()这个高阶函数，关键在于正确实现一个“

PhilipLiang

2020-06-30

19.1842 2 5

map/reduce 函数

Python内建了map()和reduce()函数。map()函数接收两个参数，一个是函数，一个是Iterable, map将传入的函数依次作用到序列的每个元素，并把结果作为新的Iterator返回。举例说明，比如我们有一个函数f(x)=x2，要把这个函数作用在一个list [1, 2, 3, 4, 5, 6, 7, 8, 9]上, 就可以用map()实现如下：现在，我们用Python代码实现：m

PhilipLiang

2020-06-23

37.7168 3 3

决策树剪枝策略及优缺点

预剪枝在决策树的生长过程中限制其规模，使其较早的停止生长。对每个节点划分前用验证集进行估计，通过比较划分前后的验证集精度来判断是否剪枝。若当前节点的划分不能带来决策树泛化能力的提升，则停止划分并标记当前节点为叶子结点。优缺点：预剪枝使得决策树的很多分支没有“展开”，降低了过拟合的风险，还能够减少决策树的训练时间以及预测事件开销。但是，有些分支可能当前划分不能提升模型的泛化性能甚至导致泛化性能

PhilipLiang

2020-06-18

54.7519 5 6

ID3，C4.5，CART算法对比

ID3 ID3决策树可以有多个分支，但是不能处理特征值为连续的情况。在ID3中，每次根据“最大信息熵增益”选取当前最佳的特征来分割数据，并按照该特征的所有取值来切分，也就是说如果一个特征有4种取值，数据将被切分4份，一旦按某特征切分后，该特征在之后的算法执行中，将不再起作用。ID3算法十分简单，核心是根据“最大信息熵增益”原则选择划分当前数据集的最好特征，信息熵是信息论里面的概念，是信息的度量方式

PhilipLiang

2020-06-18

0.0237 1 7

机器学习第二天作业知识点整理

KMeans的原理先从没有标签的元素集合A中随机取k个元素作为k个子集各自的中心分别计算剩下的元素到k个子集中心的距离，将这些元素分别划归到最近的子集根据聚类结果，重新计算中心（子集中所有元素各个维度的算数平均数）将集合A中全部元素按照新的中心然后再重新聚类重复以上步骤，直到聚类的结果不再发生变化 KMeans的优点原理比较简单，实现也很容易，收敛速度快。球状聚类效果较优

PhilipLiang

2020-06-18

0.0000 0 3

机器学习第一天作业知识点整理

欠拟合是指模型拟合程度不高，数据距离拟合曲线较远，或指模型没有很好地捕捉到数据特征，不能够很好地拟合数据。对于训练好的模型，若在训练集表现差，在测试集表现同样会很差。一个假设在训练数据上能够获得比其他假设更好的拟合，但是在训练数据外的数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。过拟合是指为了得到一致假设而使假设变得过度严格。过拟合解决方法：增大数据集合，使用更多数据

PhilipLiang

2020-06-17

25.1336 4 3

递归函数--整理

在函数内部，可以调用其他函数。如果一个函数在内部调用自身本身，这个函数就是递归函数。举个例子，我们来计算阶乘n! = 1 x 2 x 3 x ... x n，用函数fact(n)表示，可以看出： fact(n)=n!=1×2×3×⋅⋅⋅×(n−1)×n=(n−1)!×n=fact(n−1)×n 所以，fact(n)可以表示为n x fact(n-1)，只有n=1时需要特殊处理。于是，f

PhilipLiang

2020-06-10

13.1375 2 2

使用Python进行T检验--整理

引入第三方库 from scipy.stats import ttest_1samp, ttest_ind, ttest_rel, levene from scipy import stats 三种T检验均进行双侧检验 H0:μ=μ0 H1:μ=μ0 单样本T检验(ttest_1samp) 使用ttest_1samp()函数可以进行单样本T检验，比如检验一列数据的均值与1的差异是否显著

PhilipLiang

2020-06-09

24.1482 3 4

numpy的loadtxt()方法--笔记

numpy.loadtxt()方法的参数有以下这些： fname: 指定需要读取的文件地址即可完成最简单的读取操作，如下：创建一个txt文件（test.txt），文件内容是：使用numpy.loadtxt()读取，此时使用文件的相对地址进行读取：考虑到loadtxt()中的dtype参数默认设置为float，这里设置为str字符串便于显示，dtype参数指定读取后的数

PhilipLiang

2020-06-03

18.2071 6 3

齐次线性方程组有非零解的条件--笔记整理

定理一个齐次线性方程组有非零解的充分且必要条件是：它的系数矩阵的秩r小于它的未知量的个数n。推论1 含有n个未知量n个方程的齐次线性方程组有非零解的充分且必要e799bee5baa6e79fa5e98193e4b893e5b19e31333365666238条件是：方程组的系数行列式等于零。推论2 若在一个齐次线性方程组中，方程的个数m小于未知量的个数n，那么这个方程组一定有非零

PhilipLiang

2020-05-19

84.0697 6 6

Power BI 第四天作业

我的解法是这样的，为了让各个城市都显示上海金额合计，直接在calculate函数下加筛选条件就行，也没用到什么别的函数，最后用百分比差异公式算出标准比，不知道对不对，有同学答案和我一样吗？

PhilipLiang

2020-05-12

27.3926 3 4

MySQL第三天作业第二题

我是这样解的，结果虽然对了，但是步骤不知道对不对，有人答案和我不同吗？

PhilipLiang

2020-04-29

58.6792 3 4

对于关系模型中主键的细节理解

在关系数据库中，一张表中的每一行数据被称为一条记录。一条记录就是由多个字段组成的。例如，学生(student)表的两行记录：每一条记录都包含若干定义好的字段。同一个表的所有记录都有相同的字段定义。对于关系表，有个很重要的约束，就是任意两条记录不能重复。不能重复不是指两条记录不完全相同，而是指能够通过某个字段唯一区分出不同的记录，这个字段被称为主键。例如，假设我们把名字字段作为主键，那么

PhilipLiang

2020-04-27

28.0682 4 0

忠诚度练习题

我得出来的图和答案不一样，有谁和我情况一样吗？这是我的步骤 1.订单ID提取出来去重之后，用VLOOKUP查找用户ID，如图 2.透视表得出消费金额之后，新建了一张表复制粘贴数值得到用户ID、消费金额和消费次数，然后分别插入金额和次数的箱型图 3.求金额程度和次数程度如图公式所示 4.利用课上老师教的方法求用户类别。 5.最后用vloo

PhilipLiang

2020-04-23

17.5454 4 6

进一步理解堆积柱形图--麦肯锡瀑布图

第一天学习完的项目排期表后，感觉自己对堆积柱形图理解的不够透彻，担心遇到其他案例就做不出来，于是研究了一下麦肯锡的瀑布图，其制作过程的原理就是堆积柱形图，现在拿来分享一下，如果有不对的地方欢迎指正。 1.将各城市销售占比由高到低降序排列后，添加辅助列，其中上海和总计销售占比取0，在成都辅助列单元格C3中输入=SUM($B$2:B2)得到累计销售占比，向下使用填充柄至深圳辅助列单元格。

PhilipLiang

2020-04-21

32.6849 3 2