PhilipLiang

返回函数

函数作为返回值高阶函数除了可以接受函数作为参数外,还可以把函数作为结果值返回。我们来实现一个可变参数的求和。通常情况下,求和的函数是这样定义的:但是,如果不需要立刻求和,而是在后面的代码中,根据需要再计算怎么办?可以不返回求和的结果,而是返回求和的函数:当我们调用lazy_sum()时,返回的并不是求和结果,而是求和函数:调用函数f时,才真正计算求和的结果:在这个例子中,我们在函数lazy_sum

PhilipLiang

2020-07-07

21.2427 4 0
  • 关注作者
  • 收藏

sorted函数

排序也是在程序中经常用到的算法。无论使用冒泡排序还是快速排序,排序的核心是比较两个元素的大小。如果是数字,我们可以直接比较,但如果是字符串或者两个dict呢?直接比较数学上的大小是没有意义的,因此,比较的过程必须通过函数抽象出来。Python内置的sorted()函数就可以对list进行排序:此外, sorted()函数也是一个高阶函数,它还可以接收一个key函数来实现自定义的排序,例如按绝对值大

PhilipLiang

2020-07-02

22.8946 4 3
  • 关注作者
  • 收藏

Python 偏函数

Python的functools模块提供了很多有用的功能,其中一个就是偏函数。要注意,这里的偏函数和数学意义上的偏函数不一样。在介绍函数参数的时候,我们讲到,通过设定参数的默认值,可以降低函数调用的难度。而偏函数也可以做到这一点。举例如下:int()函数可以把字符串转换为整数,当仅传入字符串时,int()函数默认按十进制转换:但int()函数还提供额外的base参数,默认值为10。如果传入base

PhilipLiang

2020-07-01

0.0034 2 2
  • 关注作者
  • 收藏

filter 函数

Python内建的filter()函数用于过滤序列。和map()类似,filter()也接收一个函数和一个序列。和map()不同的是,filter()把传入的函数依次作用于每个元素,然后根据返回值是True还是False决定保留还是丢弃该元素。例如,在一个list中,删掉偶数,只保留奇数,可以这么写:把一个序列中的空字符串删掉,可以这么写:可见用filter()这个高阶函数,关键在于正确实现一个“

PhilipLiang

2020-06-30

19.1842 2 5
  • 关注作者
  • 收藏

map/reduce 函数

Python内建了map()和reduce()函数。map()函数接收两个参数,一个是函数,一个是Iterable, map将传入的函数依次作用到序列的每个元素,并把结果作为新的Iterator返回。举例说明,比如我们有一个函数f(x)=x2,要把这个函数作用在一个list [1, 2, 3, 4, 5, 6, 7, 8, 9]上, 就可以用map()实现如下:现在,我们用Python代码实现:m

PhilipLiang

2020-06-23

37.7168 3 3
  • 关注作者
  • 收藏

决策树剪枝策略及优缺点

预剪枝 在决策树的生长过程中限制其规模,使其较早的停止生长。对每个节点划分前用验证集进行估计,通过比较划分前后的验证集精度来判断是否剪枝。若当前节点的划分不能带来决策树泛化能力的提升,则停止划分并标记当前节点为叶子结点。 优缺点:预剪枝使得决策树的很多分支没有“展开”,降低了过拟合的风险,还能够减少决策树的训练时间以及预测事件开销。但是,有些分支可能当前划分不能提升模型的泛化性能甚至导致泛化性能

PhilipLiang

2020-06-18

54.7519 5 6
  • 关注作者
  • 收藏

ID3,C4.5,CART算法对比

ID3 ID3决策树可以有多个分支,但是不能处理特征值为连续的情况。在ID3中,每次根据“最大信息熵增益”选取当前最佳的特征来分割数据,并按照该特征的所有取值来切分,也就是说如果一个特征有4种取值,数据将被切分4份,一旦按某特征切分后,该特征在之后的算法执行中,将不再起作用。ID3算法十分简单,核心是根据“最大信息熵增益”原则选择划分当前数据集的最好特征,信息熵是信息论里面的概念,是信息的度量方式

PhilipLiang

2020-06-18

0.0237 1 7
  • 关注作者
  • 收藏

机器学习第二天作业知识点整理

KMeans的原理 先从没有标签的元素集合A中随机取k个元素作为k个子集各自的中心 分别计算剩下的元素到k个子集中心的距离,将这些元素分别划归到最近的子集 根据聚类结果,重新计算中心(子集中所有元素各个维度的算数平均数) 将集合A中全部元素按照新的中心然后再重新聚类 重复以上步骤,直到聚类的结果不再发生变化 KMeans的优点 原理比较简单,实现也很容易,收敛速度快。 球状聚类效果较优

PhilipLiang

2020-06-18

0.0000 0 3
  • 关注作者
  • 收藏

机器学习第一天作业知识点整理

欠拟合是指模型拟合程度不高,数据距离拟合曲线较远,或指模型没有很好地捕捉到数据特征,不能够很好地拟合数据。对于训练好的模型,若在训练集表现差,在测试集表现同样会很差。 一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在训练数据外的数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。过拟合是指为了得到一致假设而使假设变得过度严格。 过拟合解决方法:增大数据集合,使用更多数据

PhilipLiang

2020-06-17

25.1336 4 3
  • 关注作者
  • 收藏

递归函数--整理

在函数内部,可以调用其他函数。如果一个函数在内部调用自身本身,这个函数就是递归函数。 举个例子,我们来计算阶乘n! = 1 x 2 x 3 x ... x n,用函数fact(n)表示,可以看出: fact(n)=n!=1×2×3×⋅⋅⋅×(n−1)×n=(n−1)!×n=fact(n−1)×n 所以,fact(n)可以表示为n x fact(n-1),只有n=1时需要特殊处理。 于是,f

PhilipLiang

2020-06-10

13.1375 2 2
  • 关注作者
  • 收藏

使用Python进行T检验--整理

引入第三方库 from scipy.stats import ttest_1samp, ttest_ind, ttest_rel, levene from scipy import stats 三种T检验均进行双侧检验 H0:μ=μ0 H1:μ=μ0 单样本T检验(ttest_1samp) 使用ttest_1samp()函数可以进行单样本T检验,比如检验一列数据的均值与1的差异是否显著

PhilipLiang

2020-06-09

24.1482 3 4
  • 关注作者
  • 收藏

numpy的loadtxt()方法--笔记

numpy.loadtxt()方法的参数有以下这些: fname: 指定需要读取的文件地址即可完成最简单的读取操作,如下: 创建一个txt文件(test.txt),文件内容是: 使用numpy.loadtxt()读取,此时使用文件的相对地址进行读取: 考虑到loadtxt()中的dtype参数默认设置为float,这里设置为str字符串便于显示,dtype参数指定读取后的数

PhilipLiang

2020-06-03

18.2071 6 3
  • 关注作者
  • 收藏

齐次线性方程组有非零解的条件--笔记整理

定理 一个齐次线性方程组有非零解的充分且必要条件是:它的系数矩阵的秩r小于它的未知量的个数n。 推论1 含有n个未知量n个方程的齐次线性方程组有非零解的充分且必要e799bee5baa6e79fa5e98193e4b893e5b19e31333365666238条件是:方程组的系数行列式等于零。 推论2 若在一个齐次线性方程组中, 方程的个数m小于未知量的个数n,那么这个方程组一定有非零

PhilipLiang

2020-05-19

84.0697 6 6
  • 关注作者
  • 收藏

Power BI 第四天作业

我的解法是这样的,为了让各个城市都显示上海金额合计,直接在calculate函数下加筛选条件就行,也没用到什么别的函数,最后用百分比差异公式算出标准比,不知道对不对,有同学答案和我一样吗?

PhilipLiang

2020-05-12

27.3926 3 4
  • 关注作者
  • 收藏

MySQL第三天作业第二题

我是这样解的,结果虽然对了,但是步骤不知道对不对,有人答案和我不同吗?

PhilipLiang

2020-04-29

58.6792 3 4
  • 关注作者
  • 收藏

对于关系模型中主键的细节理解

在关系数据库中,一张表中的每一行数据被称为一条记录。一条记录就是由多个字段组成的。例如,学生(student)表的两行记录: 每一条记录都包含若干定义好的字段。同一个表的所有记录都有相同的字段定义。 对于关系表,有个很重要的约束,就是任意两条记录不能重复。不能重复不是指两条记录不完全相同,而是指能够通过某个字段唯一区分出不同的记录,这个字段被称为主键。 例如,假设我们把名字字段作为主键,那么

PhilipLiang

2020-04-27

28.0682 4 0
  • 关注作者
  • 收藏

忠诚度练习题

我得出来的图和答案不一样,有谁和我情况一样吗? 这是我的步骤 1.订单ID提取出来去重之后,用VLOOKUP查找用户ID,如图 2.透视表得出消费金额之后,新建了一张表复制粘贴数值得到用户ID、消费金额和消费次数,然后分别插入金额和次数的箱型图 3.求金额程度和次数程度如图公式所示 4.利用课上老师教的方法求用户类别。 5.最后用vloo

PhilipLiang

2020-04-23

17.5454 4 6
  • 关注作者
  • 收藏

进一步理解堆积柱形图--麦肯锡瀑布图

第一天学习完的项目排期表后,感觉自己对堆积柱形图理解的不够透彻,担心遇到其他案例就做不出来,于是研究了一下麦肯锡的瀑布图,其制作过程的原理就是堆积柱形图,现在拿来分享一下,如果有不对的地方欢迎指正。 1.将各城市销售占比由高到低降序排列后,添加辅助列,其中上海和总计销售占比取0,在成都辅助列单元格C3中输入=SUM($B$2:B2)得到累计销售占比,向下使用填充柄至深圳辅助列单元格。

PhilipLiang

2020-04-21

32.6849 3 2
  • 关注作者
  • 收藏