叶yyf

boosting算法的工作机制

1. 将训练集⽤初始权重训练出⼀个弱学习器。 2. 根据弱学习器的表现,更新训练样本的权重。从⽽使得前⼀个弱学习器的学习误差率⾼的训练样本 的权重增⾼,从⽽让这些误差率较⾼的样本点在后⾯的弱学习器中得到更多的重视。 3. 然后基于调整权重后的训练集来训练新的弱学习器,如此重复。 4. 当弱学习器数量达到我们指定的数量后,最终将这k个弱学习器通过组合策略整合,得到最终的强 学习器。

叶yyf

2020-10-04

100.0166 2 0
  • 关注作者
  • 收藏

梯度下降

1. 梯度向量的⽅向⼀直是损失函数增⻓的⽅向。 2. 梯度向量的值是损失函数增⻓的趋势。 3. 离最低点越远,增⻓的趋势就越⼤,计算出来的梯度的值就越⼤。

叶yyf

2020-10-04

100.3186 3 0
  • 关注作者
  • 收藏

sklearn中降维算法

sklearn中降维算法都被包括在模块decomposition中,这个模块本质是一个矩阵分解模块。在过去 的十年中,如果要讨论算法进步的先锋,矩阵分解可以说是独树一帜。矩阵分解可以用在降维,深度学 习,聚类分析,数据预处理,低纬度特征学习,推荐系统,大数据分析等领域。在2006年,Netflflix曾 经举办了一个奖金为100万美元的推荐系统算法比赛,最后的获奖者就使用了矩阵分解中的明星:奇异值

叶yyf

2020-09-30

42.8960 1 0
  • 关注作者
  • 收藏

逻辑回归

分类技术是机器学习和数据挖掘应⽤中的重要组成部分。在数据科学中,⼤约70%的问题属于分类问 题。解决分类的算法也有很多种。⽐如:KNN,使⽤距离计算来实现分类;决策树,通过构建直观易懂 的树来实现分类。这⾥我们要展开的是Logistic回归,它是⼀种很常⻅的⽤来解决⼆元分类问题的回归 ⽅法,它主要是通过寻找最优参数来正确地分类原始数据。

叶yyf

2020-09-27

70.5881 4 0
  • 关注作者
  • 收藏

线性回归中,岭回归的作用

总的来说,解决共线性的问题的⽅法主要有以下两种: 其⼀是在建模之前对各特征进⾏相关性检验,若存在多重共线性,则可考虑进⼀步对数据集进⾏ SVD分解或PCA主成分分析,在SVD或PCA执⾏的过程中会对数据集进⾏正交变换,最终所得数据 集各列将不存在任何相关性。当然此举会对数据集的结构进⾏改变,且各列特征变得不可解释。 其⼆则是采⽤逐步回归的⽅法,以此选取对因变量解释⼒度最强的⾃变量,同时对于存在相关

叶yyf

2020-09-22

45.5995 1 0
  • 关注作者
  • 收藏

python中用pd.to_datetime的方法将dataframe中的年月日进行切分

- 当你遇到一个字符串格式的时间格式的时候- 可以直接转换成时间格式pd.to_datetime- 拿出年月日,在原来的字符串上切分e.g:time_wine = pd.to_datetime(wine["日期"])time_wine.apply(lambda x:x.year)time_wine.apply(lambda x:x.month)time_wine.apply(lambda x:x.

叶yyf

2020-09-13

66.5030 2 0
  • 关注作者
  • 收藏

sql错误代码1060

select *from (select *from scleft join student on sc.sno=student.sno ) tleft join course on t.cno=course.cno where student.sdept='计算机系' or student.sdept='信息系'order by student.sdept,student.sname,stude

叶yyf

2020-09-06

41.9846 1 0
  • 关注作者
  • 收藏

python基础

字符串str 特性 1 不可变数据类型 2 有序的数据类型 定义 1 str()函数将其他数据类型转化为字符串 2 直接加引号进行定义 运算 + 字符串的收尾拼接 * 字符串的重复 in 包含 索引和切片 str[开始位置:终止位置:步长和方向] 1 开始位置能取到 2 终止位置取不到(左闭

叶yyf

2020-09-06

41.9846 1 0
  • 关注作者
  • 收藏

推断性分析方法

列联分析——分析定性变量对定性变量的影响 原理:比较实际值与期望值(如何计算?)之间的差距,构造了卡方统计量,进行决策 作用:通过比较实际值与期望值之间是否存在差异,分析定性变量对另一个定性变量是否有显著影响。——拟合优度检验、独立性检验、...... 几个系数——消除n的影响方差分析——分析定性变量对定量变量的影响 原理:比较组间误差(存在随机误差+可能有因素A的影响)与组内误差(只有随机误差)

叶yyf

2020-08-28

35.3721 2 0
  • 关注作者
  • 收藏

mysql 子查询出现的位置

• 出现在select子句中:将子查询返回结果作为主查询的一个字段或者计算值(标量子查询、列子查询) • 出现在where/having子句中:将子查询返回的结果作为主查询的条件(标量子查询、行子查询、列子查询、表子查询)• 出现在from或join子句中:将子查询返回的结果作为主查询的一个表(标量子查询、行子查询、列子查询、表子查询) 必须添加表别名,如果需要引用表子查询中的计算字段,必须添加列

叶yyf

2020-08-20

29.9696 3 0
  • 关注作者
  • 收藏

WORKBENCH 运行不了代码

WORKBENCH 运行不了代码

叶yyf

2020-08-18

24.3355 2 4
  • 关注作者
  • 收藏

​数据库与数据仓库的区别

数据库和数据仓库其实很相似,都是通过数据库管理系统,来组织、存储和管理数据。• 数据库是存放原始数据的集合,主要存储业务流程中的事务性数据,如银行交易、订单记录等。• 数据仓库是数据库概念的升级,是存放加工处理后的数据集合,主要存储从数据库中整合、汇总后的数据,用于针对某些主题 的历史数据进行分析,侧重决策支持。

叶yyf

2020-08-17

32.3009 4 1
  • 关注作者
  • 收藏

Power BI里面的同步切片器的使用

在Power BI的页面下想要用切片器控制两个页面时,就需要点击视同下方的同步切片器选项,将将第一页跟第二页的同步更新选中即可,如果需要在第二页有显示切片器,发也可将可视化选中,这样即可在两张页面上看到切片器,也可同步筛选出相应内容。

叶yyf

2020-08-14

37.2563 2 3
  • 关注作者
  • 收藏

RFM模型的步骤以及总结

1、根据业务需求来选取指标2、根据指标划分不同的程度3、设计分类模型4、根据模型将数据划分到不同的类别下RFM总结:1、结合实际业务选取关键数据指标分析,不是千篇一律的最近一次消费时间、消费频次、消费金额2、定义R值、F值、M值数据区间分隔时,发现明显断档数据可以通过散点图、透视表、构成类图等进行判断3、除了选取讲解的3个核心业务指标进行交叉分析,也可以同时分析4个、5个指标,或者只需要分析2个指

叶yyf

2020-08-09

31.4607 2 3
  • 关注作者
  • 收藏

EXCEL中的VLOOKUP,INDEX,MATCH函数的使用

关于这三个函数的使用技巧,有一下几点:=INDEX(在哪儿找,第几行)=MATCH(找谁,在哪儿找,匹配方式)=VLOOKUP(找谁,在哪儿找,第几列,匹配方式)

叶yyf

2020-08-05

22.5744 5 3
  • 关注作者
  • 收藏