fuli2020

数据预处理和特征工程

数据预处理数据无量纲化在机器学习算法实践中,我们往往有着将不同规格的数据转换到同一规格,或不同分布的数据转换到某个特定分布的需求,这种需求统称为将数据“无量纲化”。比如梯度和矩阵为核心的算法中,对于逻辑回归,支持向量机,神经网络等,无量纲化可以加快求解速度;而在距离类模型,比如K近邻,K-Means聚类中,无量纲化可以帮我们提升模型精度,避免某一个取值范围特别大的特征对距离计算造成影响。一个特例是

fuli2020

2020-09-02

97.3387 3 0
  • 关注作者
  • 收藏

机器学习——SVM与感知机

感知机的策略定义损失函数的第一种方法损失函数1:当前超平面下误分类点的个数优点:找到了一个可以反应出当下的模型的信息损失的方式缺点:离散型的变量,不好做优化,需要将离散的变量转换成连续的变量损失函数2:当前超平面下误分类点的点到超平面的距离总和优点:将离散的信息损失转换成了连续的信息损失,可以尝试做求导缺点:公式中有一个绝对值存在,做求导非常的困难y(wx+b)又叫做函数间隔损失函数3:当前超平面

fuli2020

2020-08-29

38.6381 2 0
  • 关注作者
  • 收藏

机器学习——集成算法

多个模型集成在一起的模型叫做集成评估器,组成集成评估器的每个模型都叫做基评估器。通常来说,有两类集成算法:装袋法(bagging)、提升法(boosting)装袋法的核心思想是构建多个相互独立的评估器,然后对其预测进行平均或多数表决原则来决定集成评估器的结果。装袋法的代表模型就是随机森林。提升法中,基评估器是相关的,是按顺序一一构建的。其核心思想是结合弱评估器的力量一次次对难以评估的样本进行预测,

fuli2020

2020-08-28

35.3721 2 0
  • 关注作者
  • 收藏

机器学习——概率算法贝叶斯

P(Y)称为先验概率,即在Y事件发生之前,我们对X事件概率的一个判断P(Y|X)称为后验概率,即在Y事件发生之后,我们对X事件概率的重新评估P(X|Y)/P(X)称为可能性函数,这是一个调整因子,使得预估概率更接近真实概率条件概率可以理解为:后验概率=先验概率*调整因子如果可能性函数>1,意味着先验概率被增强,事件Y的发生的可能性变大如果可能性函数=1,意味着X事件无助于判断事件Y的可能性如果可能

fuli2020

2020-08-27

38.5549 1 0
  • 关注作者
  • 收藏

机器学习——逻辑回归

负极大似然函数就是损失函数计算梯度公式手写逻辑回归import numpy as np import pandas as pdfrom sklearn.datasets import load_breast_cancerbc=load_breast_cancer()X=bc['data']Y=bc['target']from sklearn.preprocessing import Standar

fuli2020

1月前

47.5998 2 0
  • 关注作者
  • 收藏

梯度下降算法

梯度向量的方向一直是损失函数增长的方向梯度向量的值是损失函数增长的趋势离最低点越远,增长的趋势就越大,计算出来的梯度的值就越大多元状态梯度下降的损失函数多元状态梯度下降更新函数三种梯度下降算法 批量梯度下降具体做法就是在更新参数时使用所有的样本来进行更新,也就是说X和Y用的就是整个数据集随机梯度下降和批量梯度下降法原理类似,区别在仅仅选取一个样本j来求梯度,对应的更新公式是:对数据量的大小来说1

fuli2020

1月前

41.2773 3 0
  • 关注作者
  • 收藏

机器学习——线性回归

回归分析属于有监督学习算法,回归问题最终输出的是连续变量。线性回归的机器学习表示方法核心逻辑在给定n个属性描绘的客观事物x=(x1,x2,x3,...,xp)中,每个xi都用于描绘某一次观测时事物在某个维度表现出来的数值属性值。当我们在建立机器学习模型捕捉事物运行的客观规律时,本质是希望能够综合这些维度的属性值来描绘事物最终运行结果,而最简答的综合这些属性的方法就是对其加权求和汇总,这就是线性回归

fuli2020

1月前

36.1350 3 0
  • 关注作者
  • 收藏

机器学习——决策树

决策树是一种实现分治策略的层次数据结构,它是一种有效的非参数学习方法。决策树由节点和有向边组成,树中包含三种结点:根节点:包含样本全集。没有入边,但有零条或多条出边;内部结点:对应于属性测试条件,恰有一条入边,和两条或多条出边叶结点:对应于决策结果,恰有一条入边,但没有出边。从根节点到每个叶节点的路径对应了一个判定测试序列。决策树可以表示为给定决策节点下类的条件概率分布,这一条件概率分布定义在特征

fuli2020

1月前

36.2012 3 1
  • 关注作者
  • 收藏

机器学习——决策树

决策树是一种实现分治策略的层次数据结构,它是一种有效的非参数学习方法。决策树由节点和有向边组成,树中包含三种结点:根节点:包含样本全集。没有入边,但有零条或多条出边;内部结点:对应于属性测试条件,恰有一条入边,和两条或多条出边叶结点:对应于决策结果,恰有一条入边,但没有出边。从根节点到每个叶节点的路径对应了一个判定测试序列。决策树可以表示为给定决策节点下类的条件概率分布,这一条件概率分布定义在特征

fuli2020

1月前

36.2012 3 0
  • 关注作者
  • 收藏

无监督聚类算法

无监督的算法在训练的时候只需要特征矩阵X,不需要标签。无监督学习的代表算法有聚类算法、降维算法聚类分析仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组。其目标是,组内的对象相互之间是相似的(相关的),而不同组中的 对象是不同的(不相关的)。组内的相似性(同质性)越大,组间差别越大,聚类就越好。Kmeans计算过程:创建k个点作为初始质心(通常是随机选择)当任意一个点的簇分配结果发生改变时

fuli2020

1月前

47.5540 3 3
  • 关注作者
  • 收藏

机器学习-KNN算法

机器学习的方法是基于数据产生的“模型”的算法,也称“学习算法”,包括有监督学习、无监督学习、半监督学习、强化学习。有监督学习:指对数据的若干特征与若干标签(类型)之间的关联性进行建模的过程,只要模型被确定,就可以应用到新的未知数据上,这类学习过程可以进一步分为【分类】任务和【回归】任务,在分类任务中,标签都是离散值;而在回归任务中,标签都是连续值。无监督学习,指对不带任何标签的数据特征进行建模,通

fuli2020

1月前

47.6465 3 3
  • 关注作者
  • 收藏

随机森林分类器的实现

1. np.random. 在1到100当中,生成随机的10个整数,不能重复,放在一个list里面2. 对这个list进行for循环,在循环当中,实例化空的决策树,将上面的list里面的元素当做随机数种子放进去,将这个决策树结果记录到某一个list下面。3. 对这个决策树的list,进行循环,训练数据。4. 最后,给出随机森林的feature_importance最后一点要求,2,3两部使用一行代

fuli2020

1月前

34.9871 2 0
  • 关注作者
  • 收藏

python 统计 主成分分析

规范化处理,缓解特征共线性问题from sklearn.preprocessing import *#数据规范化处理raw=data.iloc[:,4:10]zraw1=StandardScaler(copy=True,with_mean=True, with_std=True).fit_transform(raw)#z变换,with_std=False对中处理zraw2=MinMaxScaler

fuli2020

1月前

29.3240 3 2
  • 关注作者
  • 收藏

python 统计 多元线性回归

y是衔接需求的,y往往是1.预测误差 2.成本高 3.抽象 4. 业务危机 5. 业务增益相关分析plt.scatter(x='运动时间',y='体重',s=100,data=data,alpha=0.3) sns.heatmap(data.corr(method='spearman'),cmap='GnBu_r')sns.pairplot(data=data1.iloc[:,[0,1,2,3,4

fuli2020

1月前

29.3240 3 2
  • 关注作者
  • 收藏

python 统计 数据分析流

数据分析流程:(1)需求:搭建业务框架(2)y量化:连接业务和统计 (3)特征选择:区分x的重要性,特征选择(4)描述:描述y和重要的x、不合理取值(5)预分析:缺失值、异常值、拟合判断、变量变换、取值编码、特征选择、共线性 缺失值:a.如果y的缺失值在20%~50%,必须使用模型填充y值(data.isnull().sum()/data.shape[0])

fuli2020

1月前

29.4888 5 2
  • 关注作者
  • 收藏

python 统计 方差分析

算法层次:统计学习,涉及python statsmodels包(方差分析,线性回归)机器学习,涉及python sklearn包,scikit-learn 包括分类、回归、聚类、降维四个大类statsmodels:假设检验及统计模型功能,主要研究结构性归因问题,并不强调预测功能,主要为推论小数据服务sklearn:提供数据挖掘模型功能,主要研究预测性问题,主要为大数据服务,以探讨速度问题为特征方差

fuli2020

1月前

74.5409 1 1
  • 关注作者
  • 收藏

python 统计 缺失值填充规则

python 统计 缺失值填充规则:当缺失值>20%且<50%,使用模型填充,填充的精确率比原值高2~3%右偏严重可对y取log,将y转换为右偏不严重的分布有没有预测误差获取指标成本高抽象,心理学抽象幸福感,经济学抽象效用业务危机,业务增益业务后端波幅一致0上下随机没有形状figsize=(16,12)宽高比 1.25~1.65异方差 大数/小数 在3内波动是正常的散点图椭圆 胖瘦 代表相关,倾斜

fuli2020

1月前

74.7293 2 3
  • 关注作者
  • 收藏

seaborn 绘图

#基本设置#创建正弦函数def sinplot(flip=1): x = np.linspace(0, 14, 100) for i in range(1, 7): plt.plot(x, np.sin(x + i * .5) * (7- i) * flip) fig = plt.figure(figsize=(8,6))sinplot()#切换seabor

fuli2020

2月前

27.6626 3 0
  • 关注作者
  • 收藏

Pandas 绘图

绘图的两种方法:第一种方法:%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npimport pandas as pds=pd.Series([909976,8615246,2872086,2273305],index=['Stockholm','London','Rome','Paris'],name='Popul

fuli2020

2月前

27.9786 3 3
  • 关注作者
  • 收藏

Pandas DataFrame的属性和方法

DataFrame的创建np.random.seed(5)a = np.random.randint(60,100,(100,6))b = pd.DataFrame(a)b.columns = ['语文','数学','政治','英语','物理','化学']b.index = ['A' + i for i in np.arange(1,101)]常用属性a.shape #形状a.columns #列

fuli2020

2月前

27.5877 3 3
  • 关注作者
  • 收藏
1234>