姚慧扬

客户画像

客户画像:1.1 归纳指标-->作图分析/打分 常见指标:RFM:最近,频率,金额-->作图,分象限描述-->打分 打分:涉及到分箱,涉及到每个箱子的分数:可以依经验自定义,也可以在有y的前提下有监督(cart树) 指标来源:直接/换算,主成分做维度规约1.2 聚类-->分群:最重要的是解释每一个簇的描述(依据簇中心) 方法:kmeans, 凝聚层次聚类,DBSCAN(密度

姚慧扬

1月前

40.3583 2 0
  • 关注作者
  • 收藏

机器学习流程(有监督学习)

业务理解(业务的背景,业务场景,需要解决的问题,业务目标,需要什么数据)数据获取(综合考虑数据获取难度,准确率,覆盖率;如何获取(数据库,爬虫,调查问卷))数据预处理: 训练集和测试集划分 数据查看:数据读取,数据的前几行,后几行,shape,缺失值情况,数据类型,统计描述性信息(数值型,类别型) 数据的清洗:删除无效字段,删除缺失值,填充缺失值,删除重复,异常值处理 数据探索性分析(挖掘特

姚慧扬

1月前

35.3721 2 0
  • 关注作者
  • 收藏

数据预处理

数据预处理 无量钢化(要计算距离的都要) MinMaxScaler or StandardScaler KNN,K-mean,回归,感知机,SVM,PCA这些算法都要无量纲化 缺失值处理 fillna() -pandas SimpleImputer(stratory).fit(xtrain) -sklearn 连续型:中位数,均值; 离散型:众数 处理分类型特征:编码与

姚慧扬

1月前

35.7240 1 0
  • 关注作者
  • 收藏

adaboost

adaboost算法:每一次迭代的过程当中,使用决策树模型训练带权重的样本,训练的过程当中,会非常小心的对待权重大的样本(上一次迭代中预测错的样本。拟合好的模型会尽量将这些权重大的样本预测正确。这次迭代之后,很可能还是会出现预测错的样本,再将这些预测错的样本的权重增大,减少预测正确样本的权重。从而让下一次迭代中的这个模型很小心的对待这一次预测错的样本

姚慧扬

1月前

35.9174 2 0
  • 关注作者
  • 收藏

支持向量机

线性SVM: 硬边距:1.目标是分类间隔最大,优化分割面; 2.两个约束条件:a.分割面能够把正负样本点完全分开,b.点到分割面的距离最大,点是支持向量点 3.把约束条件转化到一个不等式中;支持向量的点到面的距离最小 4.将有约束条件的优化问题转化无约束条件的优化问题,通过引入拉格朗日函数 5.利用SMO求解:固定其它参数α,每次优化两个参数α(求解拉格朗

姚慧扬

1月前

42.8533 3 0
  • 关注作者
  • 收藏

如何选择正确的激活函数?

用于分类器时,Sigmoid函数及其组合通常效果更好。由于梯度消失问题,有时要避免使用sigmoid和tanh函数。ReLU函数是一个通用的激活函数,目前在大多数情况下使用。如果神经网络中出现死神经元,那么PReLU函数就是最好的选择。请记住,ReLU函数只能在隐藏层中使用。一点经验:你可以从ReLU函数开始,如果ReLU函数没有提供最优结果,再尝试其他激活函数。

姚慧扬

1月前

73.4504 2 0
  • 关注作者
  • 收藏

​怎么降低单棵决策树的复杂度?

抑制单棵决策树的复杂度的方法有很多:• 限制树的最大深度、限制叶子节点的最少样本数量、限制节点分裂时的最少样本数量• 吸收 bagging 的思想对训练样本采样(subsample),在学习单棵决策树时只使用一部分训练样本• 借鉴随机森林的思路在学习单棵决策树时只采样一部分特征• 在目标函数中添加正则项惩罚复杂的树结构等

姚慧扬

2月前

41.6271 5 0
  • 关注作者
  • 收藏

​集成学习分类

集成学习: 集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务。如何产生“好而不同”的个体学习器,是集成学习研究的核心。根据个体学习器的生成方式,可以将集成学习方法大致分为两大类:1、个体学习器间存在强依赖关系、必须串行生成的序列化方法比如 boosting 族算法,代表性的有 Adaboost 算法, GBDT, XGB2、个体学习器之间不存在强依赖关系、可同时

姚慧扬

2月前

41.4497 5 0
  • 关注作者
  • 收藏

神经网络

神经网络主要解决非线性问题 回归问题:隐藏层有激活函数(指定的激活函数),输出层无激活函数;按照平方差误差最小进行优化;只有一个输出端口; 分类问题:隐藏层有激活函数(指定的激活函数);按照交叉熵函数最小进行优化; 二分类:输出层的激活函数为sigmoid函数,一个输出端口 多分类:输出层的激活函数为softmax函数,多个输出端口 神经网络的缺点:和决策树一样,容易过拟合 解

姚慧扬

2月前

24.3398 2 2
  • 关注作者
  • 收藏

特征工程

特征的定义:在数据科学过程中的有效属性(或字段) 的形式称为特征 特征工程的定义:特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程, 从而提高对未知数据预测的准确性 特征工程=数据准备(for 数据挖掘) 特征工程的目的:将信息使用更高效的编码方式(特征) 表示, 使用特征表示的信息, 信息损失较少, 原始数据中包含的规律依然保留 此外, 新的编码方式还需要尽量减

姚慧扬

2月前

32.3009 4 2
  • 关注作者
  • 收藏

逻辑回归

损失函数: 1.线性回归:L(θ)=常数-J(θ) -->J(θ)最小 2.逻辑回归:J(θ)=-L(θ) -->最小 3.softmax回归:J(θ)=-L(θ) -->最小 交叉熵函数:衡量两个概率分布的距离为什么用交叉熵函数:因为MSE训练起来很费劲,但是交叉熵函数可以收敛的更快分类问题都是使用交叉熵损失函数,不用MSE 对于不平衡的数据有以下处理方法:1.数据层面处理:只能处理训练集

姚慧扬

2月前

32.3250 2 1
  • 关注作者
  • 收藏

基于用户或者物品的协同过滤中的相似性计算方式

相似性评测: (核心)①欧几里德距离评价;②皮尔逊相关度评价[皮尔逊相关系数,用的比较多];③余弦相关系数cosθ=(A向量*B向量) / (|A|*|B|) [这个用的比较多,和实际生产比较贴切];④杰卡德相关系数Jaccard(A,B)=A∩B / AUB [只需要关注客户有没有买,不需要关注买了多少的问题]

姚慧扬

2月前

37.1459 1 4
  • 关注作者
  • 收藏

基于用户的协同过滤

本质是给相似的用户推荐其他相似用户喜欢的内容 步骤:①寻找与用户1相似的用户k;②把用户K喜欢的而用户1没有用过的商品推荐给用户1[相似性:根据购买记录来评测] 相似性评测: ①欧几里德距离评价; (核心) ②皮尔逊相关度评价[皮尔逊相关系数,用的比较多]; ③余弦相关系数cosθ=(A向量*B向量) / (|A|*|B|) [这个用的比较多,和实际生产比较贴切]; ④杰卡德相关系数

姚慧扬

2月前

47.5540 3 2
  • 关注作者
  • 收藏

朴素贝叶斯模型

朴素贝叶斯中的三种常用模型 多项式模型(MultinomialNB) 特征是离散的时候, 使用多项式模型。 多项式模型在计算先验概率P(yk)和条件概率P(xi|yk)时, 会做一些平滑处理. 多项式模型常用于文本分类, 特征是单词, 值是单词的出现次数. 伯努利模型(BernoulliNB) 伯努利模型适用于离散特征的情况, 所不同的是, 伯努利模型中每个特征的取值只能是1和0

姚慧扬

2月前

32.3292 4 1
  • 关注作者
  • 收藏

​Sigmoid函数特性

①sigmoid函数连续, 严格单调, 以(0,0.5)中心对称, 是一个非常良好的阈值函数②当x为0时, Sigmoid函数值为0.5, 随着x的增大对应的Sigmoid值将逼近于1; 而随着x的减小, Sigmoid函数会趋近于0③Sigmoid函数的值域范围限制在(0,1)之间, 与概率值的范围是相对应的④Sigmoid函数的导数是其本身的函数, 即f'(x)=f(x)(1-f(x)), 计

姚慧扬

2月前

22.4943 4 2
  • 关注作者
  • 收藏

线性回归

线性回归分类1.标准线性回归2.欠拟合:从数据角度处理,对特征进行多项式变换,按照标准线性回归流程3.过拟合:从算法角度处理,有以下 岭回归:L2正则 lasso回归:L1正则 弹性网:L1+L2求解方法: 最小二乘法:解析解 梯度下降法:数值解,一阶导 批量梯度下降 随机梯度下降 小批量梯度下降 坐标轴下降法(Lasso在0处不可导,只能用这种方法求解) 牛顿法:二阶导,比梯度

姚慧扬

2月前

34.9110 2 4
  • 关注作者
  • 收藏

梯度下降法分类

批量梯度下降算法(BGD) :每一次迭代使用全部的样本 特点: 能达到全局最优解(凸函数情况下) 当样本数目很多时, 训练过程缓慢随机梯度下降算法(SGD) :每一次更新参数只使用一个样本,进行多次更新 特点: 迭代速度快 准确度下降, 每次不一定朝着收敛的方向, 容易陷入局部最优 非凸函数情况下有可能跳出局部最优小批量梯度下降算法(MBGD):更新每一参数时都使用一部分样本来进行更新

姚慧扬

2月前

34.5369 5 4
  • 关注作者
  • 收藏

机器学习流程

业务理解(业务的背景,业务场景,需要解决的问题,业务目标,需要什么数据)数据获取(综合考虑数据获取难度,准确率,覆盖率;如何获取(数据库,爬虫,调查问卷))数据预处理: 训练集和测试集划分 数据查看:数据读取,数据的前几行,后几行,shape,缺失值情况,数据类型,统计描述性信息(数值型,类别型) 数据的清洗:删除无效字段,删除缺失值,填充缺失值,删除重复,异常值处理 数据探索性分析(挖掘特

姚慧扬

2月前

31.3758 2 3
  • 关注作者
  • 收藏

信息增益

信息增益决定特征是否有分类能力在划分数据集之后信息发生的变化称为信息增益通过计算每个特征值划分数据集获得的信息增益, 获得信息增益最高的特征就是最好的选择如何计算信息增益:香农熵熵:(随机变量不确定性的度量)概率越小,信息量越多香农熵:当熵中的概率由数据估计(特别是最大似然估计)得到时,所对应的熵称为经验熵(empirical entropy)经验熵经验条件熵信息增益=经验熵-经验条件熵为什么要选

姚慧扬

2月前

37.8020 5 5
  • 关注作者
  • 收藏

决策树是什么

决策树(decision tree)是一种基本的分类与回归方法;监督学习完备性:任何来一个样本点,都能落到某一片叶子上互斥性:不会同时落在两片叶子上,只能落在一片叶子上①使用决策树做预测的每一步骤都很重要,数据收集不到位,将会导致没有足够的特征让我们构建错误率低的决策树②数据特征充足,但是不知道用哪些特征好, 将会导致无法构建出分类效果好的决策树模型。从算法方面看,决策树的构建是我们的核心内容决策

姚慧扬

2月前

22.5918 4 4
  • 关注作者
  • 收藏