sklearn基本操作_CDA答疑社区

M17051121193254

2020-06-08 阅读量: 802

Python数据分析

sklearn基本操作

扫码加入数据分析学习群

sklearn中集成了各种数据挖掘所需的变量变换、变量信息处理、统计建模、模型优化、模型评估方法，为便于使用，这些操作基本上都封装成了具有统一API的类，调用时都遵循统一的操作规范。

标准的类参数

class sklearn.大类名称.Modelclass(类参数列表)

Modelclass中基本通用的类参数：

fit_intercept = True : 模型是否包括常数项

使用该选项就不需要在数据框中设定cons

n_jobs = 1 : 使用的例程数，为-1时使用全部CPU

max_iter = 200 : int，模型最大迭代次数

tol = 0.0001 模型收敛标准

warm_start = False : 是否使用上一次的模型拟合结果作为本次初始值

sample_weight = None : 案例权重

random_state = None : int/RandomState instance/None, 随机器的设定

shuffle = True : 是否在拆分前对样本做随机排列

)# 大多数类参数都会有默认值

Modelclass中基本通用的类方法

get_params([deep]) : 获取模型的具体参数设定

set_params(**params) : 重新设定模型参数

fit(X, y[, sample_weight]) : 使用数据拟合模型/方法

特征处理class：Preprocessing、降维、Feature extraction/selection

transform(X[, y]) : 使用拟合好的模型对指定数据进行转换

fit_transform(X[, y]) : 对数据拟合相应的方法，并且进行转换

建模分析class：Classification、Regression、Clustering

predict(X) : 使用拟合好的模型对数据计算预测值

predict_proba(X) : 模型给出的每个案例（各个类别）的预测概率

score(X, y[, sample_weight]) : 返回模型决定系数/模型准确度评价指标

Modelclass中基本通用的类属性

注意：模型拟合前这些属性可能不存在

coef_ : array，多因变量时为二维数组

intercept_ : 常数项

classes_ : 每个输出的类标签

n_classes_ : int or list，类别数

n_features_ : int，特征数

loss_ : 损失函数计算出来的当前损失值

n_iter_ : 迭代次数

13.8799 3 3 踩关注作者收藏

暂无数据

快速发帖我要提问

数据分析师求职、备考、笔试
刷题神器！

社区福利马上领

社区公告

sklearn基本操作

评论(0)

推荐课程

推荐帖子

决策树中经常用熵作为判别条件而不是基尼不纯度？基尼不纯度是什么？

决策树剪枝策略及优缺点

ID3，C4.5，CART算法对比

树算法：ID3，C4.5，C5.0和CART¶的相互关系