M17051121193254

2020-06-08   阅读量: 802

Python数据分析

sklearn基本操作

扫码加入数据分析学习群

sklearn中集成了各种数据挖掘所需的变量变换、变量信息处理、统计建模、模型优化、模型评估方法,为便于使用,这些操作基本上都封装成了具有统一API的类,调用时都遵循统一的操作规范。

标准的类参数

class sklearn.大类名称.Modelclass(类参数列表)

Modelclass中基本通用的类参数:

fit_intercept = True : 模型是否包括常数项

使用该选项就不需要在数据框中设定cons

n_jobs = 1 : 使用的例程数,为-1时使用全部CPU

max_iter = 200 : int,模型最大迭代次数

tol = 0.0001 模型收敛标准

warm_start = False : 是否使用上一次的模型拟合结果作为本次初始值

sample_weight = None : 案例权重

random_state = None : int/RandomState instance/None, 随机器的设定

shuffle = True : 是否在拆分前对样本做随机排列

)# 大多数类参数都会有默认值

Modelclass中基本通用的类方法

get_params([deep]) : 获取模型的具体参数设定

set_params(**params) : 重新设定模型参数

fit(X, y[, sample_weight]) : 使用数据拟合模型/方法

特征处理class:Preprocessing、降维、Feature extraction/selection

transform(X[, y]) : 使用拟合好的模型对指定数据进行转换

fit_transform(X[, y]) : 对数据拟合相应的方法,并且进行转换

建模分析class:Classification、Regression、Clustering

predict(X) : 使用拟合好的模型对数据计算预测值

predict_proba(X) : 模型给出的每个案例(各个类别)的预测概率

score(X, y[, sample_weight]) : 返回模型决定系数/模型准确度评价指标

Modelclass中基本通用的类属性

注意:模型拟合前这些属性可能不存在

coef_ : array,多因变量时为二维数组

intercept_ : 常数项

classes_ : 每个输出的类标签

n_classes_ : int or list,类别数

n_features_ : int,特征数

loss_ : 损失函数计算出来的当前损失值

n_iter_ : 迭代次数

13.8799 3 3 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子