pandas_profiling基于pandas的DataFrame数据类型,可以简单快速地进行探索性数据分析。
对于数据集的每一列,pandas_profiling会提供以下统计信息:
1、概要:数据类型,唯一值,缺失值,内存大小
2、分位数统计:最小值、最大值、中位数、Q1、Q3、最大值,值域,四分位
3、描述性统计:均值、众数、标准差、绝对中位差、变异系数、峰值、偏度系数
4、最频繁出现的值,直方图/柱状图
5、相关性分析可视化:突出强相关的变量,Spearman, Pearson矩阵相关性色阶图
并且这个报告可以导出为HTML,非常方便查看。
pandas_profiling的安装,在anaconda prompt中运行
pip install pandas_profiling -i https://pypi.tuna.tsinghua.edu.cn/simple
生成报告
import pandas as pd
import pandas_profiling as pp
data = pd.read_csv('titanic.csv',index_col=0) #导入数据
report = pp.ProfileReport(data) #生成报告
report
report.to_file('report.html') #保存报告
报告展示
可以展示数据的描述信息,以及简单的动态交互
三个资料Q群下载不了也转发不了,先放这里Fine_tuning.zipLangChain.zipdata_clear.rar