姚慧扬

2020-07-21   阅读量: 671

python

python之pandas的部分知识点

扫码加入数据分析学习群

Pandas通常是用于数据分析过程中, 数据的清洗, 数据预处理, 数据的描述性分析等过程中.

在整个Python数据分析的生态环境中, Pandas的地位非常重要, 利用Pandas可以快速便捷的对数据进行各种各样的处理与操作.

Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。


在Pandas中, 最重要的两种数据结构是1维的Series和2维的DataFrame.


Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近。

Series中能保存不同种数据类型,字符串、boolean值、数字等都能保存在Series中。但是每个Series中只能保存一种数据结构.


DataFrame:二维的表格型数据结构。有多个Series共同构成的集合就变成DataFrame.


drop()中的inplace关键字参数:True是在原数据做操作,False是生成一个副本再进行操作


思考: 我们什么时候使用显示索引, 什么时候使用隐式索引

# 如果你知道了显示索引的值, 想去提取, 就用显示

# 如果你的需求根据数据在表中的位置, 提取


pandas包的用掩码提取数据,条件间的not,and,or关系只能写~,&,|,不能写关键字not,and,all,不支持这样的写法


离散化:cut()等距切分,但是有可能造成切分出来的每个区间数量差距悬殊

qcut等深分箱:qcut()非等距切分,但是切出来的每个区间的数量差异很小(在同分同数不存在的情况下)

二者的区别:cut 是根据每个值的大小来进行离散化的,qcut 是根据每个值出现的次数来进行离散化的。


25.1982 2 5 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子