Pandas通常是用于数据分析过程中, 数据的清洗, 数据预处理, 数据的描述性分析等过程中.
在整个Python数据分析的生态环境中, Pandas的地位非常重要, 利用Pandas可以快速便捷的对数据进行各种各样的处理与操作.
Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。
在Pandas中, 最重要的两种数据结构是1维的Series和2维的DataFrame.
Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近。
Series中能保存不同种数据类型,字符串、boolean值、数字等都能保存在Series中。但是每个Series中只能保存一种数据结构.
DataFrame:二维的表格型数据结构。有多个Series共同构成的集合就变成DataFrame.
drop()中的inplace关键字参数:True是在原数据做操作,False是生成一个副本再进行操作
思考: 我们什么时候使用显示索引, 什么时候使用隐式索引
# 如果你知道了显示索引的值, 想去提取, 就用显示
# 如果你的需求根据数据在表中的位置, 提取
pandas包的用掩码提取数据,条件间的not,and,or关系只能写~,&,|,不能写关键字not,and,all,不支持这样的写法
离散化:cut()等距切分,但是有可能造成切分出来的每个区间数量差距悬殊
qcut等深分箱:qcut()非等距切分,但是切出来的每个区间的数量差异很小(在同分同数不存在的情况下)
二者的区别:cut 是根据每个值的大小来进行离散化的,qcut 是根据每个值出现的次数来进行离散化的。
想用python的mark功能更改字号大小,但是输入###以后并没有变成标题大字,而是前面多了###,直接显示出来了,如图想问怎么才能在python里面使用MARK功能的时候更改字体大小