Pandas 是基于 NumPy 的一种数据处理工具,该工具为了解决数据分析任务而创建
Pandas 的数据结构:Pandas 主要有 Series(一维数组),DataFrame(二维数组),Panel(三维数组),Panel4D(四维数组),PanelND(更多维数组)等数据结构。
Series 是一维带标签的数组,它可以包含任何数据类型。包括整数,字符串,浮点数,Python 对象等。Series 可以通过标签来定位。
DataFrame 是二维的带标签的数据结构。我们可以通过标签来定位数据。这是 NumPy 所没有的。
- 导入 Pandas 模块
import pandas as pd
- 查看Pandas版本信息
print(pd.__version__)
一、Series 基本操作
创建 Series 数据类型
Pandas 中,Series 可以被看作由 1 列数据组成的数据集。
创建 Series 语法:s = pd.Series(data, index=index)
,可以通过多种方式进行创建
- 从列表创建 Series
提示:前面的 0,1,2,3,4 为当前 Series 的索引,后面的 0,1,2,3,4 为 Series 的值。
- 从 Ndarray 创建 Series
- 从字典创建 Series
- 修改 Series 索引
- Series 纵向拼接
- Series 按指定索引删除元素
- Series 修改指定索引元素
- Series 按指定索引查找元素
- Series 切片操作
访问s4
前3个数据
二、Series 基本运算
- Series 加法运算
Series 的加法运算是按照索引计算,如果索引不同则填充为 NaN(空值)。
- Series 减法运算
Series的减法运算是按照索引对应计算,如果不同则填充为 NaN(空值)。
- Series 乘法运算
- Series 除法运算
- Series 求中位数
- Series 求和
s4.sum()
- Series 求最大值
s4.max()
- Series 求最小值
s4.min()
三、创建 DataFrame 数据类型
与 Sereis 不同,DataFrame 可以存在多列数据。
- 通过 NumPy 数组创建 DataFrame
- 通过字典数组创建 DataFrame
- 查看 DataFrame 的数据类型
四、DataFrame 基本操作
- 预览
DataFram
前 5 行数据
df2.head() # 默认为显示 5 行,可根据需要在括号中填入希望预览的行数
- 查看 DataFrame 的后 3 行数据
df2.tail(3)
- 查看 DataFrame 的索引
df2.index
- 查看 DataFrame 的列名
df2.columns
- 查看 DataFrame 的数值
df2.values
- 查看 DataFrame 的统计数据
df2.describe()
- DataFrame 转置操作
df2.T
- 对 DataFrame 进行按列排序
df2.sort_values(by='age') # 按 age 升序排列
- 对 DataFrame 数据切片
df2[1:3]
- 对 DataFrame 通过标签查询(单列)
df2['age']
df2.age # 等价于 df2['age']
- 对 DataFrame 通过标签查询(多列)
df2[['age', 'animal']] # 传入一个列名组成的列表
- 对 DataFrame 通过位置查询
df2.iloc[1:3] # 查询 2,3 行
- DataFrame 副本拷贝
df3 = df2.copy()
- 判断 DataFrame 元素是否为空
df3.isnull() # 如果为空则返回为 True
- 添加列数据
- 根据 DataFrame 的下标值进行更改
- 根据 DataFrame 的标签对数据进行修改
- DataFrame 求平均值操作
- 对 DataFrame 中任意列做求和操作
df3['visits'].sum()
- 将字符串转化为小写字母
- 将字符串转化为大写字母
string.str.upper()
五、DataFrame 缺失值操作
- 对缺失值进行填充
- 删除存在缺失值的行
- DataFrame 按指定列对齐
六、DataFrame 文件操作
- CSV 文件写入
- CSV 文件读取
- Excel 写入操作
- Excel 读取操作