Series和DataFrame的基本操作
本文均以以下数据为操作演示
>>>import pandas as pd
>>> s = pd.Series([1,2,3,4], index=['a','b','c','d'])
>>> s
a 1
b 2
c 3
d 4
dtype: int64
>>> df = pd.DataFrame([[1,2,3,4],[5,6,7,8]], columns=['A','B','C','D'],index=['a', 'b'])
>>> df
A B C D
a 1 2 3 4
b 5 6 7 8
一、对象基本属性
1. s.shape 和 df.shape
shape属性是一个元组,记录Series和DataFrame的尺寸
>>>s.shape # Series是一维数据结构,只有行数,所以DataFrame的数据结构很好理解,就是由多个Series拼接成的
(4,)
>>>df.shape
(2,4)
2. columns
DataFrame才有的属性,返回列名
>>> df.columns
Index(['A', 'B', 'C', 'D'], dtype='object')
3. s.index 和 df.index
index获取索引,返回一个Index对象
>>> s.index
Index(['a', 'b', 'c', 'd'], dtype='object')
>>> df.index
Index(['a', 'b'], dtype='object')
4. s.axes 和 df.axes
同时获取index 和 columns
返回一个列表,列表包含[索引对象,列名对象]
>>> df.axes
[Index(['a', 'b'], dtype='object'), Index(['A', 'B', 'C', 'D'], dtype='object')]
>>> s.axes # Series没有列名,只有索引
[Index(['a', 'b', 'c', 'd'], dtype='object')]
5. 转置
Series 和 DataFrame都有的属性,不过对于Series没什么用
>>> df.T # 不作原地转置,需要用一个参数去接收
a b
A 1 5
B 2 6
C 3 7
D 4 8
二、数据选择
1. 单行单列选择
取行数据必须加冒号 :
可以由索引值代替整数值
>>>df['a':] # 从索引a行取到最后一行
>>> df[0:1] # 只取第一行
A B C D
a 1 2 3 4
>>> df['A'] # 取A列
a 1
b 5
Name: A, dtype: int64
这种方式不可以像数组那样多维取值,只能单行单列,所以加逗号会报错
Series是一维数据结构,可以使用Python列表的索引方式去选择数据
>>> s['a']
1
dtype: int64
>>> s[1]
2
>>> s[1:]
b 2
c 3
d 4
dtype: int64
>>> s['a':]
a 1
b 2
c 3
d 4
dtype: int64
2.区域块选择数据
loc,iloc,x,ix,都可以用作Series和DataFrame的数据选择,其中x
和ix
在pandas0.20以上的版本已经被弃用,这里不作介绍
- loc --取多行多列,参数只能为标签值(即索引值和列名)
- iloc --取多行多列,参数只能为整数标号
使用方法为对象名.loc[ 索引,列名 ]
或者对象名.iloc[行号,标号]
>>>df.loc['a': 'A'] # 选择 'a'行'A'列的值
1
>>>df.iloc[0, 0] # 选择 第0行第0列的值
1
# 以上两行代码等价
>>> df.loc['a','A':] # 选择第'a'行列号为'A'后面的数据(包括列号'A'的数据)
A 1
B 2
C 3
D 4
Name: a, dtype: int64
>>> df.iloc[0,0:] # 选择第0行列号为0后面的数据(包括列号0的数据)
A 1
B 2
C 3
D 4
Name: a, dtype: int64
3.单元格选择
- at --取某个单元格的值,参数只能为标签值(即索引值和列名)
- iat --取某个单元格的值,参数只能是整数标号
at 顾名思义 在,就是在某个地方的,接收一个准确的地址
使用方法为 对象名.at[ 索引,列名 ]
或者 对象名.iat[行号,标号]
>>> df.at['a','A'] # 选择'a'行'A'列的值
1
>>> df.iat[0,0] # 选择0行0列的值
1