Series和DataFrame的基本操作

本文均以以下数据为操作演示

>>>import pandas as pd
>>> s = pd.Series([1,2,3,4], index=['a','b','c','d'])
>>> s
a    1
b    2
c    3
d    4
dtype: int64
>>> df = pd.DataFrame([[1,2,3,4],[5,6,7,8]], columns=['A','B','C','D'],index=['a', 'b'])
>>> df
   A  B  C  D
a  1  2  3  4
b  5  6  7  8

一、对象基本属性

1. s.shape 和 df.shape

shape属性是一个元组,记录Series和DataFrame的尺寸

>>>s.shape   # Series是一维数据结构,只有行数,所以DataFrame的数据结构很好理解,就是由多个Series拼接成的
(4,)
>>>df.shape
(2,4)
2. columns

DataFrame才有的属性,返回列名

>>> df.columns
Index(['A', 'B', 'C', 'D'], dtype='object')
3. s.index 和 df.index

index获取索引,返回一个Index对象

>>> s.index
Index(['a', 'b', 'c', 'd'], dtype='object')
>>> df.index
Index(['a', 'b'], dtype='object')
4. s.axes 和 df.axes

同时获取index 和 columns
返回一个列表,列表包含[索引对象,列名对象]

>>> df.axes
[Index(['a', 'b'], dtype='object'), Index(['A', 'B', 'C', 'D'], dtype='object')]
>>> s.axes               # Series没有列名,只有索引
[Index(['a', 'b', 'c', 'd'], dtype='object')]
5. 转置

Series 和 DataFrame都有的属性,不过对于Series没什么用

>>> df.T       # 不作原地转置,需要用一个参数去接收
   a  b
A  1  5
B  2  6
C  3  7
D  4  8

二、数据选择

1. 单行单列选择

取行数据必须加冒号 :
可以由索引值代替整数值

>>>df['a':]     # 从索引a行取到最后一行
>>> df[0:1]   # 只取第一行 
   A  B  C  D
a  1  2  3  4
>>> df['A']   # 取A列
a    1
b    5
Name: A, dtype: int64

这种方式不可以像数组那样多维取值,只能单行单列,所以加逗号会报错
Series是一维数据结构,可以使用Python列表的索引方式去选择数据

>>> s['a']
1
dtype: int64
>>> s[1]
2
>>> s[1:]
b    2
c    3
d    4
dtype: int64
>>> s['a':]
a    1
b    2
c    3
d    4
dtype: int64
2.区域块选择数据

loc,iloc,x,ix,都可以用作Series和DataFrame的数据选择,其中xix在pandas0.20以上的版本已经被弃用,这里不作介绍

  • loc --取多行多列,参数只能为标签值(即索引值和列名)
  • iloc --取多行多列,参数只能为整数标号
    使用方法为 对象名.loc[ 索引,列名 ] 或者 对象名.iloc[行号,标号]
>>>df.loc['a': 'A']   # 选择 'a'行'A'列的值
1
>>>df.iloc[0, 0]    # 选择 第0行第0列的值
1
# 以上两行代码等价
>>> df.loc['a','A':]    # 选择第'a'行列号为'A'后面的数据(包括列号'A'的数据)
A    1
B    2
C    3
D    4
Name: a, dtype: int64
>>> df.iloc[0,0:]         # 选择第0行列号为0后面的数据(包括列号0的数据)
A    1
B    2
C    3
D    4
Name: a, dtype: int64
3.单元格选择
  • at --取某个单元格的值,参数只能为标签值(即索引值和列名)
  • iat --取某个单元格的值,参数只能是整数标号
    at 顾名思义 在,就是在某个地方的,接收一个准确的地址

使用方法为 对象名.at[ 索引,列名 ] 或者 对象名.iat[行号,标号]

>>> df.at['a','A']   # 选择'a'行'A'列的值
1
>>> df.iat[0,0]    # 选择0行0列的值
1