在数据的获取中,首选的存储格式就是CSV。下面介绍它的使用方法。那么,CSV文件是什么呢?CSV(Comma-Separated Values),中文通常叫做逗号分割值。CSV文件由任意数目的记录(行)组成,每条记录由一些字段(列)组成,字段之间通常以逗号分割,当然也可以用制表符等其他字符分割,所以CSV又被称为字符分割值。Python是自带CSV模块的,但是这里不再介绍,因为我们有更好的办法进行CSV文件的读取,那就是pandas。使用pandas可以直接读取CSV文件为Series和DataFrame,在进行一系列的操作之后,只需要简单几行代码就可以保存文件。

读取csv

import pandas as pd

df = pd.read_csv('test.csv')
print(df.to_string())

to_string()用于返回DataFrame类型的数据,如果不使用该函数,则输出结果为数据的前面5行和末尾5行,中间部分以...代替。

也可以是指定列名称

df = pd.read_csv('test.csv',names=['ID','NAME'])

不指定列名时,默认第一行为列名,最简单的导入再打印操作就是这样的;指定列名后,原来的第一行变为一条数据。

使用to_csv()方法将DataFrame存储为csv文件。

import pandas as pd

data = [['aa',10],['bb',12],['cc',13]]
df = pd.DataFrame(data,columns=['name','age'],index = ["a", "b", "c"])
df.to_csv('test.csv')

head(n)方法用于读取前面的n行,如果不填参数n,默认返回5行。

df.head()

tail(n)方法用于读取尾部的n行,如果不填参数n,默认返回5行,空行各个字段的值返回NaN。

df.tail()