python数据分析pandas库
前言
为啥要用python中的pandas库进行数据分析,用excel不可以吗?不可以,excel处理上万条数据时通常会死机或者出错,python不会有这种问题。相信鲤鱼学长,在学习乃至日后工作中,pandas库将会风靡相当长一段时间。
提示:以下是本篇文章正文内容,下面案例可供参考
1.1pandas是什么?
示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。
1.2加载数据集
1.引入库
代码如下(示例):
import pandas
import pandas as pd#这里是给pandas函数取了一个名字:pd,后面调用时写pd就行。
2.读入数据
代码如下(示例):
df=pd.read_csv(r'C:\Users\WLY\Desktop\python数据分析(活用pandas库)\pandas_for_everyone-master\data\gapminder.tsv',sep='\t')
print(df.head())
1、默认情况下,read_csv函数会读取逗号分隔文件。
2、这里将sep参数设置为\t,是指明使用制表符分隔的意思。
3、调用head()方法,只显示前5行数据。
运行结果如下:
country continent year lifeExp pop gdpPercap
0 Afghanistan Asia 1952 28.801 8425333 779.445314
1 Afghanistan Asia 1957 30.332 9240934 820.853030
2 Afghanistan Asia 1962 31.997 10267083 853.100710
3 Afghanistan Asia 1967 34.020 11537966 836.197138
4 Afghanistan Asia 1972 36.088 13079460 739.981106
3.检查返回的是否是DataFrame
df=pd.read_csv(r'C:\Users\WLY\Desktop\python数据分析(活用pandas库)\pandas_for_everyone-master\data\gapminder.tsv',sep='\t')
print(type(df))
运行结果如下:
4.获取数据集的行数和列数
print(df.shape)
运行结果如下:
(1704, 6)
也就是说这个数据集有1704行,6列。
5.获取列名
print(df.columns)
运行结果如下:
Index(['country', 'continent', 'year', 'lifeExp', 'pop', 'gdpPercap'], dtype='object')
这里可以看到,列名的类型是object。
6.获取每列的dtype(类型)
print(df.dtypes)
运行结果如下:
country object
continent object
year int64
lifeExp float64
pop int64
gdpPercap float64
dtype: object
pandas类型
python类型
说明
object
string
最常用的数据类型
int64
int
整型
float64
float
带小数的数字
datatime64
datatime
python标准库里包含datatime,但是默认不加载,需要导入才能用
1.3查看列、行、单元格
1.3.1获取列子集
获取数据中的某列,比如获取country列。,这里将她保存到一个变量里。
country_df=df['country']
print(country_df.head())#显示前5行
print(country_df.tail())#显示后5行
运行结果如下:
#显示前5行
0 Afghanistan
1 Afghanistan
2 Afghanistan
3 Afghanistan
4 Afghanistan
Name: country, dtype: object
#显示后5行
1699 Zimbabwe
1700 Zimbabwe
1701 Zimbabwe
1702 Zimbabwe
1703 Zimbabwe
Name: country, dtype: object
通过列名获取多列。
subset=df[['country','continent','year']]
print(subset.head())
print(subset.tail())
运行结果如下:
country continent year
0 Afghanistan Asia 1952
1 Afghanistan Asia 1957
2 Afghanistan Asia 1962
3 Afghanistan Asia 1967
4 Afghanistan Asia 1972
country continent year
1699 Zimbabwe Africa 1987
1700 Zimbabwe Africa 1992
1701 Zimbabwe Africa 1997
1702 Zimbabwe Africa 2002
1703 Zimbabwe Africa 2007
我用的python版本是python3.7 64位,pycharm是2017.1 64位。大家根据自己的电脑来安装python和编译器。
数据集下载链接:
链接:https://pan.baidu.com/s/1CwmLTn70bRlyWrSQXsDeyA
提取码:68ob
Npython数据分析1代码下载:、
链接:https://pan.baidu.com/s/1eEzlkcK0-Ri7JAbRcvYoiA
提取码:8ijc
注意:
1、这里也可以选择不把结果打印出来。
2、python里路径的写法,我这(r’xxx’)是一种,不同的版本,不同的电脑不一样,当你检查代码还是报错的话,就搜索那个错误就可以找到不少解决方法。
有啥问题欢迎童鞋们留言!