python数据分析pandas库
文章目录
- python数据分析pandas库
- 前言
- 1.5基本绘图
- 第一个坑
- 第二个坑
- 第三个坑
前言
为啥要用python中的pandas库进行数据分析,用excel不可以吗?不可以,excel处理上万条数据时通常会死机或者出错,python不会有这种问题。相信鲤鱼学长,在学习乃至日后工作中,pandas库将会风靡相当长一段时间。
提示:以下是本篇文章正文内容,下面案例可供参考
1.5基本绘图
在数据处理中我们经常用到可视化,可视化可以直观地识别数据中的趋势。我们康康世界人口各年度的预期寿命,代码如下:
import pandas as pd
import matplotlib.pyplot as plt
df=pd.read_csv(r'C:\Users\WLY\Desktop\python数据分析\pandas_for_everyone-master\data\gapminder.tsv',sep='\t')
global_yearly_life_expectancy=df.groupby('year')['lifeExp'].mean()
print(global_yearly_life_expectancy)
global_yearly_life_expectancy.plot()
plt.show()
结果如下:
year
1952 49.057620
1957 51.507401
1962 53.609249
1967 55.678290
1972 57.647386
1977 59.570157
1982 61.533197
1987 63.212613
1992 64.160338
1997 65.014676
2002 65.694923
2007 67.007423
Name: lifeExp, dtype: float64
在这里面出现了几个问题,我给大家记录了一下,避免踩坑。
第一个坑
首先就是下载matplotlib这个库,网上常见的方法是这样,打开cmd,用命令下载:
pip install matplotlib
但是这个matplotlib库有32M,下载速度很慢,在CSDN有一位博主给出的解决方法,就是利用国内镜像下载。
下载起来贼快。
第二个坑
在这之前,我的代码是这样写的:
import pandas as pd
import matplotlib
df=pd.read_csv(r'C:\Users\WLY\Desktop\python数据分析\pandas_for_everyone-master\data\gapminder.tsv',sep='\t')
global_yearly_life_expectancy=df.groupby('year')['lifeExp'].mean()
print(global_yearly_life_expectancy)
global_yearly_life_expectancy.plot()
我这里import matplotlib导入库时报错,我以为是没有这个库,然后去下载了,file>settings里面也确认过路径了,还是不行!
于是看网上说是一些依赖库需要更新,接着我也更新了,还是不行!
又有人说是环境变量不行,我也改了,还是不行!
重启了也不行,无语了,然后我把代码改成第一段里面那样,于是就OK了,不得不说,python真的玄学!
第三个坑
编程的朋友都知道Github是一个优秀的开源(同性)交友网站。可是她的服务器在国外,国内下载很慢,网上有不少方法:改host,用码云,还有就是有一些用爱发电的网站免费代下载。
但是我嫌麻烦,于是我翻了翻B站的评论,发现有一位老铁说电脑连接手机热点下载速度就快了。实测可靠。
这里只提到基本的绘图,后面会有专门的文章展开叙述。
注意:
1、这里也可以选择不把结果打印出来。
2、python里路径的写法,我这(r’xxx’)是一种,不同的版本,不同的电脑不一样,当你检查代码还是报错的话,就搜索那个错误就可以找到不少解决方法。