【Pandas指南】初学者必备手册

转载

mb5fe9480084e7c 2021-06-18 00:04:58

文章标签 java 文章分类 Java 后端开发

数据可视化本来是一个非常复杂的过程，但随着Pandas数据帧plot()函数的出现，使得创建可视化图形变得很容易。

在数据帧上进行操作的plot()函数只是matplotlib中plt.plot()函数的一个简单包装，可以帮助你在绘图过程中省去那些长长的matplotlib代码。

最近，一位来自印度的小哥以2019年世界幸福指数的数据为例，详细讲述了在Pandas中plot()函数的各种参数设置的小技巧，熟练掌握这些技巧后，你也能绘制出丰富多彩的可视化图表。

导入数据

在绘制图形前，我们首先需要导入csv文件：

import pandas as pd
df=pd.read_csv(‘./world-happiness-report-2019.csv’)
df.head(3)

这个csv图标的内容是各个国家按照不同维度评价的幸福指数（数据下载地址见文末）：

【Pandas指南】初学者必备手册_java

数据帧中一些列的名称比较冗长，可以重命名使其更加简洁：

df.rename(columns={“Country (region)”: “Country”, “Log of GDP\nper capita”: “Log_GDP_per_capita”, “Healthy life\nexpectancy”:”Health_life_expect”},inplace=True)
df.column

绘制柱状图、散点图等常见图形

从最近简单的柱状图开始，只统计腐败程度、自由度、宽容度、社会支持等几个维度

%matplotlib tk
df1=df[:5]
df1.plot(‘Country’,[‘Corruption’,’Freedom’,’Generosity’,’Social support’],kind = ‘bar’

嫌直接写名称太麻烦？没关系，我们也可以用所在列的数字来绘制，比如上述4个列分别为7、6、8、5：

%matplotlib tk
df1=df[:5]
df1.plot(‘Country’,[7,6,8,5],kind = ‘bar’)

【Pandas指南】初学者必备手册_java_02

在上面的代码中kind = ‘bar’，所以绘制的图形是柱状图，如果我们把参数改成kind = ‘line’，画出的就是线状图。

df1=df[:5]
df1.plot(‘Country’,[‘Corruption’,’Freedom’,’Generosity’,’Social support’],kind = ‘line’)

【Pandas指南】初学者必备手册_java_03

同样的，如果把参数改成kind = ‘line’，还能绘制出箱形图：

df[:5].plot(x=’Country’,kind=’box’)

【Pandas指南】初学者必备手册_java_04

对于散点图，设置kind=’scatter’，绘制出腐败程度与自由度之间的关系，用color=’R’将点定义为红色：

df.plot(x=’Corruption’,y=’Freedom’,kind=’scatter’,color=’R’)

【Pandas指南】初学者必备手册_java_05

此外，Pandas中还有一个辅助函数pandas.plotting.table，它创建一个来自数据帧的表格，并将其添加到matplotlib Axes实例中。

from pandas.plotting import table
df1=df[:5]
df1=df.loc[:5,[‘Country (region)’,’Corruption’,’Freedom’,’Generosity’,’Social support’]]
ax=df1.plot(‘Country (region)’,[‘Corruption’,’Freedom’,’Generosity’,’Social support’], kind = ‘bar’, title =’Bar Plot’,legend=None)
table(ax, np.round(df1.describe(), 2),loc=’upper right’)

【Pandas指南】初学者必备手册_java_06

坐标轴的设置

取值范围

使用xlim和ylim两个参数可设置x和y轴的范围。在折线图中，我们要将x轴设置为0到20，y限制为从0到100。

df1=df[:20]
df1[‘Freedom’].plot(kind=’line’,xlim=(0,20),ylim=(0,100))

【Pandas指南】初学者必备手册_java_07

x、y轴刻度

有时候坐标轴上的刻度并不理想，我们希望在上面标上我们喜欢的数值。

比如对于x轴，我们想要标上0、10、15和20几个值；对于y轴，我们想要标上0、50、70、100几个值，可以在xticks和yticks参数中悉数列出。

df[:20][‘Freedom’].plot(kind=’line’,xlim=(0,20),ylim=(0,100),color=’red’,xticks=([0,10,15,20]),yticks=([0,50,70,100]), title = ‘xticks’)

【Pandas指南】初学者必备手册_java_08

但是用列表来制定坐标刻度的方法，在数值太多的时候就比较麻烦了，因此我们还能通过指定刻度间隔的方法来绘制坐标轴，比如指定x轴间隔是1，y轴间隔是10：

df[:20][‘Freedom’].plot(kind=’line’,xlim=(0,20),ylim=(0,100),color=’red’,xticks=([w1 for w in range(20)]),yticks=([w10 for w in range(40)]))

【Pandas指南】初学者必备手册_java_09

如果我们不希望在坐标轴上看到数字，而是想要设置标签。我们还可以将x轴标签更改为文本标签“低、中、高”这种样式。

ax=df[:20][‘Freedom’].plot(kind=’line’,xlim=(0,20),ylim=(0,100),color=’red’,xticks=([0,10,20]),yticks=([w*30 for w in range(40)]))
ax.set_xticklabels([‘Low’,’Med’,’High’])

【Pandas指南】初学者必备手册_java_10

对数坐标

如果数据的跨度范围非常大，横跨好几个数量级，那么用线性坐标就无法很好地展示数据。这时候我们需要用到对数坐标，设置方法是将logx或者logy的值设置为Ture。

如果我们只想设置x轴为对数坐标，y轴仍保持线性坐标，那么

df[:20][‘Freedom’].plot(kind=’line’,xlim=(0,1000),ylim=(0,100),color=’red’,logx=True)

【Pandas指南】初学者必备手册_java_11

其他高阶用法

可以使用stacked参数来绘制带有条形图的堆叠图。在这里，我们绘制堆叠的水平条，stacked设置为True。

【Pandas指南】初学者必备手册_java_12

将grid参数设置为True，可以给图表加入网格。

【Pandas指南】初学者必备手册_java_13

有了subplot参数还可以绘制子图，根据需要指定行数和列数以及绘图的数量。

【Pandas指南】初学者必备手册_java_14

在上面的子图中，我们没有给子图添加标题。当subplot 设置为True 时，在设置一组title的值，即可在列表上方加入标题。

https://mp.weixin.qq.com/s/aaAXcBqE8mI0k0EoT4JAsA

上一篇：【入门】机器学习中的线性代数

下一篇：Python 之父为什么要干掉 lambda 匿名函数

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯