前言
python包matplotlib API函数(如plot和close)都位于matplotlib.pyplot模块中,其通常的引入约定是:
import matplotlib.pyplot as plt
虽然pandas的绘图函数能够处理许多普通的绘图任务,但如果需要自定义一些高级功能的话就必须学习matplotlib API。
1. Figure和Subplot
Matplotlib的图像都位于figure对象中。
1.1 创建figure
可以用plt.figure创建一个新的figure:
In [197]: fig=plt.figure()
1.2 figsize
plt.figure有一些选项,特别是figsize,它用于确保当图片保存到磁盘时具有一定的大小和纵横比。Matplotlib中的figure还支持一种MATLAB式的编号架构(例如plt.figure(2))。通过plt.gcf()即可得到当前figure的引用。
1.3 add_subplot
不能通过空figure绘图。必须用add_subplot创建一个或多个subplot才行:
In [199]: ax1=fig.add_subplot(2,2,1)
这条代码的意思是:图像应该是2X2的,且当前选中的是4个subplot中的第一个(编号从1开始)。
In [201]: ax2=fig.add_subplot(2,2,2)
In [202]: ax3=fig.add_subplot(2,2,3)
“k--”是一个线型选项,用于告诉matplotlib绘制黑色虚线图。
上面安歇由fig.add_subplot所返回的对象是AxesSublpot对象。
直接调用它们的实例方法就可以在其他空着的格子里面画图了:
In [220]: _=ax1.hist(randn(100),bins=20,color='k',alpha=0.3)
In [222]: ax2.scatter(np.arange(30),np.arange(30)+3*randn(30))
1.4 plt.subplots
可以在matplotlib的文档中找到各种图表类型。
由于根据特定布局创建图Figure和subplot是一件非常常见的任务,于是便出现了一个更为方便的方法(plt.subplots),它可以创建一个新的figure,并返回一个含有已创建的subplot对象的Numpy数组:
In [227]: fig,axes=plt.subplots(2,3)
In [229]: axes
Out[229]:
array([[,
,
],
[,
,
]], dtype=object)
可以轻松对axes数组进行索引,就像是一个二维数组一样,例如axes[0,1].
还可以通过sharex和sharey指定subplot应该具有相同的X轴和Y轴。在比较相同范围的数据时,这也是非常使用的,否则,matplotlib会自动缩放各图标的界限。
1.5 pyplot.subplots的选项
1.6 调整subplot周围的间距
默认情况下,matplotlib会在subplot外围留下一定的间距,并在subplot之间留下一定的间距。间距跟图像的高度和宽度有关。因此,如果调整了图像大小(不管是变成还是手工),间距也会自动调整。利用figure的subplots_adjust方法可以轻而易举地修改间距,此外,它也是个顶级函数:
subplots_adjust(left=None,bottom=None,right=None,top=None,wspace=None,hspace=None)
wspace和hspace用于控制宽度和高度的百分比,可以用作subplot之间的间距。
举例:
In [1]: import numpy as np
In [2]: from pandas import Series,DataFrame
In [3]: import pandas as pd
In [4]: import matplotlib.pyplot as plt
In [5]: from numpy.random import randn
In [6]: for i in range(2):
...: for j in range(2):
...: axes[i,j].hist(randn(500),bins=50,color='r',alpha=0.5)
...: plt.subplots_adjust(wspace=0,hspace=0)
...:
不难看出,其中的轴标签重叠了。Matplotlib不会检查标签是否重叠,所以对于这种情况,只能自己设定刻度位置和刻度标签。
2. 颜色、标记和线型
Matplotlib的plot函数接受一组X和Y坐标,还可以接受一个表示颜色和线型的字符串缩写。
2.1 颜色(color=’’)
ax.plot(x,y,’g’)
上述颜色为绿色。常用的颜色都有一个缩写词,要使用其他任意颜色则可以通过指定其RGB值的形式使用(例如:‘#cecece’)。
2.2 线型(linestyle=’’)
ax.plot(x,y,linestyle=’--’,color=’g’)
完整的linestyle列表请参见plot的文档。
2.3 标记(marker=’’)
线型图还可以加上一些标记(marker),以强调实际的数据点。由于Matplotlib创建的是连续的线型图(点与点之间插值),因此有时可能不太容易看出真实数据点的位置。标记也可以放到格式字符串中,但标记类型和线型必须放在颜色后面,如下图:
In [41]: plt.plot(randn(30).cumsum(),'ko--')
还可以将其写成更为明确的形式:
In [43]: plt.plot(randn(30).cumsum(),color='g',linestyle='dashed',marker='o')
在线型图中,非实际数据点默认是按线性方式插值的。可以通过drawstyle选项修改:
In [44]: data=randn(30).cumsum()
In [45]: plt.plot(data,'k--',label='Default')
In [46]: plt.plot(data,'k--',drawstyle='steps-post',label='steps-post')
3. 刻度、标签和图例
对于大多数的图表装饰项,其主要实现方式有二:使用过程型的pyplot接口(MATLAB用户非常熟悉)以及更为面向对象的原生的matplotlib API。
Pyplot接口的设计目的就是交互式使用,含有诸如xlim、xticks和xticklabels之类的方法。它们分别控制图表的范围、刻度位置、刻度标签等。其使用方法有以下两种:
n 调用时不带参数,则返回当前的参数值。例如,plt.xlim()返回当前的X轴绘图范围。
n 调用时带参数,则设置参数值。因此,plt.xlim([0,10])会将X轴的范围设置为0到10。
所有这些方法都是对当前或最近创建的AxesSubplot起作用的。它们各自对应subplot对象上的两个方法,以xlim为例,就是ax.get_xlim和ax.set_xlim。本书作者更喜欢使用subplot的实例方法(因为他喜欢明确的事情,而且处理多个subplot时这样也更清楚一些)。
3.1 设置标题、轴标签、刻度以及刻度标签
创建一个简单的图像并绘制一段随机漫步:
In [48]: fig=plt.figure()
In [49]: ax=fig.add_subplot(1,1,1)
要修改X轴的刻度,最简单的方法是使用set_xticks和set_xticklabels。
@刻度:set_xticks
该方法告诉matplotlib要将刻度放在数据范围中的哪个位置,默认情况下,这些位置也就是刻度标签。但可以通过set_xticklabels将任何其他的值用作标签:
In [51]: ax.set_xticks([0,250,500,750,1000])
@ 标签:set_xticklabels
In [53]: labels=ax.set_xticklabels(['one','two','three','four','five'],rotation=30,fontsize='small')
最后,再用set_xlabel为X轴设置一个名称,并用set_title设置一个标题:
@标题:set_title
In [56]: ax.set_title('my first matplotlib plot')
@ X轴名称:set_xlabel
In [59]: ax.set_xlabel('stages')
Y轴的修改方式与此类似,只需将上述代码中的x替换为y即可。
3.2 添加图例
图例(legend)是另一种用于标识图表元素的重要工具。添加图例的方式有二。最简单的是在添加subplot的时候传入label参数:
In [61]: fig=plt.figure()
In [62]: ax=fig.add_subplot(1,1,1)
In [63]: ax.plot(randn(1000).cumsum(),'k',label='one')
In [65]: ax.plot(randn(1000).cumsum(),'k--',label='two')
In [67]: ax.plot(randn(1000).cumsum(),'k.',label='three')
在此之后,可以调用ax.legend()或plt.legend()来自动创建图例:
@ 图例:ax.legend()
In [69]: ax.legend(loc='best')
Loc告诉matplotlib要将图例放在哪。如果不是吹毛求疵的话,“best”是不错的选择,因为它会选择最不碍事的位置。要从图例中去除一个或多个元素,不传入label或传入label=’_nolegend_’即可。
4. 注解以及在Subplot上绘图
除标准的图表对象之外,可能还希望绘制一些自定义的注解(比如文本、箭头或其他图形等)。
注解可以通过text、arrow和annotate等函数进行添加。Text可以将文本绘制在图表的指定坐标(x,y),还可以加上一些自定义格式:
ax.text(x,y,’Hello world’,family=’monospace’,fontsize=10)
In [72]: from datetime import datetime
In [74]: fig=plt.figure()
In [76]: ax=fig.add_subplot(1,1,1)
In [79]: data=pd.read_csv('G:LPTPythonspx.csv',index_col=0,parse_dates=True)
In [81]: spx=data['SPX']
In [84]: spx.plot(ax=ax,style='k-')
In [86]: crisis_data=[(datetime(2007,10,11),'Peak of bull market'),(datetime(2008,3,12),'Beat Stearns Fails'),(datetime(2008,9,15),'Lehman Bankruptcy')]
In [88]: for date,label in crisis_data:
...:ax.annotate(label,xy=(date,spx.asof(date)+50),xytext=(date,spx.asof(date)+200),arrowprops=dict(facecolor='black'),horizontalalignment='left',verticalalignment='top')
In [91]: ax.set_xlim(['1/1/2007','1/1/2011'])
In [93]: ax.set_ylim([600,1800])
In [95]: ax.set_title('Important dates in 2008-2009 financial crisis')
In [97]: ax.legend()
更多有关注释的示例,访问matplotlib的在线示例库。
5. 将图表保存到文件
5.1 plt.savefig()
利用plt.savefig可以将当钱图标保存到文件。该方法相当于Figure对象的实例方法savefig。
In [108]: fig.savefig('new.pdf')
5.2 获取文件位置
In [104]: import os
In [109]: os.path.abspath('new.pdf')
Out[109]: 'C:甥敳獲lpt20ew.pdf'
文件类型是通过文件扩展名判断出来的。在发布图片时最常用到两个重要的选项是dpi和bbox_inches。
5.3 分辨率:dpi
功能:控制“每英寸点数”分辨率
In [110]: fig.savefig('figpath.png',dpi=400)
5.4 剪除空白部分:bbox_inches=’’
功能:可以剪除当前图表周围的空白部分
要得到一张带有最小白边且分辨率为400DPI的PNG图片,如下:
In [110]: fig.savefig('figpath.png',dpi=400,bbox_inches='tight')
5.5 savefig写入任何文件型对象
savefig并非一定要写入磁盘,也可以写入任何文件型的对象,比如StringIO:
from io import StringIO
buffer=StringIO()
plt.savefig(buffer)
plot_data=buffer.getvalue()
6. 图形参数
柱状图:matplotlib.pyplot.hist
matplotlib.pyplot.hist(x, bins=None, range=None, density=None, weights=None, cumulative=False, bottom=None, histtype=’bar’, align=’mid’, orientation=’vertical’, rwidth=None, log=False, color=None, label=None, stacked=False, normed=None, hold=None, data=None, **kwargs)
bins:整数或序列或“自动”,可选。
如果给定一个整数,则计算并返回bin + 1 bin的边,这与numpy.直方图()一致。
如果bin是一个序列,则给出bin的边,包括第一个bin的左边边和最后一个bin的右边边。在本例中,返回的箱子未经过修改。
除了最后一个(最右边的)垃圾桶,其他的都半开着。换句话说,如果箱子是:
[1, 2, 3, 4]
然后第一个bin是[1,2)(包括1,但不包括2),第二个bin是[2,3),但是最后一个bin是[3,4],其中包括4。
如果容器是一个序列,则支持不等距的容器。