数据可视化是整个数据分析流程中的关键环节,甚至有着一图定成败的关键性地位。当Python遇到百度echarts,pyecharts便应用而生,最重要的是支持交互、且可移植到PPT报告中,这效果简直是再理想不过的。
pyecharts可视化图表制作相比matplotlib和seaborn而言,其实是更为简单的,因为它几乎所有图表都遵循了"同一套路",没有过多复杂参数、无需细节技巧牵绊。但同时,它又有二者所不具备的一些优点:
- 简洁的API设计,支持链式调用
- 多种主题可选,丰富的参数设置
- 可交互的可视化效果,且可移植到PPT中
- 提供了常用图表类型接口,包括matplotlib和seaborn不支持的一些图表:例如词云、可视化地图等
在Echarts的官网中,有十分多的炫酷案例
下面举个简单的时间线图的案例,先上图:
在pyecharts绘制基本图表的基础上,当为了体现指标随时间的变化趋势时,时间线图表是一个理想的选择。而绘制时间线图实际上非常简单,仅需三步即可:
- 生成时间线对象
- 创建基本图表对象
- 将基本图表对象加入到时间线
某种意义上讲,时间线可理解为基本图表的一个容器,且其接口风格与基本图表很是相近。
from pyecharts.charts import Timeline, Radar
from pyecharts import options as opts
datas = {
'关羽' : [[5, 4.8, 4.4, 4.7, 4.9]],
'张飞' : [[5, 4.6, 4.7, 4.6, 4.8]],
'赵云' : [[5, 4.8, 4.7, 4.9, 4.7]],
'马超' : [[4.3, 4.5, 4.6, 4.7, 4.7]],
'黄忠' : [[4.5, 4.5, 4.5, 4.6, 4.7]]
}
tl = Timeline()
schema = [opts.RadarIndicatorItem(name=name, max_=5) for name in ('忠', '义', '礼', '智', '信')]
for hero, data in datas.items():
radar = Radar().add_schema(schema=schema).add(hero, data)
tl.add(radar, hero)
tl.render('五虎上将能力对比.html')
这样,一个时间线图就完成了,小伙伴们可以稍微停一下,理解以后再继续往下~
基于以上这些原因,pyecharts是个人在可视化输出过程中应用仅次于matplotlib和seaborn的第三大可视化库。当然,各可视化库都有其各自擅长场景,本无优劣高下之分。本文旨在介绍pyecharts图表制作中最基础的套路,掌握这些基本操作、再辅以官网详尽教程,基本上常规图表都是可以的!
1. 设置通用项
与seaborn类似,pyecharts也提供了多个通用设置项,包括图表主题、生成文件类型等,一般保持默认即可得到较为不错的图表,但希望尝试新的风格时则可调用主题接口。主题设置作为具体图表的一个初始化参数进行设置,例如:
from pyecharts.charts import Bar
from pyecharts import options as opts
from pyecharts.globals import ThemeTyp
#主题选择作为图表初始化参数进行设置
bar = Bar(init_opts=opts.InitOpts(theme=ThemeType.PURPLE_PASSION))
另一个通用项设置中较为实用的是notebook选项,这在使用jupyter notebook或者jupyter lab中是必不可少的一项,默认为jupyter notebook方式。在jupyter lab中加入以下两行通用设置后,即可调用render_notebook()在cell中查看图表结果:
from pyecharts.globals import CurrentConfig, NotebookType
CurrentConfig.NOTEBOOK_TYPE = NotebookType.JUPYTER_LAB
2. 选择图表
pyecharts提供了几乎常用的所有图表类型,除了柱状图、折线图、饼图、散点图这4大通用可视化图表外,还包括词云、地图、箱线图、K线图等专用图表,另外,pyecharts也提供了常用图表的3D形式,对于多类型图表组合则提供了Page、Grid、Tab和Timeline4种形式,可将其看做是单图表的容器。
在确定图表类型(图表实例化)后则是添加数据。pyecharts在迭代1.0版本后,一个最大的特色就是支持链式调用,所以添加数据也是极其方便的。
这里有必要解释下何为链式调用。可能很多pyecharts初学者在查阅官方文档时会看到如下写法(这里选用官网上直方图的一个demo):
1from pyecharts import options as opts
2from pyecharts.charts import Bar
3from pyecharts.faker import Faker
4
5c = (
6 Bar()
7 .add_xaxis(Faker.choose())
8 .add_yaxis("商家A", Faker.values())
9 .add_yaxis("商家B", Faker.values())
10 .set_global_opts(
11 title_opts=opts.TitleOpts(title="Bar-Brush示例", subtitle="我是副标题"),
12 brush_opts=opts.BrushOpts(),
13 )
14 .render("bar_with_brush.html")
15)
这个链式调用将图表的实例化、添加数据、设置参数、输出结果放在了一句代码执行,对新人更为不友好的是将这些代码放在了一组圆括号之中,搞得云里雾里(至少在我初学时是这样的),实际上理解这段代码需要掌握两个知识点:
- Python中可将单个表达式或单个语句放在一组圆括号内实现跨行书写,例如下面例子中,写法1合法,而写法2报错,区别仅在于有无圆括号
- pyecharts将图表类的每个方法都返回了self本身,这样每个方法的返回值都是该图表实例,进而实现链式调用
实际上,这种链式调用在机器学习库中是非常常见的一种设计,学过sklearn的读者应该都了解一行代码实现*.fit().score()的优雅写法。
理解了链式调用背后的原理,则很容易弄懂上面的代码:实际上其等价于如下形式:
1from pyecharts import options as opts
2from pyecharts.charts import Bar
3from pyecharts.faker import Faker
4
5c = Bar() # 1.实例化
6c.add_xaxis(Faker.choose()) # 2.添加x轴标签
7c.add_yaxis("商家A", Faker.values()) # 3.添加y轴数据A
8c.add_yaxis("商家B", Faker.values()) # 4.添加y轴数据B
9c.set_global_opts(
10 title_opts=opts.TitleOpts(title="Bar-Brush示例", subtitle="我是副标题"),
11 brush_opts=opts.BrushOpts(),
12 ) # 5.添加通用设置项
13c.render("bar_with_brush.html") # 6.输出html图表结果
6句代码调用了6个接口,分别完成:
- 实例化一个直方图对象
- 添加x轴数据
- 添加y轴数据A
- 添加y轴数据B
- 设置通用参数,包括标题、区域圈选等
- 输出html图表文件
掌握了这一基本套路,基本上就理解了pyecharts输出可视化图表的通用方法。
3. 设置图表参数
pyecharts提供了3类图表参数设置类型,分别是图表设置项、通用设置项、系列设置项,其中:
- 图表设置项是具体到某个特定图表对象的设置参数,各图表可选设置参数不同
- 通用设置项最为常用,例如图表初始化设置就属于通用设置中的一项,另外包括标题、坐标轴、可视化缩放条等都属于通用设置项
- 系列设置项则可以用于设置图表的某些具体参数,例如label可设置数据标签是否显示以及位置等
对应相应设置项,pyecharts分别提供了设置接口:
set_global_opts()
set_series_opts()
4. 输出结果
最后,pyecharts提供了将可视化图表输出的方式,实际较为常用的有两种:
- render()输出到网页中
- render_notebook()在jupyter中即时显示,具体区分notebook和jupyter lab两种,可在全局参数中设置
此外,pyecharts还提供了其他多种图表输出形式,例如make_snapshot()可直接输出为png图片。但如此一来则失去交互能力。
pyecharts作为百度出echarts可视化库与Python的结合体,其在制作可交互图表方面具有很好的效果,且更重要的是相较于其他可视化库学起来更易上手。如果说有什么明显缺点的话,那么可能是其支持数据类型较为传统:即仅支持Python基础的数据结构,对数据科学库的数据类型(如ndarray和dataframe)则不适用,这是由其定位所决定的。