在日常工作中,枯燥的文字说明常常会令人望而却步,不如格式规范的表格容易让人接受,但通俗易懂的图表更会让人耳目一新,赏心悦目。本文主要介绍python如何用Matplotlib实现数据可视化的相关应用。

示例场景

当前公司人员冗余,需要裁掉两名实习生,但是具体裁掉哪一位,领导举棋不定,很难决策。关于两名实习生的一年销售额业绩,如下表所示:

python实现数据集的可视化 python数据可视化举例_python入门

那到底哪一位实习生的销售业绩,及未来潜力更好呢?让我们通过可视化的方式进行对比。

引入模块包

工欲善其事必先利其器,要进行数据分析和可视化,首先是引入pandas模块和matplotlib模块,如下所示:

import pandas as pd
from matplotlib import pyplot as plt

读取数据

不管是哪一种图表方式,第一步都是先读取数据,本次读取数据主要通过pandas进行数据处理,如下所示:

# pandas 读取Excel,默认返回DataFrame类型,<class 'pandas.core.frame.DataFrame'>,属于二维列表
data = pd.read_excel('test.xls', sheet_name=0)
# print(type(data))
# print(data)

数据读取到内存中,是一个二维列表,数据类型为pandas.core.frame.DataFrame,是pandas中的数据类型,如下所示:

python实现数据集的可视化 python数据可视化举例_信息可视化_02

折线图

Matplotlib主要通过plot方法绘制折线图,如下所示:

plt.rcParams['font.family'] = ['sans-serif']
plt.rcParams['font.sans-serif'] = ['SimHei']
figure = plt.figure(figsize=(12, 6))
plt.title('销售额对比图')  # 标题
x = data['月份']  # x为一维列表,数据类型:<class 'pandas.core.series.Series'>
y1 = data['张三']  # 张三销售额
y2 = data['李四']  # 李四销售额
# print(type(x))
plt.plot(x,y1) # 基础折线图,采用描点连线的方式绘制
plt.plot(x,y2)
plt.show()  # 弹出框展示

简单设置后,生成的折线图,如下所示:

python实现数据集的可视化 python数据可视化举例_信息可视化_03

柱状图

如果通过折线图,还不能决定孰优孰劣,那么下面再以柱状图的形式来分析,如下所示:

plt.rcParams['font.family'] = ['sans-serif']
plt.rcParams['font.sans-serif'] = ['SimHei']
figure = plt.figure(figsize=(12, 6))
plt.title('销售额对比图')
x = data['月份']  # x为一维列表,数据类型:<class 'pandas.core.series.Series'>
y1 = data['张三']  # 张三销售额
y2 = data['李四']  # 李四销售额
plt.bar(x,y1) # 默认柱状图,两根柱子会重叠
plt.bar(x,y2)
plt.legend()
plt.show()  # 弹出框展示
plt.rcParams['font.family'] = ['sans-serif']plt.rcParams['font.sans-serif'] = ['SimHei']figure = plt.figure(figsize=(12, 6))plt.title('销售额对比图')x = data['月份']  # x为一维列表,数据类型:<class 'pandas.core.series.Series'>y1 = data['张三']  # 张三销售额y2 = data['李四']  # 李四销售额plt.bar(x,y1) # 默认柱状图,两根柱子会重叠plt.bar(x,y2)plt.legend()plt.show()  # 弹出框展示

经过上述设置后,初步柱状图如下所示:

python实现数据集的可视化 python数据可视化举例_python实现数据集的可视化_04

通过上图可以看出两位实习生的销售额对比,孰优孰劣,但是同样上图略显粗糙,有一些地方表达差强人意,如:x轴,y轴的说明,两根柱子分别代表什么,以及先绘制的图的值比较小时,会被覆盖,需要更加细致的设置,如下所示:

plt.rcParams['font.family'] = ['sans-serif']
plt.rcParams['font.sans-serif'] = ['SimHei']
figure = plt.figure(figsize=(12, 6))
plt.title('销售额对比图')
x = data['月份']  # x为一维列表,数据类型:<class 'pandas.core.series.Series'>
y1 = data['张三']  # 张三销售额
y2 = data['李四']  # 李四销售额
 
plt.xlabel('月份')  # x轴说明
plt.ylabel('销售额')  # y轴说明
plt.xticks(x, ['%d月' % i for i in range(1, 13)])  # 采用列表推导式生成数组
w = 0.4  # 柱子的宽度,默认为1,这里改为0.5
plt.bar((x - w / 2), y1, width=w, label='张三')
plt.bar((x + w / 2), y2, width=w, label='李四')
# 显示文本
for i in range(0, 12):
    plt.text(x=x[i] - w / 2, y=y1[i] + 5, s=y1[i], ha='center', va='center')
    plt.text(x=x[i] + w / 2, y=y2[i] + 5, s=y2[i], ha='center', va='center')
plt.legend()
 
plt.show()  # 弹出框展示

经过细致设置后,两位实习生的对比结果,如下所示:

python实现数据集的可视化 python数据可视化举例_python入门_05

数据可视化是一种将数据呈现为图形或图表的技术,它有助于理解和发现数据中的模式和趋势。Python是一种流行的编程语言,有很多库可以帮助我们进行数据可视化。