1. 数据可视化的意义
俗话说,一图胜千言。数据可视化便是将数据通过图形化的方式展现出来,它更加便于我们观察数据蕴含的的规律,洞察了数据蕴含的规律后,我们能够做更好的商业决策。
2. 什么是折线图?
折线图是一个由点和线组成的统计图表,常用来表示数值随连续时间间隔或有序类别的变化。在折线图中,x 轴通常用作连续时间间隔或有序类别(比如阶段1,阶段2,阶段3)。y 轴用于量化的数据,如果为负值则绘制于 y 轴下方。连线用于连接两个相邻的数据点。
折线图用于分析事物随时间或有序类别而变化的趋势。如果有多组数据,则用于分析多组数据随时间变化或有序类别的相互作用和影响。折线的方向表示正/负变化。折线的斜率表示变化的程度。
3. 折线图的绘制
本节课我们来看如何作折线图。首先我们需要安装 matplotlib 库,可以使用命令 pip install matplotlib
进行安装。matplotlib 库安装完成后,我们便可以使用 matplotlib 库来作图了。例如:
from matplotlib import pyplot as plt
dev_x = [25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35]
dev_y = [38496, 42000, 46752, 49320, 53200, 56000, 62316, 64928, 67317, 68748, 73752]
plt.plot(dev_x, dev_y)
plt.show()
上述代码的第一行从 matplotlib 导入 pyplot 并起别名 plt。dev_x、dev_y
为两个列表,分别包含 11 个数据,接下来调用 plot 函数便可以进行作图,plot 函数的参数为两组数据,调用 plot 函数之后,还需要调用 show 函数,否则不会显示图形。上述代码得到的图形如下所示:
上述图形中没有标识横坐标、纵坐标所表示的含义以及整个图形的标题。下面我们来添加上述信息:
from matplotlib import pyplot as plt
dev_x = [25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35]
dev_y = [38496, 42000, 46752, 49320, 53200, 56000, 62316, 64928, 67317, 68748, 73752]
plt.plot(dev_x, dev_y)
plt.xlabel("年龄")
plt.ylabel("年薪")
plt.title("年龄和薪水的关系")
plt.show()
上述代码通过 xlabel 函数添加横坐标代表的含义,通过 ylabel 函数添加纵坐标代表的含义,通过 title 函数添加图形的标题。添加上述信息之后的图形如下图所示:
上面做的图中只包含一条折线,现在我们来添加另外一条曲线。
from matplotlib import pyplot as plt
dev_x = [25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35]
dev_y = [38496, 42000, 46752, 49320, 53200, 56000, 62316, 64928, 67317, 68748, 73752]
plt.plot(dev_x, dev_y)
py_dev_x = [25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35]
py_dev_y = [45372, 48876, 53850, 57287, 63016, 65998, 70003, 70000, 71496, 75370, 83640]
plt.plot(py_dev_x, py_dev_y)
plt.xlabel("年龄")
plt.ylabel("年薪")
plt.title("年龄和薪水的关系")
plt.show()
上面的代码中,我们通过另外一组数据又添加了一条折线。仔细观察代码我们可以发现,dev_x
和 py_dev_x
是相同的,为了代码的简洁,我们可以只保留一份,例如:
from matplotlib import pyplot as plt
ages_x = [25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35]
dev_y = [38496, 42000, 46752, 49320, 53200, 56000, 62316, 64928, 67317, 68748, 73752]
plt.plot(ages_x, dev_y)
py_dev_y = [45372, 48876, 53850, 57287, 63016, 65998, 70003, 70000, 71496, 75370, 83640]
plt.plot(ages_x, py_dev_y)
plt.xlabel("年龄")
plt.ylabel("年薪")
plt.title("年龄和薪水的关系")
plt.show()
执行完上述代码生成的图形如下图所示:
由于图形中有两条折线,每条折线代表的含义并没有在图形中标识出来,这样我们便不能对两条折线进行区分,为了对两条折线进行区分,我们需要为两条折线分别加上标签。例如:
from matplotlib import pyplot as plt
ages_x = [25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35]
dev_y = [38496, 42000, 46752, 49320, 53200, 56000, 62316, 64928, 67317, 68748, 73752]
plt.plot(ages_x, dev_y)
py_dev_y = [45372, 48876, 53850, 57287, 63016, 65998, 70003, 70000, 71496, 75370, 83640]
plt.plot(ages_x, py_dev_y)
plt.xlabel("年龄")
plt.ylabel("年薪")
plt.title("年龄和薪水的关系")
plt.legend(['全部开发者','Python开发者'])
plt.show()
上面代码中,我们通过 legend 函数为两条折线打上标签,legend 函数的参数为一个列表,列表中元素的顺序需和折线的绘制顺序保持一致,不然会导致错乱。当我们改变折线的绘制顺序时,要同步改变作为 legend 函数参数的列表中元素的顺序。这是上面方法的缺陷,下面我们来看另外一种方法。
from matplotlib import pyplot as plt
ages_x = [25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35]
dev_y = [38496, 42000, 46752, 49320, 53200, 56000, 62316, 64928, 67317, 68748, 73752]
plt.plot(ages_x, dev_y, label="全部开发者")
py_dev_y = [45372, 48876, 53850, 57287, 63016, 65998, 70003, 70000, 71496, 75370, 83640]
plt.plot(ages_x, py_dev_y, label="Python开发者")
plt.xlabel("年龄")
plt.ylabel("年薪")
plt.title("年龄和薪水的关系")
plt.legend()
plt.show()
上面的方法通过在 plot 函数中添加参数 label 来实现标签的添加,添加过参数 label 后,我们同样需要调用 legend 函数,否则标签不会显示出来,只不过此时调用 legend 函数不需要传入参数。为折线添加完标签之后的图形如下图所示:
上面图形的样式都是默认的,我们也可以通过参数来设置图形的样式,包括折线的颜色、形状以及粗细等等。例如:
from matplotlib import pyplot as plt
ages_x = [25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35]
dev_y = [38496, 42000, 46752, 49320, 53200, 56000, 62316, 64928, 67317, 68748, 73752]
plt.plot(ages_x, dev_y, label="全部开发者", color="blue", marker=".", linestyle="-")
py_dev_y = [45372, 48876, 53850, 57287, 63016, 65998, 70003, 70000, 71496, 75370, 83640]
plt.plot(ages_x, py_dev_y, label="Python开发者", color="green", marker=".", linestyle="--")
plt.xlabel("年龄")
plt.ylabel("年薪")
plt.title("年龄和薪水的关系")
plt.legend()
plt.show()
上面的代码中,我们通过 color 参数指定图形的颜色,marker 参数指定每个数据点的标记,linestyle 参数指定图形的形状。执行完上述代码后的图形如下图所示:
color 参数的值也可以是一个 Hex 值,Hex 值由六位十六进制数组成,前两位十六进制数代表红色的强度,中间两位十六进制数代表绿色的强度,最后两位十六进制数代表蓝色的强度。例如:
from matplotlib import pyplot as plt
ages_x = [25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35]
dev_y = [38496, 42000, 46752, 49320, 53200, 56000, 62316, 64928, 67317, 68748, 73752]
plt.plot(ages_x, dev_y, label="全部开发者", color="#FF0000", marker=".", linestyle="-")
py_dev_y = [45372, 48876, 53850, 57287, 63016, 65998, 70003, 70000, 71496, 75370, 83640]
plt.plot(ages_x, py_dev_y, label="Python开发者", color="#00FF00", marker=".", linestyle="--")
plt.xlabel("年龄")
plt.ylabel("年薪")
plt.title("年龄和薪水的关系")
plt.legend()
plt.show()
上面的代码中,通过 Hex 值 #FF0000
指定颜色为红色,通过 Hex 值 #00FF00
指定颜色为绿色。执行完上述代码后的图形如下图所示:
我们还可以为图形加上网格线,例如:
from matplotlib import pyplot as plt
ages_x = [25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35]
dev_y = [38496, 42000, 46752, 49320, 53200, 56000, 62316, 64928, 67317, 68748, 73752]
plt.plot(ages_x, dev_y, label="全部开发者", color="#FF0000", marker=".", linestyle="-")
py_dev_y = [45372, 48876, 53850, 57287, 63016, 65998, 70003, 70000, 71496, 75370, 83640]
plt.plot(ages_x, py_dev_y, label="Python开发者", color="#00FF00", marker=".", linestyle="--")
plt.xlabel("年龄")
plt.ylabel("年薪")
plt.title("年龄和薪水的关系")
plt.legend()
plt.grid(True)
plt.show()
上面代码中,调用 grid 函数并传入 True 参数,执行完上述代码后的图形如下图所示:
为了使得图形中的空白区域更少些,我们调用 tight_layout 函数对空白区域进行自动填充,例如:
from matplotlib import pyplot as plt
ages_x = [25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35]
dev_y = [38496, 42000, 46752, 49320, 53200, 56000, 62316, 64928, 67317, 68748, 73752]
plt.plot(ages_x, dev_y, label="全部开发者", color="#FF0000", marker=".", linestyle="-")
py_dev_y = [45372, 48876, 53850, 57287, 63016, 65998, 70003, 70000, 71496, 75370, 83640]
plt.plot(ages_x, py_dev_y, label="Python开发者", color="#00FF00", marker=".", linestyle="--")
plt.xlabel("年龄")
plt.ylabel("年薪")
plt.title("年龄和薪水的关系")
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()
添加 tight_layout 函数的调用后,生成的图形如下图所示:
上面我们是通过设置参数的方式来改变图形的样式,pyplot 也自带了一些样式供我们直接使用,例如:
from matplotlib import pyplot as plt
plt.style.use('fivethirtyeight')
ages_x = [25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35]
dev_y = [38496, 42000, 46752, 49320, 53200, 56000, 62316, 64928, 67317, 68748, 73752]
plt.plot(ages_x, dev_y, label="全部开发者")
py_dev_y = [45372, 48876, 53850, 57287, 63016, 65998, 70003, 70000, 71496, 75370, 83640]
plt.plot(ages_x, py_dev_y, label="Python开发者")
plt.xlabel("年龄")
plt.ylabel("年薪")
plt.title("年龄和薪水的关系")
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()
上述代码使用了 fivethirtyeight 样式,生成的图形如下图所示:
还有其他的样式,例如 ggplot:
from matplotlib import pyplot as plt
plt.style.use('ggplot')
ages_x = [25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35]
dev_y = [38496, 42000, 46752, 49320, 53200, 56000, 62316, 64928, 67317, 68748, 73752]
plt.plot(ages_x, dev_y, label="全部开发者")
py_dev_y = [45372, 48876, 53850, 57287, 63016, 65998, 70003, 70000, 71496, 75370, 83640]
plt.plot(ages_x, py_dev_y, label="Python开发者")
plt.xlabel("年龄")
plt.ylabel("年薪")
plt.title("年龄和薪水的关系")
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()
生成的图形如下图所示:
4. 应用场景
4.1 适用场景
同一变量随时间或有序类别而变化的趋势,例如上面的例子中薪水随年龄的变化趋势。
4.2 不适用场景
1. x 轴节点过多。
2. 数据样本过多,导致折线堆积,难以聚焦到重点。
3. 变量数值大多数情况下为 0。