1. 写在前面

今天的这篇文章是继快速入门数据分析系列的第四篇文章, 快速入门数据可视化, 前面三篇分别是:Numpy快速入门、Pandas快速入门、爬虫快速入门 今天呢,讲讲Python进行数据的可视化分析:
Python进行可视化分析的库有matplotlib和Seaborn, Seaborn相当于matplotlib更加高级的一个库,两者的关系类似于numpy与pandas的关系(后者比前者更高级)。
之前也学习过matplotlib, 但是学完我发现,有一些东西还是不能从宏观的角度把握,比如我们知道数据可视化的图很多, 比如散点图,折线图,直方图,条形图等等很多,但是这些图应该什么时候用呢? 应该怎么更好的把握这些图呢? 所以下面我会从一个新的角度去学习数据可视化,本篇博客不讲具体函数的使用,只讲常用的图以及图的作用及如何编程实现,大纲如下:

  • 根据数据之间的关系,可以把可视化视图分为4类,哪四类?
  • 介绍常用的十种图的概念,以及在Python中如何用,都需要哪些函数?
  • 如果想具体学习matplotlib内的函数,比如图的相关设置,后面也会给出参考博客

开始之前,先导入包再能进行下面的实验:

# 导入包
import matplotlib.pyplot as plt
import seaborn  as sns

import numpy as np
import pandas as pd

2. 可视化视图都有哪些?

按照数据之间的关系,我们可以把可视化视图划分为 4 类,它们分别是比较、联系、构成和分布。简单介绍下这四种关系的特点:

  • 比较:比较数据间各类别的关系,或者是它们随着时间的变化趋势,比如折线图;
  • 联系:查看两个或两个以上变量之间的关系,比如散点图;
  • 构成:每个部分占整体的百分比,或者是随着时间的百分比变化,比如饼图;
  • 分布:关注单个变量,或者多个变量的分布情况,比如直方图。

同样,按照变量的个数,我们可以把可视化视图划分为单变量分析和多变量分析。

  • 单变量分析指的是一次只关注一个变量。比如我们只关注“身高”这个变量,来看身高的取值分布,而暂时忽略其他变量。
  • 多变量分析可以让你在一张图上可以查看两个以上变量的关系。比如“身高”和“年龄”,你可以理解是同一个人的两个参数,这样在同一张图中可以看到每个人的“身高”和“年龄”的取值,从而分析出来这两个变量之间是否存在某种联系。

可视化的视图可以说是分门别类,多种多样,下面介绍常用的 10 种视图,这些视图包括了散点图、折线图、直方图、条形图、箱线图、饼图、热力图、蜘蛛图、二元变量分布和成对关系

热力图数据分析OPENCV_matplotlib数据可视化

3. 各种图的介绍

3.1 散点图

散点图的英文叫做 scatter plot,它将两个变量的值显示在二维坐标中,非常适合展示两个变量之间的关系

  • matplotlib - plt.scatter(x, y, marker=None) x、y 是坐标,marker 代表了标记的符号
  • seaborn - sns.jointplot(x, y, data=None, kind=‘scatter’) x、y 是 data 中的下标。data 就是我们要传入的数据,一般是 DataFrame 类型。kind 这类我们取 scatter,代表散点的意思
# 准备数据
N = 1000
x = np.random.randn(N)
y = np.random.randn(N)

# 用matplotlib画散点图
plt.scatter(x, y, marker='x')
plt.title('matplotlib drow')
plt.show()

# 用Seaborn画散点图
df = pd.DataFrame({'x':x, 'y':y})
sns.jointplot(x="x", y="y", data=df, kind='scatter')
plt.title('Seaborn drow')
plt.show()

我们运行一下这个代码,就可以看到下面的视图(第一张图为 Matplotlib 绘制的,第二张图为 Seaborn 绘制的)。其实你能看到 Matplotlib 和 Seaborn 的视图呈现还是有差别的。Matplotlib 默认情况下呈现出来的是个长方形。而 Seaborn 呈现的是个正方形,而且不仅显示出了散点图,还给了这两个变量的分布情况。

Matplotlib绘制:

热力图数据分析OPENCV_数据分析基础_02


Seaborn绘制:

热力图数据分析OPENCV_热力图数据分析OPENCV_03

3.2 折线图

折线图可以用来表示数据随着时间变化的趋势。

  • Matplotlib - plt.plot() 当然需要提前把数据按照 x 轴的大小进行排序,要不画出来的折线图就无法按照 x 轴递增的顺序展示。
  • Seaborn - sns.lineplot(x, y, data=None) 其中 x、y 是 data 中的下标。data 就是我们要传入的数据,一般是 DataFrame 类型。
# 数据准备
x = [2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019]
y = [5, 3, 6, 20, 17, 16, 19, 30, 32, 35]

# matplotlib 画图
plt.plot(x, y)
plt.show()

# Seaborn画图
df = pd.DataFrame({'x':x, 'y':y})
sns.lineplot("x", "y", data=df)
plt.show()

结果如下:

热力图数据分析OPENCV_数据分析基础_04


热力图数据分析OPENCV_数据分析基础_05


可以看出这两个图示的结果是完全一样的,只是在 seaborn 中标记了 x 和 y 轴的含义。

3.3 直方图

直方图是比较常见的视图,它是把横坐标等分成了一定数量的小区间,这个小区间也叫作“箱子”,然后在每个“箱子”内用矩形条(bars)展示该箱子的箱子数(也就是 y 值),这样就完成了对数据集的直方图分布的可视化。

  • Matplotlib - plt.hist(x, bins=10) 参数 x 是一维数组,bins 代表直方图中的箱子数量,默认是 10。
  • Seaborn - sns.distplot(x, bins=10, kde=True) 参数 x 是一维数组,bins 代表直方图中的箱子数量,kde 代表显示核密度估计,默认是 True,我们也可以把 kde 设置为 False,不进行显示。核密度估计是通过核函数帮我们来估计概率密度的方法。
# 准备数据
a = np.random.randn(100)
s = pd.Series(a)

# matplotlib绘图
plt.hist(s)
plt.show()

# Seaborn绘图
sns.distplot(s, kde=False)
plt.show()
sns.distplot(s, kde=True)
plt.show()

结果如下:

热力图数据分析OPENCV_Seaborn_06


热力图数据分析OPENCV_热力图数据分析OPENCV_07

热力图数据分析OPENCV_热力图数据分析OPENCV_08

3.4 条形图

如果说通过直方图可以看到变量的数值分布,那么条形图可以帮我们查看类别的特征。在条形图中,长条形的长度表示类别的频数,宽度表示类别。

  • Matplotlib - plt.bar(x, height) 参数 x 代表 x 轴的位置序列,height 是 y 轴的数值序列,也就是柱子的高度。
  • Seaborn - sns.barplot(x=None, y=None, data=None) 其中参数 data 为 DataFrame 类型,x、y 是 data 中的变量。
# 准备数据
x = ['Cat1', 'Cat2', 'Cat3', 'Cat4', 'Cat5']
y = [5, 4, 8, 12, 7]

# matplotlib绘制图
plt.bar(x, y)
plt.show()

# Seaborn绘制图
data = pd.DataFrame({"labels":x, "labelsnum":y})
sns.barplot(x = "labels", y ="labelsnum", data=data)
plt.show()

结果如下:

热力图数据分析OPENCV_数据_09


热力图数据分析OPENCV_数据分析基础_10

3.5 箱线图

箱线图,又称盒式图,它是在 1977 年提出的,由五个数值点组成:最大值 (max)、最小值 (min)、中位数 (median) 和上下四分位数 (Q3, Q1)。它可以帮我们分析出数据的差异性、离散程度和异常值等。

  • Matplotlib - plt.boxplot(x, labels=None) 其中参数 x 代表要绘制箱线图的数据,labels 是缺省值,可以为箱线图添加标签。
  • Seaborn - sns.boxplot(x=None, y=None, data=None) 其中参数 data 为 DataFrame 类型,x、y 是 data 中的变量。
# 数据准备
# 生成0-1之间的10*4维度数据
data = np.random.normal(size=(10, 4))
labels = ['A', 'B', 'C', 'D']

# matplotlib绘制图
plt.boxplot(data, labels=labels)
plt.show()

# Seaborn绘制
df = pd.DataFrame(data, columns=labels)
sns.boxplot(data=df)

matplotlib绘制:

热力图数据分析OPENCV_Seaborn_11


Seaborn绘制:

热力图数据分析OPENCV_热力图数据分析OPENCV_12

3.6 饼图

饼图是常用的统计学模块,可以显示每个部分大小与总和之间的比例。在 Python 数据可视化中,它用的不算多。我们主要采用 Matplotlib 的 pie 函数实现它。
plt.pie(x, labels=None) 其中参数 x 代表要绘制饼图的数据,labels 是缺省值,可以为饼图添加标签。

在这里插入代码片# 数据准备
nums = [25, 37, 33, 37, 6]
labels = ['High-school','Bachelor','Master','Ph.d', 'Others']

# 用Matplotlib画饼图
plt.pie(x = nums, labels=labels)
plt.show()

结果如下:

热力图数据分析OPENCV_matplotlib数据可视化_13

3.7 热力图

热力图,英文叫 heat map,是一种矩阵表示方法,其中矩阵中的元素值用颜色来代表,不同的颜色代表不同大小的值。通过颜色就能直观地知道某个位置上数值的大小。另外你也可以将这个位置上的颜色,与数据集中的其他位置颜色进行比较。热力图是一种非常直观的多元变量分析方法。
热力图是一种非常直观的多元变量分析方法。

sns.heatmap(data) 其中 data 代表需要绘制的热力图数据。

# 数据准备
flights = sns.load_dataset("flights")
data=flights.pivot('year','month','passengers')

# 用Seaborn画热力图
sns.heatmap(data)
plt.show()

"""通过 seaborn 的 heatmap 函数,我们可以观察到不同年份,不同月份的乘客数量变化情况,其中颜色越浅的代表乘客数量越多"""

结果如下:

热力图数据分析OPENCV_数据分析基础_14

3.8 蜘蛛图

蜘蛛图是一种显示一对多关系的方法。在蜘蛛图中,一个变量相对于另一个变量的显著性是清晰可见的。

假设我们想要给王者荣耀的玩家做一个战力图,指标一共包括推进、KDA、生存、团战、发育和输出。那该如何做呢?这里我们需要使用 Matplotlib 来进行画图,首先设置两个数组:labels 和 stats。他们分别保存了这些属性的名称和属性值。因为蜘蛛图是一个圆形,你需要计算每个坐标的角度,然后对这些数值进行设置。当画完最后一个点后,需要与第一个点进行连线。因为需要计算角度,所以我们要准备 angles 数组;又因为需要设定统计结果的数值,所以我们要设定 stats 数组。并且需要在原有 angles 和 stats 数组上增加一位,也就是添加数组的第一个元素。

from matplotlib.font_manager import FontProperties  

# 数据准备
labels=np.array(["推进","KDA","生存","团战","发育","输出"])
stats=[83, 61, 95, 67, 76, 88]

# 画图数据准备,角度、状态值
angles=np.linspace(0, 2*np.pi, len(labels), endpoint=False)
stats=np.concatenate((stats,[stats[0]]))
angles=np.concatenate((angles,[angles[0]]))

# 用Matplotlib画蜘蛛图
fig = plt.figure()
ax = fig.add_subplot(111, polar=True)   
ax.plot(angles, stats, 'o-', linewidth=2)
ax.fill(angles, stats, alpha=0.25)
# 设置中文字体
font = FontProperties(fname=r"C:\Windows\Fonts\simhei.ttf", size=14)  
ax.set_thetagrids(angles * 180/np.pi, labels, FontProperties=font)
plt.show()

结果如下:

热力图数据分析OPENCV_热力图数据分析OPENCV_15

3.9 二元变量分布

如果我们想要看两个变量之间的关系,就需要用到二元变量分布。当然二元变量分布有多种呈现方式,开头给你介绍的散点图就是一种二元变量分布。

在 Seaborn 里,使用二元变量分布是非常方便的,直接使用 sns.jointplot(x, y, data=None, kind) 函数即可。其中用 kind 表示不同的视图类型:“kind=‘scatter’”代表散点图,“kind=‘kde’”代表核密度图,“kind=‘hex’ ”代表 Hexbin 图,它代表的是直方图的二维模拟。

这里我们使用 Seaborn 中自带的数据集 tips,这个数据集记录了不同顾客在餐厅的消费账单及小费情况。代码中 total_bill 保存了客户的账单金额,tip 是该客户给出的小费金额。我们可以用 Seaborn 中的 jointplot 来探索这两个变量之间的关系。

# 数据准备
tips = sns.load_dataset("tips")
print(tips.head(10))

# 用Seaborn画二元变量分布图(散点图,核密度图,Hexbin图)
sns.jointplot(x="total_bill", y="tip", data=tips, kind='scatter')
sns.jointplot(x="total_bill", y="tip", data=tips, kind='kde')
sns.jointplot(x="total_bill", y="tip", data=tips, kind='hex')
plt.show()

散点图:

热力图数据分析OPENCV_热力图数据分析OPENCV_16


核密度图:

热力图数据分析OPENCV_数据_17


Hexbin图:

热力图数据分析OPENCV_数据_18

3.10成对关系

如果想要探索数据集中的多个成对双变量的分布,可以直接采用 sns.pairplot() 函数。它会同时展示出 DataFrame 中每对变量的关系,另外在对角线上,你能看到每个变量自身作为单变量的分布情况。它可以说是探索性分析中的常用函数,可以很快帮我们理解变量对之间的关系。

pairplot 函数的使用,就像在 DataFrame 中使用 describe() 函数一样方便,是数据探索中的常用函数。

这里我们使用 Seaborn 中自带的 iris 数据集,这个数据集也叫鸢尾花数据集。鸢尾花可以分成 Setosa、Versicolour 和 Virginica 三个品种,在这个数据集中,针对每一个品种,都有 50 个数据,每个数据中包括了 4 个属性,分别是花萼长度、花萼宽度、花瓣长度和花瓣宽度。通过这些数据,需要你来预测鸢尾花卉属于三个品种中的哪一种。

# 数据准备
iris = sns.load_dataset('iris')
# 用Seaborn画成对关系
sns.pairplot(iris)
plt.show()

结果如下:

热力图数据分析OPENCV_matplotlib数据可视化_19

4. 总结

这篇文章写了 Python 可视化工具包 Matplotlib 和 Seaborn 工具包的简单使用。他们两者之间的关系就相当于 NumPy 和 Pandas 的关系。Seaborn 是基于 Matplotlib 更加高级的可视化库。
另外整理了 10 种常用的可视化视图,可以按照变量之间的关系对它们进行分类,这些关系分别是比较、联系、构成和分布。当然我们也可以按照随机变量的个数来进行划分,比如单变量分析和多变量分析。在数据探索中,成对关系 pairplot() 的使用,相好比 Pandas 中的 describe() 使用一样方便,常用于项目初期的数据可视化探索。

在 Matplotlib 和 Seaborn 的函数中,上面只列出了最基础的使用,快速上手用的。当然也可以设置修改颜色、宽度等视图属性(自己查看相关的函数帮助文档)。

热力图数据分析OPENCV_热力图数据分析OPENCV_20

5. 参考

  • 极客时间 - 数据分析实战45讲
  • Matplotlib的基本使用
  • 50题matplotlib从入门到精通
  • AI基础:数据可视化简易入门(Matplotlib 和 Seaborn)