前言


数据可视化是数据科学家工作的重要组成部分。在项目开始阶段,人们需要做

探索性数据分析(EDA)来获得数据的深层信息。强大的可视化功能可以帮助人们更简洁清晰的了解数据,尤其是大量的、多维度的数据。在项目快结束时,用一种直观简单的方法,让不具备很强专业知识的人明白相应结果,也是非常重要的。不同的分析与展示目的,需要选择不同的可视化图形,下图展示了不同的需求,建议选择的可视化图形。不同需求下可视化图形选择(翻译)_java

      散点图


散点图可以直观展现原始点的分布和两个变量间的关系,并可以通过标记不同颜色,观察不同类别数据的关系,如下图:

通过对一些参数进行设置,如point size,我们可以观察三个变量间的关系,如下图:

      线图


线图可以表示两个具有相关性的变量,一个变量随另一个变量变化的情况。从下图,我们可以清楚地看到,所有专业的百分比随着时间的推移有很大的变化。如果用散点图来表示这类问题,图像会非常混乱,很难理解数据的变化趋势。线图在这种情况下是完美的,因为它们快速地展现了这两个变量的协方差(百分比和时间)。

不同需求下可视化图形选择(翻译)_java_02

      直方图


直方图可以有效的展现数据点的分布情况。下图为IQ的分布直方图,可以明显看出,分布集中在中央区域,并且我们可以清楚的了解IQ分布的中值,同样,还可以看出他是服从高斯分布的。直方图可以清楚的看到每个区间内频数的差异。使用直方图可以帮助我们看到“更大的图景”,因为如果我们使用散点图而不是直方图,那么在可视化中可能会有很多噪音,很难看清到底发生了什么。

不同需求下可视化图形选择(翻译)_java_03

      条形图


当你试图把只有少数(通常<10个)类别的分类数据可视化时,条形图最有效。如果类别太多,条形图会很杂乱以致于理解困难。条形图很容易根据各个条形观察出不同类别数据的差异,不同类别的数据很容易区分并且能设定不同的颜色。条形图分为三种:普通条形图,分组条形图,和堆积条形图。分组条形图可用来比较多重分类变量,堆积条形图可用来反映某一变量上,不同类别的组成情况。三种条形图的样式可依次参见下图:

不同需求下可视化图形选择(翻译)_java_04

      箱型图


之前提到的直方图可以展示数据的分布情况,但如果我们需要更详细的分布信息时,就要用到箱型图。箱型的上下两条边分别表示四分之一和四分之三分位点,箱内的线表示中值,虚线条上的条线从盒中伸出以显示数据的范围。

不同需求下可视化图形选择(翻译)_java_05