一. 背景概述

     提到图表,大家最熟悉的莫过于曲线图、柱状图、饼图等,但是对于图表的系统性认识及不同场景下的应用常常会有所欠缺,即就是做到我有什么数据,需要哪些图表进行信息表达。此次主要对于常用图表(分布类)做以梳理。


二. 分布类图表

1.箱形图

2.散点图

3.直方图

4.气泡图

5.热力图

6.曲线图


三. 图表说明


1. 箱形图

箱形图又称盒须图、盒式图或箱线图,是一种用作显示一组数据分布情况的统计图。

如果一个数据集中包含了一个分类变量和一个或者多个连续变量,那么你可能会想知道连续变量会如何随着分类变量水平的变化而变化,而箱形图就可以提供这种方法,它只用了5个数字对分布进行概括,即一组数据的最大值、最小值、中位数、下四分位数及上四分位数。对于数据集中的异常值,通常会以单独的点的形式绘制。箱形图可以水平或者垂直绘制。

r语言如何判定什么分布 r语言pareto分布_数据

从箱形图中我们可以观察到:

  • 一组数据的关键值:中位数、最大值、最小值等。
  • 数据集中是否存在异常值,以及异常值的具体数值。
  • 数据是否是对称的。
  • 这组数据的分布是否密集、集中。
  • 数据是否扭曲,即是否有偏向性。


适用场景:

r语言如何判定什么分布 r语言pareto分布_数据_02


2. 散点图

散点图也叫 X-Y 图,它将所有的数据以点的形式展现在直角坐标系上,以显示变量之间的相互影响程度,点的位置由变量的数值决定。

对于那些变量之间存在密切关系,但是这些关系又不像数学公式和物理公式那样能够精确表达的,散点图是一种很好的图形工具。但是在分析过程中需要注意,这两个变量之间的相关性并不等同于确定的因果关系,也可能需要考虑其他的影响因素。

r语言如何判定什么分布 r语言pareto分布_数据_03


适用场景:

r语言如何判定什么分布 r语言pareto分布_数据_04


3. 直方图

1)频数分布直方图

r语言如何判定什么分布 r语言pareto分布_数据_05

适用场景:

r语言如何判定什么分布 r语言pareto分布_数据集_06


2)非标准的直方图

r语言如何判定什么分布 r语言pareto分布_r语言如何判定什么分布_07

适用场景:

r语言如何判定什么分布 r语言pareto分布_r语言如何判定什么分布_08

附注:直方图与柱状图

  • 柱状图是以矩形的长度表示每一组的频数或数量,其宽度(表示类别)则是固定的,利于较小的数据集分析。
  • 直方图是以矩形的长度表示每一组的频数或数量,宽度则表示各组的组距,因此其高度与宽度均有意义,利于展示大量数据集的统计结果。
  • 由于分组数据具有连续性,直方图的各矩形通常是连续排列,而柱状图则是分开排列。


4. 气泡图

气泡图是一种多变量图表,是散点图的变体,也可以认为是散点图和百分比区域图的组合。

气泡图最基本的用法是使用三个值来确定每个数据序列,和散点图一样,气泡图将两个维度的数据值分别映射为笛卡尔坐标系上的坐标点,其中 X 和 Y 轴分别代表不同的两个维度的数据,但是不同于散点图的是,气泡图的每个气泡都有分类信息(他们显示在点旁边或者作为图例)。每一个气泡的面积代表第三个数值数据。

r语言如何判定什么分布 r语言pareto分布_数据_09


需要注意的是,气泡图的数据大小容量有限,气泡太多会使图表难以阅读。但是可以通过增加一些交互行为弥补:隐藏一些信息,当鼠标点击或者悬浮时显示,或者添加一个选项用于重组或者过滤分组类别。


适用场景:

r语言如何判定什么分布 r语言pareto分布_r语言如何判定什么分布_10


5. 热力图

热力图(Heat Map),“热力图”一词最初是由软件设计师 Cormac Kinney 于 1991 年提出并创造的,用来描述一个 2D 显示实时金融市场信息。最开始的热力图,是矩形色块加上颜色编码。经过多年的演化,习语上的热力图,如今更规范,更被大多数人理解的是这种经过平滑模糊过的热力图谱。

热力图是非常特殊的一种图,其使用场景通常比较有限。AntV 中所定义的热力图是两个连续数据分别映射到 x、y 轴。第三个连续数据映射到颜色,这个数据通常有两种获取途径办法:

  • 从原始数据里取出相应数据字段,直接输入。
  • 通过封箱和计数统计,得到区域数据密度元数据并映射到颜色。

r语言如何判定什么分布 r语言pareto分布_数据_11

注意以下几点:

  • 热力图尤其关注分布
  • 热力图可以不需要坐标轴,其背景常常是图片地图
  • 热力图一般情况用其专有的色系彩虹色系(rainbow)


适用场景:

r语言如何判定什么分布 r语言pareto分布_直方图_12


6 .曲线图

分布曲线图展示的是一种概率分布,也是一种同统计学紧密结合的图表。分布曲线是一种对称的钟形曲线,具有均数等于0,标准差等于1的特点,从而使标准分数在实际运用时非常有用。

分布曲线图由以下元素构成:

  • 横轴:表示自变量
  • 纵轴:表示因变量
  • 表示概率分布的分布曲线

r语言如何判定什么分布 r语言pareto分布_数据集_13