可视化图表的选择

直方图和核密度图怎么画python 核密度图和正态曲线_概率密度

分布型图表

1. 直方图

  • 对数据分组后,统计每个分组的数据量

    注意:与柱状图区分

2. 概率密度图

  • 通过核密度估计方法(KDE),估计出数据的概率分布情况
  • 每个样本点,会对总体的概率分布,产生同昂的影响,也就是“核(Kernel)”。
    经常使用的是高斯核,正态分布
  • 这些“核”叠加起来,就成为了数据总体的分布。

注意:

  • 每个核的大小选择,会强烈地影响从KDE获得地估计

直方图和核密度图怎么画python 核密度图和正态曲线_数据可视化_02


概率密度图(二维)

  • 一维地曲线,扩展到二维的情况下,就变成了曲面
  • 一般用等高线图可视化曲面
  • 等高线图的层次数非常多时,就可以绘制出图表颜色变化非常平滑

3. 箱型图

定义:

  • 学术中常用
  • 可以观察到数据的大致分布情况
  • 对数据的分布描述比较简单
  • 如果数据呈双峰或者多峰的分布形态,则无法展示。

4. 热力图和色块图

定义:

  • 色块图:xy轴为离散值
  • 直方图和核密度图怎么画python 核密度图和正态曲线_数据可视化_03

  • 热力图:xy轴为连续值
  • 直方图和核密度图怎么画python 核密度图和正态曲线_直方图和核密度图怎么画python_04

  • 热力图:
  • 一开始是矩形色块加上颜色
  • 现在多指经过平滑模糊过的热力图谱
  • 原理和概率密度图类似
  • 直方图和核密度图怎么画python 核密度图和正态曲线_数据可视化_05


构成型图表

1. 饼形、环形图

定义:

  • 构成型:不同类型大小可比、值可加
  • 以扇形角度大小对比分类
  • 分类不宜过多

2. 堆积百分比柱状图/堆积百分比面积图

定义:

  • 多个分组均需要展示构成
  • 多组之间进行比较
  • 不同分类下,相同维度的数据不是按照同一基准线对齐
  • 堆叠太多时,会导致数据很难区分对比

联系型图表

1. 关系图

  • 数据样本与样本之间,存在一定联系
  • 由节点(Node,Vertex)和边(Edge)构成联系网络(Network),也可称之为图(Graph)
  • 这些网络就是图论(Graph theory)的研究对象

    关系图的特点:
  • 展现网络
  • 也可用散点+线绘制
  • 节点位置分布可控

2. 和弦图

  • 节点数据沿圆周径向排列
  • 节点之间使用带权重(有宽度)的弧线链接

相比关系图:

  • 排版、节点、边有差异
  • 数据可相同

联系型图表

1. 桑基图

  • 节点之间存在层次区别
  • 存在流向关系

    注意:
  • 对数据有要求,比较少用
  • 表示流量,出入相等,保持流量的平衡。

2. 旭日图

  • 构成图+父子节点关系
  • 环图外层再加环
  • 对数据有要求,比较少用