----------------维度---------------


维度是观察数据的角度和对数据的描述。可以说地区是一种维度,这个维度包含上海、北京这些城市。也可以认为销售额是一个维度,里面有各类销售数据。

维度可以用时间、数值表示,也可以用文本,文本常作为类别。数据分析的本质是各种维度的组合,我想了解和分析全国各地的销售额,就需要将地区维度和销售维度结合,如果想知道各个年份的变化,那么再加入时间维度。

说的再透彻点,Excel首行各字段就可以理解成维度。


数据分析纬度 数据分析中的维度_数据集

维度类型和转换
维度主要是三大类的数据结构:文本、时间、数值。地区的上海、北京就是文本维度(也可以称为类别维度),销售额度就是数值维度,时间更好理解了。不同图表有维度使用限制。
数值维度可以通过其他维度加工计算得出,例如按地区维度,count出有多少是上海的,有多少是北京的。
维度可以互相转换。比如年龄原本是数值型的维度,但是可以通过对年龄的划分,将其分类为小孩、青年、老年三个年龄段,此时就转换为文本维度。具体按照分析场景使用。

-----------------图表-----------------


图表是"数据可视化"的常用手段,其中又以基本图表:柱状图、折线图、饼图等等最为常用。


一、柱状图(Bar Chart)


柱状图是最常见的图表,也最易解读。



它适用于二维数据集,但只有一个维度需要比较的情况。

二、折线图(Line Chart)数据


折线图适合二维的大数据集,尤其是那些趋势比单个数据点更重要的场合。


它还适合多个二维数据集的比较。


上图是两个二维数据集(大气中二氧化碳浓度,地表平均气温)的折线图。

三、饼图(Pie Chart)


饼图是一种应该避免使用的图表,因为肉眼对面积大小不敏感。



上图中,左侧饼图的五个色块的面积排序,不容易看出来。换成柱状图,就容易多了。

一般情况下,总是应该用柱状图替代饼图。但是有一个例外,就是反映某个部分占整体的比重,比如贫穷人口占总人口的百分比。


四、散点图(Scatter Chart)

散点图适用于三维数据集,但其中只有两维需要比较。


上图是各国的医疗支出与预期寿命,三个维度分别为国家、医疗支出、预期寿命,只有后两个维度需要比较。

五、气泡图(Bubble Chart)

气泡图是散点图的一种变体,通过每个点的面积大小,反映第三维。


上图是卡特里娜飓风的路径,三个维度分别为经度、纬度、强度。点的面积越大,就代表强度越大。

气泡图适用不要求精确辨识第三维的场合。如果为气泡加上不同颜色(或文字标签),气泡图就可用来表达四维数据。下图就是通过颜色,表示每个点的风力等级。


六、雷达图(Radar Chart)

雷达图适用于多维数据(四维以上),且每个维度必须可以排序。但是数据点最多6个,否则无法辨别,因此适用场合有限。

下面是迈阿密热火队首发的五名篮球选手的数据。除了姓名,每个数据点有五个维度,分别是得分、篮板、助攻、抢断、封盖。


画成雷达图,就是下面这样。


面积越大的数据点,就表示越重要。很显然,勒布朗·詹姆斯(红色区域)是热火队最重要的选手。

七、总结




图表

维度

注意点

柱状图

二维

只需比较其中一维

折线图

二维

适用于较大的数据集

饼图

二维

只适用反映部分与整体的关系

散点图

二维或三维

有两个维度需要比较

气泡图

三维或四维

其中只有两维能精确辨识

雷达图

四维以上

数据点不超过6个