上一篇文章已经介绍了数据分析的一般流程,具体操作如下:
- 明确问题:以问题为导向进行分析
- 数据理解:明确数据中每一个字段具体代表的含义
- 数据清洗:对数据进行处理,包括删除重复值、缺失值和异常值处理以及一致化处理
- 数据分析:对数据建模,证明假设等
- 数据可视化:将研究结果用图像的形式展现出来
上一篇文章已经对前五个流程已经完成,本篇文章就数据可视化进行补充。这是上一篇文章,有兴趣的读者可以阅读——数据分析初级——使用Excel对数据探索性分析
数据可视化
柱形图
柱形图是使用柱形高度表示数据量值大小的图表,主要用于基于分类、时间项目的数据比较及数据构成。
- 簇状柱形图
普通的柱形图可以用来比较多个项目的值或项目随时间推移的变化。
- 堆积柱形图
堆积柱形图是将数据叠加到一根柱形上,通过叠加的高度,判断数据总量的对比。
- 百分比堆积柱形图
百分比堆积柱形图是将数据叠加到一根柱形上,每根柱形的总值为100%,各项数据在柱条种占据一定比例的长度。
条形图
条形图是使用条形高度来表示数据变量值大小的图表,主要用于基于分类及数据构成的数据展现,与柱形图一样,包括簇状条形图、堆积条形图和百分比条形图。
条形图与柱形图区别:
- 条形图适用于类别名称长的数据
- 柱形图适合表现有负数的数据
- 条形图更能展现大量数据
折线图
折线图是表示数据趋势的图表,显示了随着时间的推移,数据的变化情况。通过折线图的线条波动趋势,可以轻松判断在不同时间段内,数据是呈上升趋势还是下降趋势,数据变化是呈平稳趋势还是波动趋势,同时还可以根据折线的高点和低点找到数据的波动峰顶和谷底。
- 普通折线图
可用折线图用来表现不同数据的趋势。
- 堆积折线图
堆积折线图可以反应所有数据项目的总值随时间变化的趋势。
- 百分比堆积折线图
百分比堆积折线图是用来表现数据项目所占百分比随时间变化的趋势。
饼图
饼图用来展示各数据占总数据项大小的比例,使用来分析各项目占比、对比各项目比例的图表。
- 普通饼图
普通饼图用来展示各数据项目的比例。
- 圆环图
圆环图可以展示数据项目的比例,增加圆环的层数,还可以体现数据项目随时间或其他因素变化时的比例。
- 复合饼图
复合饼图又称子母饼图,用来展示不同数据项目的占比及其中一个数据项目所包含的分类占比。复合饼图的适用情况有以下两种:
- 数据项目的分类存在包含情况时
- 数据项目较多,且有的项目占比很小时,可以将占比小的项目单独归类,放到从属饼图中
面积图
面积图用来强调数据项目随时间变化的趋势,同时强调量的变化,也就是说,用面积图表现数据,不仅能分析数据的趋势,还能对数据积累的量进行分析。
- 普通面积图
普通面积图体现了数据项目随着时间变化的趋势及累积的量。
- 堆积面积图
堆积面积图将所有数据项目在各时间点上的数据累计到一起,不仅体现了单项数据的变化趋势,还体现了所有数据的变化趋势和量的累加。
- 百分比面积堆积图
百分比面积堆积图体现了数据项目占总值的百分比变化趋势,在图中的每个时间点,所有项目的累计值都为100%。
散点图
散点图是一类体现数据项目联系与分布的图表,可以用来分析2个或3个变量之间的关系。
- 常规散点图
- 气泡图
如果要体现3个变量之间的关系,就要选择气泡图,用气泡的大小体现第三个变量值。
雷达图
雷达图又称戴布拉图或蜘蛛图,常用于对多项数据进行数值上的对比及整体情况的全面分析。雷达图的表现形式是,每个数据分类都有独立的坐标轴,各轴由图表中心向外辐射,形似雷达。
树状图
树状图可以形象地展现数据的群组、分类、层次关系的比例数据,它通过不同颜色的矩形排列来展现复杂的数据关系的。
树状图与饼图的区别:当需要展示的数据多达10项,甚至更多时,饼图就显得拥挤、局促,并且饼图不能较好地展示数据间的层次关系。
旭日图
旭日图是一种表示数据层级关系与比例的图表,它可以清晰地表达数据层级与归属关系。
直方图
直方图用来展示数据的分布情况,它能直观呈现处于不同水平范围的数据项目数量。
瀑布图
瀑布图是一种分析数据数量关系变化的图表,从瀑布图中,可以观察数据的演变过程。
箱线图
箱线图,它是用一组数据中的最小值、第一四分位数、中位数、第三四分位数和最大值来反映数据分布的中心位置和散布范围,可以粗略地看出数据是否具有对称性。通过将多组数据的箱线图画在同一坐标上,则可以清晰地显示各组数据的分布差异,为发现问题、改进流程提供线索。
实例分析
- 婴儿男女比例
从透视表中可以看到样本中男女比例大致相近,女婴儿占比为52.75%。
- 婴儿年龄分布
从透视表中可以看到,婴儿年龄大部分集中在2至5岁这个年龄段,另外还发现少部分年龄在10岁以上,站样本的1.25%,另外还存在一个异常值,其年龄为32岁,需要通过进一步验证是记录错误,还是其他原因。
- 各类商品在2012-7-2至2015-2-5期间的总销售量
可以看出商品类别28的销量最大,销售量为28545,占总销售量的37.4%,远远超过其他类别商品。
- 各年度各类商品的销量
可以看到相比于2013年,2014年的商品类别为28的销量虽有所增加,增加了1194,但是2014年度的占比却从49.71%变为29.38%,降低了约20个百分点,相应的,50014815类商品的占比增加了约20个百分点。
- 针对婴儿的年龄和性别作交叉分析
首先运用VLOOKUP函数作多表关联,关联后,表中只包含930个样本,结果如下:
然后运用透视表做交叉分析,结果如下所示。从表中可以看到年龄为2、3、4、5、6的婴儿对婴幼儿商品需求较大,另外从每个年龄段看,女孩要比男孩需求大。
进一步对2-6岁年龄段的婴儿商品偏好进行分析,发现,50008268和50014815这两个类别商品在2-6岁各个年龄段都受欢迎。