人口金字塔、漏斗图、箱线图
- 人口金字塔
- 数据处理
- 创建人口金字塔
- 漏斗图
- 漏斗图概念与用途
- 公众号流量转化漏斗图
- 箱线图
- 概念
- 酒店均价的箱线图
人口金字塔
- 人口金字塔在本质上是一堆条形图
- 人口金字塔是一种特殊的旋风图
- 金字塔在同一行上对称的显示和比较两个类别的统计指标,并且用另一个不同的类来区分行。
数据处理
打开“人口数据.xlsx”
为方便理解,将列名【ESTBASE2010】改为【Counts】。
数据预览
针对需求,只用关系后三列数据即可,即年龄,性别,人口数
Age转换为维度

将【Age】拖到【行】,将【Counts】拖到【文本】。

由于Age为数值型数据时,85+无法识别,变为了Null。
解决方案:
先把Age转换成字符串,创建一个新的计算字段,命名为”年龄“——IF [Age] =‘85+’ THEN 85 ELSE INT([Age]) END


清除数据表
创建人口金字塔
创建数据桶
右击【年龄】——【创建】——【数据桶】——【数据桶大小】设置为10——点击【确定】。


右击空白——创建计算字段——【男性人数】和【女性人数】——将【男性人数】和【女性人数】拖到【列】中。
IF [Gender]= "Male" Then [Counts] ELSE 0 END
IF [Gender] = "Female" THEN [Counts] ELSE 0 END
双击【女性人数】下坐标轴,勾选【倒序】。金字塔形成了。


将【Gender】放到【全部】下的【颜色】里。

如果颜色不对的话,可以点击【颜色】——【编辑颜色】,点击【Female】,再点击调色板里的橙色;点击【Male】,再点击调色板里的【蓝色】。
漏斗图
漏斗图概念与用途
漏斗图是直观的展现业务流程,可以快速发现流程中存在的问题,对流程进行优化,直观的给出优化的结果。
在电商、营销、客户关系管理等领域有广泛应用。
漏斗图适用于业务流程的比较,比如规范性、周期性长短、环节的分析。
公众号流量转化漏斗图
打开数据"流量转化数据.xlsx"
将【数量】拖到【列】,将【阶段】拖到【行】。
将【阶段】拖到【颜色】

发现图表中各阶段顺序不对,应该是从上往下应该是【公众号访问量】——【关注新增人数】——【客服咨询数量】——【成交单数】。
点击图表里的各个字段,上下拖动字段即可。
半个漏斗图
按着ctrl键,复制【总和(数量)】。这时,有两个【总和(数量)】
选择【总和(数量)(2)】下的【自动】为【线】。

在右边坐标轴右击【双轴】。
在【总和(数量)】下的【自动】里选择【条形图】。

右击坐标轴——【同步轴】。这样创建了半个漏斗图。

整个漏斗图
按着ctrl键,复制列里的两个【总和(数量)】。这时有4个【总和(数量)】
选择【总和(数量)(3)】下的【自动】为【条形图】,选择【总和(数量)(4)】下的【自动】为【线】
点击最右边的【总和(数量)】的下拉三角,选择【双轴】
右击坐标轴的下边——【同步轴】
右击左边坐标轴的下边——【编辑轴】,勾选【倒序】。

右击纵坐标轴字段,去掉勾选【显示标题】。
右击顶部的横坐标轴,去掉勾选【显示标题】。

右击图表空白处——【设置格式】
在左边栏,选择【设置边界格式】,选择【行】——【行分割区】——【区】,选择【无】,
同样,选择【列】——【列分割区】——【区】,选择【无】

选择图表里的线,将【阶段】拖到【标签】上。
调节图表里的标签位置

添加每个阶段相对于总流量的百分比。
将【数量】拖到【总和(数量)(2)】的【标签】上,右击【总和(数量)】的标签——【添加表计算】。
【计算类型】选择【百分比】,【相对于】选择【第一个】。

右击【总和(数量)】的标签——【设置格式】。
【数字】——【百分比】,小数位数为0。

添加右边标签和百分比
点击图标里右边的线,将【数量】拖到【总和(数量)(4)】的【标签】上,右击【总和(数量)】的标签——【添加表计算】。
【计算类型】选择【百分比】,【相对于】选择【前一】,是每一阶段相对于上一阶段的占比。

右击【总和(数量)】的标签——【设置格式】。
【数字】——【百分比】,小数位数为0。
最终结果:

箱线图
概念
箱线图又叫做盒须图,是一种常见的统计图形,用于显示数据的位置、分散程度、异常值等。
中位数:数据按降序排列,处于中间位置的数据,总观测数50%的数据值。(注意,是数据值,不是序号)
第1、3四分位数:数据按降序排列,总观测数25%的数据值,是第一四分位数,总观测数75%的数据值,是第三四分位数。
(比如说数据个数有100个,则总观测数为100,按降序排,排到第25个的数值就是第一四分位数。)
第1、3四分位数是看数据的密集程度,两者越近,说明数据越密集;两者越远,说明数据越分散。
IQR:四分位全距,第三四分位数与第一四分位数的差距。
上限:第三四分位数加上1.5倍的IQR
下限:1.5倍的IQR减去第一四分位数
异常值:上下限范围之外的数据

酒店均价的箱线图
导入“酒店数据.xlsx”,将工作表【酒店数据】拖入右侧。
点击工作表【酒店均价箱线图】。
将【地区】拖到【列】,将【价格】拖到【行】。
点击【行】里的【价格】下拉框——【度量】——【平均值】。

点击【标记】下【自动】,选择【圆】。
点击【分析】,取消勾选【聚合度量】。
点击【智能显示】——【盒须图】。

有些地区数据太少,不适合用盒须图,所以要筛选一下。
将【地区】拖到【筛选器】,【顶部】——【按字段】——顶部选择【5】——选择【记录数】,点击【确定】。

【其他地区】属于异常数据,右击【排除】。

发现油尖旺地区的异常数据比较多,中西区的异常值只有一个,但数据范围比较大。
右击【中西区】——【只保留】。

上须和下须就是上限和下限,从图中看两者相差较大。
中位数偏下,说明价格偏低。
上枢纽和下枢纽就是第一四分位数和第三四分位数。有图可见两者之间的区间比较宽,说明价格比较分散。

右击盒须图——【编辑】,可以将须状延伸值最大值和最小值,也就是【数据的最大范围】。

不过一般是在IQR的1.5倍以内,还可以设置样式,默认是【现代】,也可以选比如【玻璃】。

恢复默认,最后结果如下

作业:
1、使用"豆瓣电影数据"。创建中美两国不同年代电影产量对比旋风图,选择年代创建数据桶,图形纵轴按照年代降序排列,分析并导出图像;分析:中国电影数量在早期落后于美国,在2010年之后电影产量反超美国。
- 把年代转化为整数并创建数据桶
- 创建计算字段【记录数】、【中国电影数量】、【美国电影数量】
IF [产地] = "中国" THEN [记录数] ELSE 0 END
IF [产地] ="美国" THEN [记录数] ELSE 0 END- 把【产地】推拽到筛选,只留中国、美国
- 【中国电影数量】【美国电影数量】拖拽到列,【年代数据桶】拖拽到行,并以倒叙显示
- 双击【中国电影数量】最下面,设置【倒叙】
- 【产地】拖拽到【颜色】

2、使用"成交量转化数据"制作漏斗图,分析数据,导出图像。
- 将【数量】拖到列,ctrl按住,复制4个
- 【阶段】拖到行,倒序排序
- 【总和数量2和4】中【自动】换成【线】,并在下面位置【右键】——【双轴】
- 【总和数量1和3】中【自动】换成【条形图】
- 【右键】左侧,选择【同步轴】,【双击】设置为【倒序】
- 【阶段】拖入【总和数量1、3】的【颜色】、标签,【数量】拖入标签
- 为【总和数量】添加表计算,百分比,相对于第一个,并设置格式
- 为【总和数量3】添加表计算,百分比,相对于前一个,并设置格式
最终效果:

3、使用“豆瓣电影数据",通过箱线图分析不同产地电影评分的分布情况。
- 【产地】列,【评分】行
- 点击【标记】下【自动】,选择【圆】
- 点击【分析】,取消勾选【聚合度量】
- 点击【智能显示】——【盒须图】

- 【阶段】拖入【总和数量1、3】的【颜色】、标签,【数量】拖入标签
- 为【总和数量】添加表计算,百分比,相对于第一个,并设置格式
- 为【总和数量3】添加表计算,百分比,相对于前一个,并设置格式
3、使用“豆瓣电影数据",通过箱线图分析不同产地电影评分的分布情况。
- 【产地】列,【评分】行
- 点击【标记】下【自动】,选择【圆】
- 点击【分析】,取消勾选【聚合度量】
- 点击【智能显示】——【盒须图】
 
 
                     
            
        













 
                    

 
                 
                    