人口金字塔、漏斗图、箱线图

  1. 人口金字塔
  • 数据处理
  • 创建人口金字塔
  1. 漏斗图
  • 漏斗图概念与用途
  • 公众号流量转化漏斗图
  1. 箱线图
  • 概念
  • 酒店均价的箱线图

人口金字塔

  • 人口金字塔在本质上是一堆条形图
  • 人口金字塔是一种特殊的旋风图
  • 金字塔在同一行上对称的显示和比较两个类别的统计指标,并且用另一个不同的类来区分行。

数据处理

打开“人口数据.xlsx”

为方便理解,将列名【ESTBASE2010】改为【Counts】。

数据预览

针对需求,只用关系后三列数据即可,即年龄,性别,人口数

Age转换为维度

python 人口金字塔图_数据

将【Age】拖到【行】,将【Counts】拖到【文本】。

python 人口金字塔图_数据_02

由于Age为数值型数据时,85+无法识别,变为了Null。

解决方案:

先把Age转换成字符串,创建一个新的计算字段,命名为”年龄“——IF [Age] =‘85+’ THEN 85 ELSE INT([Age]) END

python 人口金字塔图_数据_03

python 人口金字塔图_坐标轴_04

清除数据表

创建人口金字塔

创建数据桶

右击【年龄】——【创建】——【数据桶】——【数据桶大小】设置为10——点击【确定】。

python 人口金字塔图_数据_05

python 人口金字塔图_数据_06

右击空白——创建计算字段——【男性人数】和【女性人数】——将【男性人数】和【女性人数】拖到【列】中。

IF [Gender]= "Male" Then [Counts] ELSE 0 END
IF [Gender] = "Female" THEN [Counts] ELSE 0 END

python 人口金字塔图_数据_07

双击【女性人数】下坐标轴,勾选【倒序】。金字塔形成了。

python 人口金字塔图_字段_08

python 人口金字塔图_数据_09

将【Gender】放到【全部】下的【颜色】里。

python 人口金字塔图_坐标轴_10

如果颜色不对的话,可以点击【颜色】——【编辑颜色】,点击【Female】,再点击调色板里的橙色;点击【Male】,再点击调色板里的【蓝色】。

漏斗图

漏斗图概念与用途

漏斗图是直观的展现业务流程,可以快速发现流程中存在的问题,对流程进行优化,直观的给出优化的结果。

在电商、营销、客户关系管理等领域有广泛应用。

漏斗图适用于业务流程的比较,比如规范性、周期性长短、环节的分析。

公众号流量转化漏斗图

打开数据"流量转化数据.xlsx"

将【数量】拖到【列】,将【阶段】拖到【行】。

将【阶段】拖到【颜色】

python 人口金字塔图_字段_11

发现图表中各阶段顺序不对,应该是从上往下应该是【公众号访问量】——【关注新增人数】——【客服咨询数量】——【成交单数】。

点击图表里的各个字段,上下拖动字段即可。

半个漏斗图

按着ctrl键,复制【总和(数量)】。这时,有两个【总和(数量)】

选择【总和(数量)(2)】下的【自动】为【线】。

python 人口金字塔图_1024程序员节_12

在右边坐标轴右击【双轴】。

在【总和(数量)】下的【自动】里选择【条形图】。

python 人口金字塔图_坐标轴_13

右击坐标轴——【同步轴】。这样创建了半个漏斗图。

python 人口金字塔图_数据_14

整个漏斗图

按着ctrl键,复制列里的两个【总和(数量)】。这时有4个【总和(数量)】

选择【总和(数量)(3)】下的【自动】为【条形图】,选择【总和(数量)(4)】下的【自动】为【线】

点击最右边的【总和(数量)】的下拉三角,选择【双轴】

右击坐标轴的下边——【同步轴】

右击左边坐标轴的下边——【编辑轴】,勾选【倒序】。

python 人口金字塔图_python 人口金字塔图_15

右击纵坐标轴字段,去掉勾选【显示标题】。

右击顶部的横坐标轴,去掉勾选【显示标题】。

python 人口金字塔图_字段_16

右击图表空白处——【设置格式】

在左边栏,选择【设置边界格式】,选择【行】——【行分割区】——【区】,选择【无】,

同样,选择【列】——【列分割区】——【区】,选择【无】

python 人口金字塔图_坐标轴_17

选择图表里的线,将【阶段】拖到【标签】上。


调节图表里的标签位置

python 人口金字塔图_数据_18

添加每个阶段相对于总流量的百分比。

将【数量】拖到【总和(数量)(2)】的【标签】上,右击【总和(数量)】的标签——【添加表计算】。

【计算类型】选择【百分比】,【相对于】选择【第一个】。

python 人口金字塔图_坐标轴_19

右击【总和(数量)】的标签——【设置格式】。

【数字】——【百分比】,小数位数为0。

python 人口金字塔图_1024程序员节_20

添加右边标签和百分比

点击图标里右边的线,将【数量】拖到【总和(数量)(4)】的【标签】上,右击【总和(数量)】的标签——【添加表计算】。

【计算类型】选择【百分比】,【相对于】选择【前一】,是每一阶段相对于上一阶段的占比。

python 人口金字塔图_1024程序员节_21

右击【总和(数量)】的标签——【设置格式】。

【数字】——【百分比】,小数位数为0。

最终结果:

python 人口金字塔图_坐标轴_22

箱线图

概念

箱线图又叫做盒须图,是一种常见的统计图形,用于显示数据的位置、分散程度、异常值等。

中位数:数据按降序排列,处于中间位置的数据,总观测数50%的数据值。(注意,是数据值,不是序号)

第1、3四分位数:数据按降序排列,总观测数25%的数据值,是第一四分位数,总观测数75%的数据值,是第三四分位数。

(比如说数据个数有100个,则总观测数为100,按降序排,排到第25个的数值就是第一四分位数。)

第1、3四分位数是看数据的密集程度,两者越近,说明数据越密集;两者越远,说明数据越分散。

IQR:四分位全距,第三四分位数与第一四分位数的差距。

上限:第三四分位数加上1.5倍的IQR

下限:1.5倍的IQR减去第一四分位数

异常值:上下限范围之外的数据

python 人口金字塔图_1024程序员节_23

酒店均价的箱线图

导入“酒店数据.xlsx”,将工作表【酒店数据】拖入右侧。

点击工作表【酒店均价箱线图】。

将【地区】拖到【列】,将【价格】拖到【行】。

点击【行】里的【价格】下拉框——【度量】——【平均值】。

python 人口金字塔图_1024程序员节_24

点击【标记】下【自动】,选择【圆】。

点击【分析】,取消勾选【聚合度量】。

点击【智能显示】——【盒须图】。

python 人口金字塔图_数据_25

有些地区数据太少,不适合用盒须图,所以要筛选一下。

将【地区】拖到【筛选器】,【顶部】——【按字段】——顶部选择【5】——选择【记录数】,点击【确定】。

python 人口金字塔图_坐标轴_26

【其他地区】属于异常数据,右击【排除】。

python 人口金字塔图_坐标轴_27

发现油尖旺地区的异常数据比较多,中西区的异常值只有一个,但数据范围比较大。

右击【中西区】——【只保留】。

python 人口金字塔图_数据_28

上须和下须就是上限和下限,从图中看两者相差较大。

中位数偏下,说明价格偏低。

上枢纽和下枢纽就是第一四分位数和第三四分位数。有图可见两者之间的区间比较宽,说明价格比较分散。

python 人口金字塔图_python 人口金字塔图_29

右击盒须图——【编辑】,可以将须状延伸值最大值和最小值,也就是【数据的最大范围】。

python 人口金字塔图_坐标轴_30

不过一般是在IQR的1.5倍以内,还可以设置样式,默认是【现代】,也可以选比如【玻璃】。

python 人口金字塔图_字段_31

恢复默认,最后结果如下

python 人口金字塔图_python 人口金字塔图_32

作业:

1、使用"豆瓣电影数据"。创建中美两国不同年代电影产量对比旋风图,选择年代创建数据桶,图形纵轴按照年代降序排列,分析并导出图像;分析:中国电影数量在早期落后于美国,在2010年之后电影产量反超美国。

  • 把年代转化为整数并创建数据桶
  • 创建计算字段【记录数】、【中国电影数量】、【美国电影数量】
IF [产地] = "中国" THEN [记录数] ELSE 0 END
IF [产地] ="美国" THEN [记录数] ELSE 0 END
  • 把【产地】推拽到筛选,只留中国、美国
  • 【中国电影数量】【美国电影数量】拖拽到列,【年代数据桶】拖拽到行,并以倒叙显示
  • 双击【中国电影数量】最下面,设置【倒叙】
  • 【产地】拖拽到【颜色】

python 人口金字塔图_字段_33

2、使用"成交量转化数据"制作漏斗图,分析数据,导出图像。

  • 将【数量】拖到列,ctrl按住,复制4个
  • 【阶段】拖到行,倒序排序
  • 【总和数量2和4】中【自动】换成【线】,并在下面位置【右键】——【双轴】
  • 【总和数量1和3】中【自动】换成【条形图】
  • 【右键】左侧,选择【同步轴】,【双击】设置为【倒序】
  • 【阶段】拖入【总和数量1、3】的【颜色】、标签,【数量】拖入标签
  • 为【总和数量】添加表计算,百分比,相对于第一个,并设置格式
  • 为【总和数量3】添加表计算,百分比,相对于前一个,并设置格式

最终效果:

python 人口金字塔图_python 人口金字塔图_34

3、使用“豆瓣电影数据",通过箱线图分析不同产地电影评分的分布情况。

  • 【产地】列,【评分】行
  • 点击【标记】下【自动】,选择【圆】
  • 点击【分析】,取消勾选【聚合度量】
  • 点击【智能显示】——【盒须图】

python 人口金字塔图_1024程序员节_35

  • 【阶段】拖入【总和数量1、3】的【颜色】、标签,【数量】拖入标签
  • 为【总和数量】添加表计算,百分比,相对于第一个,并设置格式
  • 为【总和数量3】添加表计算,百分比,相对于前一个,并设置格式

3、使用“豆瓣电影数据",通过箱线图分析不同产地电影评分的分布情况。

  • 【产地】列,【评分】行
  • 点击【标记】下【自动】,选择【圆】
  • 点击【分析】,取消勾选【聚合度量】
  • 点击【智能显示】——【盒须图】