回顾学习完第一章,我们对泰坦尼克号数据有了基本的了解,也学到了一些基本的统计方法,第二章中我们学习了数据的清理和重构,使得数据更加的易于理解;今天我们要学习的是第二章第三节:数据可视化,主要给大家介绍一下Python数据可视化库Matplotlib。

第二章:数据可视化

开始之前,导入numpy、pandas以及matplotlib包和数据

泰坦尼克号 数据挖掘 泰坦尼克号数据可视化_数据

 

 【思考】最基本的可视化图案有哪些?分别适用于那些场景?

#思考回答
#这一部分需要了解可视化图案的的逻辑,知道什么样的图案可以表达什么样的信号b
1、柱状图 展示多个分类的数据变化和同类别各变量之间的比较情况,适用于对比分类数据;
2、条形图 适用于类别名称过长,将有大量空白位置标示每个类别的名称;
3、折线图 展示数据随时间或有序类别的波动情况的趋势变化,适用于有序的类别,比如时间;
4、散点图 用于发现各变量之间的关系,适用于存在大量数据点,结果更精准,比如回归分析;
5、饼图 用来展示各类别占比,比如男女比例,适用于了解数据的分布情况;
6、热力图 展现同一层级的不同分类的占比情况,还可以同一个分类下子级的占比情况,比如商品品类等;
7、词云 展现文本信息,对出现频率较高的“关键词”予以视觉上的突出,比如用户画像的标签。
8、雷达图 将多个分类的数据量映射到坐标轴上,对比某项目不同属性的特点。
9、漏斗图 用梯形面积表示某个环节业务量与上一个环节之间的差异。可以直观地显示转化率和流失率;

2.7.2 任务二:可视化展示泰坦尼克号数据集中男女中生存人数分布情况(用柱状图试试)。

泰坦尼克号 数据挖掘 泰坦尼克号数据可视化_数据_02

 

 

2.7.3 任务三:可视化展示泰坦尼克号数据集中男女中生存人与死亡人数的比例图(用柱状图试试)。

泰坦尼克号 数据挖掘 泰坦尼克号数据可视化_数据_03

 

 思考:stack()与unstack()比较 

stack: 将数据的列索引转换为行索引(列索引可以简单理解为列名);unstack:将数据的行索引转换为列索引;
# stack和unstack默认操作为最内层

泰坦尼克号 数据挖掘 泰坦尼克号数据可视化_数据集_04

 

 

2.7.4 任务四:可视化展示泰坦尼克号数据集中不同票价的人生存和死亡人数分布情况。(用折线图试试)(横轴是不同票价,纵轴是存活人数)

泰坦尼克号 数据挖掘 泰坦尼克号数据可视化_柱状图_05

 

 

泰坦尼克号 数据挖掘 泰坦尼克号数据可视化_数据集_06

 

 

2.7.5 任务五:可视化展示泰坦尼克号数据集中不同仓位等级的人生存和死亡人员的分布情况。

泰坦尼克号 数据挖掘 泰坦尼克号数据可视化_柱状图_07

 

 

2.7.6 任务六:可视化展示泰坦尼克号数据集中不同年龄的人生存与死亡人数分布情况。

泰坦尼克号 数据挖掘 泰坦尼克号数据可视化_数据集_08

 

 

2.7.7 任务七:可视化展示泰坦尼克号数据集中不同仓位等级的人年龄分布情况。

泰坦尼克号 数据挖掘 泰坦尼克号数据可视化_泰坦尼克号 数据挖掘_09