饼状图数据可视化代码饼状图的数据

转载

mob64ca1401b651 2023-12-17 14:15:54

文章标签 饼状图数据可视化代码饼图数据直方图 文章分类 数据可视化人工智能

1、饼图的绘制

饼图属于最传统的统计图形之一，几乎随处可见，例如大型公司的屏幕墙、各种年度论坛的演

示稿以及各大媒体发布的数据统计报告等；

饼图是将一个圆分割成不同大小的楔（扇）形，而圆中的每一个楔形代表了不同的类别值，通

常根据楔形的面积大小来判断类别值的差异；

pie(x, explode=None, labels=None, colors=None, autopct=None, pctdistance=0.6,
 labeldistance=1.1)
x：指定绘图的数据
explode：指定饼图某些部分的突出显示，即呈现爆炸式
labels：为饼图添加标签说明，类似于图例说明
colors：指定饼图的填充色
autopct：自动添加百分比显示，可以采用格式化的方法显示
pctdistance：设置百分比标签与圆心的距离
labeldistance：设置各扇形标签（图例）与圆心的距离

# 导入第三方模块
import matplotlib.pyplot as plt
# 构造数据
edu = [0.2515,0.3724,0.3336,0.0368,0.0057]
labels = ['中专','大专','本科','硕士','其他']
# 绘制饼图 plt.axes(aspect='equal')
plt.pie(x = edu, # 绘图数据
 labels=labels, # 添加教育水平标签
 autopct='%.1f%%' # 设置百分比的格式，这里保留一位小数
 )
# 显示图形
plt.show()

2、条形图的绘制

虽然饼图可以很好地表达离散型变量在各水平上的差异，但其不擅长对比差异不大或水平值过多的离散型变量，因为饼图是通过各扇形面积的大小来比价差异的，面积的比较有时并不直观；对于条形图而言，对比的是柱形的高低，柱体越高，代表的数值越大，反之亦然；

bar(x, height, width=0.8, bottom=None, color=None, edgecolor=None, 
 tick_label=None, label = None, ecolor=None)
x：传递数值序列，指定条形图中x轴上的刻度值
height：传递数值序列，指定条形图y轴上的高度
width：指定条形图的宽度，默认为0.8
bottom：用于绘制堆叠条形图
color：指定条形图的填充色
edgecolor：指定条形图的边框色
tick_label：指定条形图的刻度标签
label：指定条形图的标签，一般用以添加图例

# 读入数据
import pandas as pd
GDP = pd.read_excel(r'D:\pylearn\10\Province GDP 2017.xlsx')
# 设置绘图风格（不妨使用R语言中的ggplot2风格）
plt.style.use('ggplot')#灰色背景
# 绘制条形图
plt.bar(x = range(GDP.shape[0]), # 指定条形图x轴的刻度值,X轴是个位置，shape返回数据集的行数
 height = GDP.GDP, # 指定条形图y轴的数值
 tick_label = GDP.Province, # 指定条形图x轴的刻度标签
 color = 'steelblue', # 指定条形图的填充色
 )
# 添加y轴的标签
plt.ylabel('GDP(万亿)')
# 添加条形图的标题
plt.title('2017年度6个省份GDP分布')
# 为每个条形图添加数值标签,x: 注释文本内容所在位置的横坐标,y：注释文本内容所在位置的纵坐标,string：注释文本内容
for x,y in enumerate(GDP.GDP):
 plt.text(x,y+0.1,'%s' %round(y,1),ha='center')#'%s'代表输出字符串，round() 方法返回浮点数x的四舍五入值。
# 显示图形 
plt.show()

饼状图数据可视化代码饼状图的数据_数据

# 对读入的数据做升序排序
GDP.sort_values(by = 'GDP', inplace = True)
# 绘制条形图
plt.barh(y = range(GDP.shape[0]), # 指定条形图y轴的刻度值
 width = GDP.GDP, # 指定条形图x轴的数值
 tick_label = GDP.Province, # 指定条形图y轴的刻度标签
 color = 'bisque', # 指定条形图的填充色
 )
# 添加x轴的标签
plt.xlabel('GDP(万亿)')
# 添加条形图的标题
plt.title('2017年度6个省份GDP分布')
# 为每个条形图添加数值标签
for y,x in enumerate(GDP.GDP):
 plt.text(x+0.1,y,'%s' %round(x,1),va='center')
# 显示图形 
plt.show()

饼状图数据可视化代码饼状图的数据_数据_02

水平交错条形图

HuRun=pd.read_excel(r'D:\pylearn\10\HuRun.xlsx')
# Pandas模块之水平交错条形图
HuRun_reshape = HuRun.pivot_table(index = 'City', columns='Year',
 values='Counts').reset_index()#pivot数据透视，行，列，值，移除原先的全部索引,即将原先的全部索引都置为普通列.
# 对数据集降序排序
HuRun_reshape.sort_values(by = 2016, ascending = False, inplace = True)
HuRun_reshape.plot(x = 'City', y = [2016,2017], kind = 'bar', 
color = ['steelblue', 'indianred'], 
 # 用于旋转x轴刻度标签的角度，0表示水平显示刻度标签
 rot = 0, 
 width = 0.8, title = '近两年5个城市亿万资产家庭数比较')
# 添加y轴标签
plt.ylabel('亿万资产家庭数')
plt.xlabel('')
plt.show()

饼状图数据可视化代码饼状图的数据_数据_03

直方图

直方图一般用来观察数据的分布形态，横坐标代表数值的均匀分段，纵坐标代表每个段内的观测数量（频数）；

一般直方图都会与核密度图搭配使用，目的是更加清晰地掌握数据的分布特征；

Titanic=pd.read_csv(r'D:\pylearn\10\titanic_train.csv')
# 检查年龄是否有缺失（如果数据中存在缺失值，将无法绘制直方图）
any(Titanic.Age.isnull())
# 不妨删除含有缺失年龄的观察
Titanic.dropna(subset=['Age'], inplace=True)#subset在哪些列中查看是否有缺失值，inplace是否在原数据上操作。
# 绘制直方图
plt.hist(x = Titanic.Age, # 指定绘图数据
 bins = 20, # 指定直方图中条块的个数
 color = 'steelblue', # 指定直方图的填充色
 edgecolor = 'black' # 指定直方图的边框色
 )
# 添加x轴和y轴标签
plt.xlabel('年龄')
plt.ylabel('频数')
# 添加标题
plt.title('乘客年龄分布')
# 显示图形
plt.show()

饼状图数据可视化代码饼状图的数据_数据_04