文章目录

  • 数据可视化第二版-03部分-07章-局部与整体
  • 总结
  • 可视化视角-局部与整体
  • 代码实现
  • 韦恩图
  • venn3
  • venn2
  • 饼图
  • 环形图
  • 旭日图
  • 园堆积图
  • 矩形树图
  • 漏斗图
  • 基于matplot'lib的漏斗图
  • 基于pyecharts的漏斗图
  • 基于pyecharts的治愈率漏斗图
  • 虚拟环境相关命令汇集
  • 教材截图


数据可视化第二版-03部分-07章-局部与整体

光荣的三八节到了,来个充满理想年代的图片。

数据可视化 第二版 数据可视化第二版李伊pdf_matplotlib

总结

本系列博客为基于《数据可视化第二版》一书的教学资源博客。本文主要是第07章-局部与整体可视化的案例相关。

可视化视角-局部与整体

数据可视化 第二版 数据可视化第二版李伊pdf_信息可视化_02

数据可视化 第二版 数据可视化第二版李伊pdf_matplotlib_03

数据可视化 第二版 数据可视化第二版李伊pdf_matplotlib_04

代码实现

韦恩图

可参考:https://www.jb51.net/article/238729.htmhttps://pypi.org/project/matplotlib-venn/ python中Matplotlib并没有现成的函数可直接绘制venn图, 不过已经有前辈基于matplotlib.patches及matplotlib.path开发了两个轮子。
安装matplotlib_venn:

pip install matplotlib_venn -i https://pypi.tuna.tsinghua.edu.cn/simple

该包提供了四个主要函数:venn2、venn2_circles、venn3和venn3_circles。

venn3

韦恩图1

from matplotlib import pyplot as plt
from matplotlib_venn import venn3

# 1
plt.figure(figsize=(4, 4))  # 设置画布大小
plt.title("韦恩图示例")
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
# (Abc, aBc, ABc, abC, AbC, aBC, ABC)
v = venn3(subsets=(20, 10, 5, 15, 5, 10, 5),
          set_labels=('逻辑学', '艺术修养', '大学语文'),
          set_colors=('magenta', 'cyan', 'b'))
plt.show()

输出为:

数据可视化 第二版 数据可视化第二版李伊pdf_ci_05

from matplotlib import pyplot as plt
from matplotlib_venn import venn3

# 2
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号

plt.figure(figsize=(4, 4))  # 设置画布大小
v = venn3(subsets=(20, 10, 5, 15, 5, 10, 5), set_labels=('逻辑学', '艺术修养', '大学语文'), set_colors=('magenta', 'cyan', 'b'))
plt.show()

数据可视化 第二版 数据可视化第二版李伊pdf_数据可视化 第二版_06

venn2

#导入依赖packages
import matplotlib.pyplot as plt
from matplotlib_venn import venn2,venn2_circles
 
 
# subsets参数
#绘图数据的格式,以下5种方式均可以,注意异同
# (Ab, aB, AB) 
subset = [[{1,2,3},{1,2,4}],#列表list(集合1,集合2)
          ({1,2,3},{1,2,4}),#元组tuple(集合1,集合2)
          {'10': 1, '01': 1, '11': 2},#字典dict(A独有,B独有,AB共有)
          (3, 3, 2),####元组tuple(A有,B有,AB共有),注意和其它几种方式的异同点
          [3,3,2]#列表list(A有,B有,AB共有)           
         ]
for i in subset:
    my_dpi=100
    plt.figure(figsize=(500/my_dpi, 500/my_dpi), dpi=my_dpi) # #控制图尺寸的同时,使图高分辨率(高清)显示
    g=venn2(subsets=i, #默认数据绘制venn图,只需传入绘图数据
        set_colors=("#098154","#c72e29"),#设置圈的颜色,中间颜色不能修改
        alpha=0.6,#透明度
        normalize_to=1.0,#venn图占据figure的比例,1.0为占满
        )
    g=venn2_circles(subsets = i, 
        linestyle='--', linewidth=0.8, color="black"#外框线型、线宽、颜色
       )
    plt.title('subsets=%s'%str(i))
    plt.show()

数据可视化 第二版 数据可视化第二版李伊pdf_数据可视化 第二版_07


数据可视化 第二版 数据可视化第二版李伊pdf_信息可视化_08


数据可视化 第二版 数据可视化第二版李伊pdf_信息可视化_09

数据可视化 第二版 数据可视化第二版李伊pdf_matplotlib_10


数据可视化 第二版 数据可视化第二版李伊pdf_信息可视化_11

饼图

plt.pie(x, explode=None, labels=None, colors=None, autopct=None, pctdistance=0.6, shadow=False, labeldistance=1.1,
 startangle=0, radius=1, counterclock=True, wedgeprops=None, textprops=None, center=0, 0, frame=False, 
 rotatelabels=False, *, normalize=None, data=None)

x即每个扇形的占比的序列或数组
explode如果不是None,则是一个len(x)长度的数组,指定每一块的突出程度;突出显示,设置每一块分割出来的间隙大小
labels为每个扇形提供标签的字符串序列
colors为每个扇形提供颜色的字符串序列
autopct如果它是一个格式字符串,标签将是fmt % pct。如果它是一个函数,它将被调用。
shadow阴影
startangle从x轴逆时针旋转,饼的旋转角度
pctdistance, default: 0.6每个饼片的中心与由autopct生成的文本的开头之间距离与半径的比率,大于1的话会显示在圆外
labeldistance, default: 1.1饼状图标签绘制时的径向距离(我认为这个也与8类似是个比率)。如果设置为None,则不绘制标签,而是存储在图例()中使用。

# -*- coding:UTF-8 -*-

from matplotlib import pyplot as plt

plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams["axes.unicode_minus"] = False  # 用来正常显示负号

# 1
labels = '法语', '意大利语', '德语'  # 建立不同类别
sizes = [60, 40, 30]  # 不同类别对应的数量

fig = plt.figure(figsize=(4, 4))
ax1 = fig.add_subplot(111)
color = ['tomato', 'Gold', 'DeepSkyBlue']
ax1.pie(sizes,
        labels=labels,
        labeldistance=0.5,
        colors=color,
        textprops=dict(color='black'),  # 字体颜色
        autopct='%1.1f%%',  # 显示数值标签
        pctdistance=0.7)  # 数值标签到中心点的距离
ax1.axis('equal')
plt.title('小语种学习人数饼图')
plt.show()

数据可视化 第二版 数据可视化第二版李伊pdf_python_12

from matplotlib import pyplot as plt

plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams["axes.unicode_minus"] = False  # 用来正常显示负号

# 2
labels = 'Python组', 'Java组', 'C组', 'Go组'
sizes = [25, 45, 30, 10]
fig = plt.figure(figsize=(4, 4))
explode = (0.1, 0, 0, 0) # 分割扇形
ax2 = fig.add_subplot(111)
ax2.pie(sizes, explode=explode,  # 分隔扇形
        labels=labels, autopct='%1.1f%%')
plt.title('不同种类程序语言使用分割饼图')
plt.show()

数据可视化 第二版 数据可视化第二版李伊pdf_python_13

from matplotlib import pyplot as plt

plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams["axes.unicode_minus"] = False  # 用来正常显示负号

# 3
labels = '男性', '女性'  # 建立不同类别
sizes = [30, 70]  # 不同类别对应的数量

fig = plt.figure(figsize=(4, 4))
ax1 = fig.add_subplot(111)
color = ['RoyalBlue', 'DeepPink']
ax1.pie(sizes,
        labels=labels,
        labeldistance=0.5,
        colors=color,
        textprops=dict(color='white'),  # 字体颜色
        autopct='%1.1f%%',  # 显示数值标签
        pctdistance=0.7)  # 数值标签到中心点的距离
ax1.axis('equal')
plt.title('某款应用程序使用者性别饼图')
plt.show()

数据可视化 第二版 数据可视化第二版李伊pdf_数据可视化 第二版_14

环形图

参考:
[python] 基于matplotlib实现圆环图的绘制 可以重点看下这个链接。

wedgeprops中通过width参数设定内部圆的半径,edgecolor设置内部圆的颜色。

import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams["axes.unicode_minus"] = False  # 用来正常显示负号

# 1
labels = ['四川', '河北', '北京', '重庆', '天津']  # 设定类别
A1 = [36980.22, 35964.00, 28000.40, 19500.00, 18595.38]
color = ['yellow', 'cyan', 'lightblue', 'lightgreen', 'pink']
wedges1, texts1, autotexts1 = plt.pie(A1, autopct='%3.1f%%', radius=1, pctdistance=0.8,
                                      colors=color, startangle=180, textprops=dict(color='black'),
                                      wedgeprops=dict(width=0.4, edgecolor='w'))
plt.legend(wedges1, labels, fontsize=12, title='地区', loc='center right',
           bbox_to_anchor=(1, 0, 0.3, 1))
plt.title('2017年四个地区生产总值')
plt.show()

数据可视化 第二版 数据可视化第二版李伊pdf_matplotlib_15

import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams["axes.unicode_minus"] = False  # 用来正常显示负号

# 2
labels = ['日用品', '餐饮', '交通', '储蓄', '其他']  # 设定类别
A1 = [1000, 1500, 500, 2000, 1000]
color = ['lightpink', 'hotpink', 'MediumPurple', 'Lavender', 'seashell']
wedges1, texts1, autotexts1 = plt.pie(A1, autopct='%3.1f%%', radius=1, pctdistance=0.8,
                                      colors=color, startangle=180, textprops=dict(color='black'),
                                      wedgeprops=dict(width=0.4, edgecolor='w'))
plt.legend(wedges1, labels, fontsize=12, title='消费种类', loc='center right',
           bbox_to_anchor=(1.1, 0, 0.3, 1))
plt.title('个人消费环形图')
plt.show()

数据可视化 第二版 数据可视化第二版李伊pdf_信息可视化_16

旭日图

参考:
https://pyecharts.org/#/zh-cn/introhttps://pyecharts.org/#/zh-cn/basic_charts?id=sunburst%ef%bc%9a%e6%97%ad%e6%97%a5%e5%9b%be

from pyecharts.charts import Sunburst
from pyecharts import options as opts

data = [
    opts.SunburstItem(
        name="A公司",
        children=[
            opts.SunburstItem(
                name="男装",
                value=15,
                children=[
                    opts.SunburstItem(name="上装", value=8),
                    opts.SunburstItem(name="下装", value=7)]
            ),
            opts.SunburstItem(
                name="女装",
                value=10,
                children=[
                    opts.SunburstItem(name="衬衫", value=5),
                    opts.SunburstItem(name="裙子", value=1),
                    opts.SunburstItem(name="裤子", value=4),
                ],
            ),
        ],
    ),
    opts.SunburstItem(
        name="B公司",
        children=[
            opts.SunburstItem(name="鞋子",
                              children=[
                                  opts.SunburstItem(name="凉鞋", value=1),
                                  opts.SunburstItem(name="运动鞋", value=2),
                              ],
                              )
        ],
    ),

]

sunburst = (
    Sunburst(init_opts=opts.InitOpts(width="600px", height="600px"))
        .add(series_name="", data_pair=data, radius=[0, "90%"])
        .set_global_opts(title_opts=opts.TitleOpts(title="旭日图示例"))
        .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}"))
        .render("旭日图.html")
)

import os
os.system("旭日图.html")

数据可视化 第二版 数据可视化第二版李伊pdf_信息可视化_17

园堆积图

参考:

pip install circlify==0.15.0

代码:

# 圆堆积图
import circlify
import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams["axes.unicode_minus"] = False  # 用来正常显示负号

data = [{'id': '中国', 'datum': 1015986, 'children': [
    {'id': "广东", 'datum': 110760.94,
     'children': [
         {'id': "深圳", 'datum': 27670.24},
         {'id': "广州", 'datum': 25019.11}
     ]},
    {'id': "上海", 'datum': 38700.58},
    {'id': "北京", 'datum': 36102.6},
    {'id': "重庆", 'datum': 25002.79},
    {'id': "浙江", 'datum': 64613,
     'children': [
         {'id': "杭州", 'datum': 16106},
         {'id': "宁波", 'datum': 12408.7},
         {'id': "温州", 'datum': 6870.9}
     ]}
]}]

# 计算圆圈位置
circles = circlify.circlify(
    data,
    show_enclosure=False,
    target_enclosure=circlify.Circle(x=0, y=0, r=1)
)

# 设置画布
fig, ax = plt.subplots(figsize=(4, 4))

# 设置标题
ax.set_title('2020年中国部分地市GDP')
ax.axis('off')

lim = max(
    max(
        abs(circle.x) + circle.r,
        abs(circle.y) + circle.r,
    )
    for circle in circles
)
plt.xlim(-lim, lim)
plt.ylim(-lim, lim)
# 画最高级的圆圈:
for circle in circles:
    if circle.level != 1:
        continue
    x, y, r = circle
    ax.add_patch(plt.Circle((x, y), r, alpha=0.5, linewidth=2, color="yellow"))

# 画第二级的圆圈:
for circle in circles:
    if circle.level != 2:
        continue
    x, y, r = circle
    ax.add_patch(plt.Circle((x, y), r, alpha=0.5, linewidth=2, color="lightblue"))

# 画第三级的圆圈:
for circle in circles:
    if circle.level != 3:
        continue
    x, y, r = circle
    label = circle.ex["id"]
    ax.add_patch(plt.Circle((x, y), r, alpha=0.5, linewidth=2, color="green"))
    plt.annotate(label, (x, y), ha='center', color="black")

# 设置标签
for circle in circles:
    if circle.level != 2:
        continue
    x, y, r = circle
    label = circle.ex["id"]
    plt.annotate(label, (x, y), va='top', ha='center', bbox=dict(edgecolor='blue', pad=.5),
                 fontsize=8)

plt.show()

输出为:

数据可视化 第二版 数据可视化第二版李伊pdf_ci_18

voronoi一般指泰森多边形。 泰森多边形又叫冯洛诺伊图(Voronoi diagram),得名于Georgy Voronoi,是一组由连接两邻点线段的垂直平分线组成的连续多边形。

数据可视化 第二版 数据可视化第二版李伊pdf_ci_19

矩形树图

squarify一种坐标系,包括原点(x和y)和宽度/高度(dx和dy)的值。
从最大值到最小值排序并规范化为总面积(即dx*dy)的正值列表。
将数据生成基于matplotlib的树状图可视化

pip install squarify
# 导入第三方包
import matplotlib.pyplot as plt
import squarify

# 中文及负号处理办法
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams["axes.unicode_minus"] = False  # 用来正常显示负号

# 创建数据
name = ['俄罗斯', '加拿大', '中国', '美国', '巴西', '澳大利亚',
        '印度', '阿根廷', '哈萨克斯坦', '苏丹', '阿尔及利亚']
income = [1707.50, 997.1, 960.1, 936.4, 854.7, 774.1, 328.8, 278, 271.1, 250.6, 238.2]

# 绘图
colors = ['steelblue', '#9999ff', 'red', 'indianred',
          'green', 'yellow', 'orange', 'lightblue', 'gold', 'lightgreen', 'pink']
plot = squarify.plot(sizes=income,  # 指定绘图数据
                     label=name,  # 指定标签
                     color=colors,  # 指定自定义颜色
                     alpha=0.6,  # 指定透明度
                     value=income,  # 添加数值标签
                     edgecolor='white',  # 设置边界框为白色
                     linewidth=3  # 设置边框宽度为3
                     )
# 设置标签大小
plt.rc('font', size=9)
# 设置标题大小
plot.set_title('世界国土面积情况(单位:万平方公里)', fontdict={'fontsize': 16})

# 去除坐标轴
plt.axis('off')
# 去除上边框和右边框刻度
plt.tick_params(top='off', right='off')
# 显示图形
plt.show()

数据可视化 第二版 数据可视化第二版李伊pdf_matplotlib_20

# 导入第三方包
import matplotlib.pyplot as plt
import squarify

# 中文及负号处理办法
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams["axes.unicode_minus"] = False  # 用来正常显示负号

# 2

# # 创建数据
name = ['美国', '加拿大', '中国', '德国', '意大利', '英国', '土耳其', '西班牙']
income = [529951, 23318, 83482, 126266, 152271, 79885, 52167, 163027]

# 绘图
colors = ['royalblue', 'cyan', 'red', 'violet', 'green', 'yellow', 'orange', 'lightblue']
plot = squarify.plot(sizes=income,  # 指定绘图数据
                     label=name,  # 指定标签
                     color=colors,  # 指定自定义颜色
                     alpha=0.5,  # 指定透明度
                     value=income,  # 添加数值标签
                     linewidth=3  # 设置边框宽度为3
                     )
# 设置标签大小
plt.rc('font', size=9)
# 设置标题大小
plot.set_title('截止2020年4月12日的新冠肺炎感染人数', fontdict={'fontsize': 16})

# 去除坐标轴
plt.axis('off')
# 去除上边框和右边框刻度
plt.tick_params(top='off', right='off')
# 显示图形
plt.show()

数据可视化 第二版 数据可视化第二版李伊pdf_python_21

漏斗图

基于matplot’lib的漏斗图

# 漏斗图1

import numpy as np
import matplotlib.pyplot as plt
from matplotlib.patches import Polygon
# Polygon()可以用来传入按顺序组织的多边形顶点,从而生成出多边形
from matplotlib.collections import PatchCollection

plt.style.use('seaborn-dark')  # 设置主题
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams["axes.unicode_minus"] = False  # 用来正常显示负号

data = [135043, 113413, 74909, 10366, 9018, 4151]
phase = ['总访客数量  ', '活跃访客数量', '注册用户数量', '预定用户数量', '支付用户数量', '复购用户数量']
visitor_num = 135043
data1 = [visitor_num / 2 - i / 2 for i in data]
data2 = [i + j for i, j in zip(data, data1)]
color_list = ['#5c1d1d', '#892c2c', '#994a4a', '#c56161', '#d48989', '#e2b0b0']  # 柱子颜色

fig, ax = plt.subplots(figsize=(16, 9), facecolor='#f4f4f4')
ax.barh(phase[::-1], data2[::-1], color=color_list, height=0.7)  # 柱宽设置为0.7
ax.barh(phase[::-1], data1[::-1], color='#f4f4f4', height=0.7)  # 设置成背景同色
ax.axis('off')

polygons = []
for i in range(len(data)):
    # 阶段
    ax.text(
        0,  # 坐标
        i,  # 高度
        phase[::-1][i],  # 文本
        color='black', alpha=0.8, size=16, ha="right")

    # 数量
    ax.text(
        data2[0] / 2,
        i,
        str(data[::-1][i]) + '(' + str(round(data[::-1][i] / data[0] * 100, 1)) + '%)',
        color='black', alpha=0.8, size=18, ha="center")

    if i < 5:
        # 比例
        ax.text(
            data2[0] / 2,
            4.4 - i,
            str(round(data[i + 1] / data[i], 3) * 100) + '%',
            color='black', alpha=0.8, size=16, ha="center")

        # 绘制多边形
        polygons.append(Polygon(xy=np.array([(data1[i + 1], 4 + 0.35 - i),
                                             # 因为柱状图的宽度设置成了0.7,所以一半便是0.35
                                             (data2[i + 1], 4 + 0.35 - i),
                                             (data2[i], 5 - 0.35 - i),
                                             (data1[i], 5 - 0.35 - i)])))

# 使用add_collection与PatchCollection来向Axes上添加多边形
ax.add_collection(PatchCollection(polygons,
                                  facecolor='#e2b0b0',
                                  alpha=0.8));
plt.title("商品购买情况分析", fontsize=18)
plt.show()

数据可视化 第二版 数据可视化第二版李伊pdf_python_22

基于pyecharts的漏斗图

pip install openpyxl
# 漏斗图2
import pandas as pd
import os
os.chdir(os.path.dirname(os.path.realpath(__file__)))
data = pd.read_excel('漏斗图.xlsx', 'Sheet1')
attrs = data['环节'].tolist()
attr_value = data['人数'].tolist()
from pyecharts import options as opts
from pyecharts.charts import Funnel

c = (
    Funnel()
        .add("商品", [list(z) for z in zip(attrs, attr_value)],
             label_opts=opts.LabelOpts(position="inside"),
             )
        .set_global_opts(title_opts=opts.TitleOpts(title="漏斗图示例"))
        .render("漏斗图.html")
)

import os

os.system("漏斗图.html")

输出为:

数据可视化 第二版 数据可视化第二版李伊pdf_ci_23

基于pyecharts的治愈率漏斗图

from pyecharts import options as opts
from pyecharts.charts import Funnel

data = [13500, 10000, 9000, 7000]
phase = ['检查', '阳性', '手术治疗', '治愈']

c = (
    Funnel()
        .add("阶段", [list(z) for z in zip(phase, data)])
        .set_global_opts(title_opts=opts.TitleOpts(title="漏斗图"))
        .render("治愈率漏斗图.html")
)

import os

os.system("治愈率漏斗图.html")

数据可视化 第二版 数据可视化第二版李伊pdf_ci_24

虚拟环境相关命令汇集

激活conda

d:\ProgramData\Anaconda3\Scripts\activate

创建python版本的命令

conda create -n py10 python=3.10

查看当前的python版本

conda env list

切换到指定的python版本

conda activate py10

激活虚拟环境后,安装python虚拟环境

python -m venv venv202302

切换路径到文件当前路径

import os
print(os.getcwd(),"-----------------")
# os.chdir("./")
os.chdir(os.path.dirname(os.path.realpath(__file__)))
print(os.getcwd(),"-----------------")

临时使用阿里镜像安装python包

pip install 包名 -i https://mirrors.aliyun.com/pypi/simple/

持久使用阿里镜像安装python包

pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/

教材截图

数据可视化 第二版 数据可视化第二版李伊pdf_ci_25