一.10个可视化例子

import matplotlib.pyplot as plt

import seaborn as sns

import numpy as np

import pandas as pd

1.散点图

plt: plt.scatter(x, y, marker=None) 函数。x、y 是坐标,marker 代表了标记的符号。比如“x”、“>”或者“o”。选择不同的 marker,呈现出来的符号样式也会不同。

sns: sns.jointplot(x, y, data=None, kind=‘scatter’) 函数。其中 x、y 是 data 中的下标。data 就是我们要传入的数据,一般是 DataFrame 类型。kind 这类我们取 scatter,代表散点的意思。当然 kind 还可以取其他值,这个我在后面的视图中会讲到,不同的 kind 代表不同的视图绘制方式。

matplotlib绘制的视图为矩形,seaborn为方形,且还额外显示x,y的直方图分布

# 随机1000个点,模拟绘制

n = 1000

x = np.random.randn(n)

y = np.random.randn(n)

# use matplotlib to draw

plt.scatter(x, y , marker='x')

plt.show()

plt.scatter(x, y , marker='>')

plt.show()

plt.scatter(x, y , marker='o')

plt.show()

#?plt.scatter

# use seaborn to draw

df = pd.DataFrame({'x':x, 'y':y})

sns.jointplot(x='x', y='y', data=df, kind='scatter')

plt.show()

2.折线图

表示数据随时间变化趋势

在 Matplotlib 中,我们可以直接使用 plt.plot() 函数,当然需要提前把数据按照 x 轴的大小进行排序,要不画出来的折线图就无法按照 x 轴递增的顺序展示。

在 Seaborn 中,我们使用 sns.lineplot (x, y, data=None) 函数。其中 x、y 是 data 中的下标。data 就是我们要传入的数据,一般是 DataFrame 类型。

这里我们设置了 x、y 的数组。x 数组代表时间(年),y 数组我们随便设置几个取值

两个库绘制出来结果一致。

# data

x = [2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019]

y = [5, 3, 6, 20, 17, 16, 19, 30, 32, 35]

# use matplotlib

plt.plot(x, y)

plt.show()

# use seaborn

df = pd.DataFrame({'x':x, 'y':y})

sns.lineplot(x='x', y='y', data=df)

plt.show()

3. 直方图

直方图用以查看变量的数值分布。

在 Matplotlib 中,我们使用 plt.hist(x, bins=10) 函数,其中参数 x 是一维数组,bins 代表直方图中的箱子数量,默认是 10。

在 Seaborn 中,我们使用 sns.distplot(x, bins=10, kde=True) 函数。其中参数 x 是一维数组,bins 代表直方图中的箱子数量,kde 代表显示核密度估计,默认是 True,我们也可以把 kde 设置为 False,不进行显示。

核密度估计是通过核函数帮我们来估计概率密度的方法。

# data

a = np.random.randn(100)

s = pd.Series(a)

# use matplotlib

plt.hist(s)

plt.show()

# use seaborn

sns.distplot(s, kde=False)

plt.show()

sns.distplot(s, kde=True)

plt.show()

4.条形图

条形图查看类别特征。

在条形图中,长条形的长度表示类别的频数,宽度表示类别。

在 Matplotlib 中,我们使用 plt.bar(x, height) 函数,其中参数 x 代表 x 轴的位置序列,height 是 y 轴的数值序列,也就是柱子的高度。

在 Seaborn 中,我们使用 sns.barplot(x=None, y=None, data=None) 函数。其中参数 data 为 DataFrame 类型,x、y 是 data 中的变量。

# data

x = ['cat1', 'cat2', 'cat3', 'cat4', 'cat5'] # 类别

y = [5, 4, 8, 12, 7] # 频数

# use matplotlib

plt.bar(x, y)

plt.show()

# use seaborn

sns.barplot(x, y)

plt.show()

5. 箱线图

箱线图,又称盒式图,它是在 1977 年提出的,由五个数值点组成:最大值 (max)、最小值 (min)、中位数 (median) 和上下四分位数 (Q3, Q1)。

它可以帮我们分析出数据的差异性、离散程度和异常值等。

在 Matplotlib 中,我们使用 plt.boxplot(x, labels=None) 函数,其中参数 x 代表要绘制箱线图的数据,labels 是缺省值,可以为箱线图添加标签。

在 Seaborn 中,我们使用 sns.boxplot(x=None, y=None, data=None) 函数。其中参数 data 为 DataFrame 类型,x、y 是 data 中的变量。

# data:10*4维度

data = np.random.normal(size=(10, 4)) # [0,1]10*4维数据

lables = ['A', 'B', 'C', 'D']

data

array([[-2.23835375, 0.86815454, -0.03632889, 0.7446558 ],

[-1.10741816, -0.78987338, 0.74452918, -0.64852577],

[ 1.38908051, -1.00353393, -1.92624668, 0.2354071 ],

[ 1.88915876, 1.26500499, 0.32391999, -0.06991769],

[-0.76832767, -0.9832141 , -0.02364687, 0.20468148],

[-1.11151298, 0.70348759, 1.57796211, 0.30206291],

[-0.11900145, 0.35820823, -1.37098595, 1.64935728],

[-0.74382552, 0.32722696, -0.59096453, 0.8708664 ],

[-1.21016063, 0.97042535, 1.31342357, -0.68687588],

[ 0.23279038, -0.4774945 , 0.3546045 , 0.82579075]])

# use matplotlib

plt.boxplot(data, labels=lables)

plt.show()

# use seaborn

df = pd.DataFrame(data, columns=lables)

sns.boxplot(data=df)

plt.show()

6.饼图

饼图是常用的统计学模块,可以显示每个部分大小与总和之间的比例。

在 Python 数据可视化中,它用的不算多。

我们主要采用 Matplotlib 的 pie 函数实现它。在 Matplotlib 中,我们使用 plt.pie(x, labels=None) 函数,其中参数 x 代表要绘制饼图的数据,labels 是缺省值,可以为饼图添加标签。

# data

nums = [25, 37, 33, 37, 6]

labels = ['high-school', 'bachelor', 'master', 'ph.d', 'others']

# matplotlib

plt.pie(x=nums, labels=labels)

plt.show()

7.热力图

热力图,英文叫 heat map,是一种矩阵表示方法,其中矩阵中的元素值用颜色来代表,不同的颜色代表不同大小的值。

通过颜色就能直观地知道某个位置上数值的大小。另外你也可以将这个位置上的颜色,与数据集中的其他位置颜色进行比较。

热力图是一种非常直观的多元变量分析方法。

我们一般使用 Seaborn 中的 sns.heatmap(data) 函数,其中 data 代表需要绘制的热力图数据。

# data

# 使用 Seaborn 中自带的数据集 flights,该数据集记录了 1949 年到 1960 年期间,每个月的航班乘客的数量。

flights = pd.read_excel('flights.xlsx')

data = flights.pivot('year', 'month', 'passengers')

data.head()monthAprilAugustDecemberFebruaryJanuaryJulyJuneMarchMayNovemberOctoberSeptemberyear

# use seaborn

sns.heatmap(data)

plt.show()

# 颜色越浅乘客越多

8.蜘蛛图/雷达图

蜘蛛图是一种显示一对多关系的方法。在蜘蛛图中,一个变量相对于另一个变量的显著性是清晰可见的。

假设我们想要给王者荣耀的玩家做一个战力图,指标一共包括推进、KDA、生存、团战、发育和输出。那该如何做呢?

这里我们需要使用 Matplotlib 来进行画图,首先设置两个数组:labels 和 stats。

他们分别保存了这些属性的名称和属性值。

因为蜘蛛图是一个圆形,你需要计算每个坐标的角度,然后对这些数值进行设置。

当画完最后一个点后,需要与第一个点进行连线。

因为需要计算角度,所以我们要准备 angles 数组;又因为需要设定统计结果的数值,所以我们要设定 stats 数组。并且需要在原有 angles 和 stats 数组上增加一位,也就是添加数组的第一个元素。

from matplotlib.font_manager import FontProperties

# data

labels = np.array(['推进','kda', '生存', '团战', '发育', '输出'])

stats = [83, 61, 95, 67, 76, 88]

# 角度,状态值

angles = np.linspace(0, 2*np.pi, len(labels), endpoint=False)

stats = np.concatenate((stats, [stats[0]]))

angles = np.concatenate((angles, [angles[0]]))

# use matplotlib

fig = plt.figure() # 准备一个空白画板

ax = fig.add_subplot(111, polar=True) # 画板分成1行1列

ax.plot(angles, stats, alpha=0.25) # 连线

ax.fill(angles, stats, alpha=0.25) # 上色

#设置中文字体

#font = FontProperties(fname=r'', size=14)

ax.set_thetagrids(angles * 180 / np.pi, labels) # 显示属性名

plt.show()

9.二元变量分布

如果我们想要看两个变量之间的关系,就需要用到二元变量分布。

当然二元变量分布有多种呈现方式,开头给你介绍的散点图就是一种二元变量分布。

在 Seaborn 里,使用二元变量分布是非常方便的,直接使用 sns.jointplot(x, y, data=None, kind) 函数即可。

其中用 kind 表示不同的视图类型:“kind=‘scatter’”代表散点图,“kind=‘kde’”代表核密度图,“kind=‘hex’ ”代表 Hexbin 图,它代表的是直方图的二维模拟。

这里我们使用 Seaborn 中自带的数据集 tips,这个数据集记录了不同顾客在餐厅的消费账单及小费情况。

代码中 total_bill 保存了客户的账单金额,tip 是该客户给出的小费金额。

我们可以用 Seaborn 中的 jointplot 来探索这两个变量之间的关系。

# data

tips = pd.read_excel('tips.xlsx')

tips.head()total_billtipsexsmokerdaytimesize

# 用Seaborn画二元变量分布图(散点图,核密度图,Hexbin图)

sns.jointplot(x='total_bill', y='tip', data=tips, kind='scatter') # 散点图

sns.jointplot(x='total_bill', y='tip', data=tips, kind='kde') # 核密度图

sns.jointplot(x='total_bill', y='tip', data=tips, kind='hex') # hexbin图

plt.show()

10.成对关系

如果想要探索数据集中的多个成对双变量的分布,可以直接采用 sns.pairplot() 函数。

它会同时展示出 DataFrame 中每对变量的关系,另外在对角线上,你能看到每个变量自身作为单变量的分布情况。

它可以说是探索性分析中的常用函数,可以很快帮我们理解变量对之间的关系。

pairplot 函数的使用,就像在 DataFrame 中使用 describe() 函数一样方便,是数据探索中的常用函数。

# data

#使用 Seaborn 中自带的 iris 数据集,这个数据集也叫鸢尾花数据集。

#鸢尾花可以分成 Setosa、Versicolour 和 Virginica 三个品种,

#在这个数据集中,针对每一个品种,都有 50 个数据,每个数据中包括了 4 个属性,

#分别是花萼长度、花萼宽度、花瓣长度和花瓣宽度。

#通过这些数据,需要你来预测鸢尾花卉属于三个品种中的哪一种。

iris = pd.read_csv('seaborn-data-master/iris.csv')

iris.head()sepal_lengthsepal_widthpetal_lengthpetal_widthspecies

# use seaborn

sns.pairplot(iris)

plt.show()

# 显示了4个变量两两之间的关系:

# sepal_length、sepal_width、petal_length 和 petal_width4,对应:

# 花萼长度、花萼宽度、花瓣长度和花瓣宽度

二.可视化库一览

1.seaborn

Seaborn是基于matplotlib的Python数据可视化库。它提供了一个高级界面,用于绘制引人入胜且内容丰富的统计图形。

类似于:pandas比之numpy。

案例:

以下是相关绘制的api。

2.matplot

3.scipy

4.plotly