首先,这个Python数据可视化实战是在Iris数据集上完成的。所使用的是Python 3环境下的jupyter notebook。

实战中我们需要用到的库包括:pandas , matplotlib , seaborn.

%matplotlib notebook #在jupyter notebook使用交互式绘图
# 首先,我们导入pandas, 一个可用于数据处理和CSV文件输出输出的库
import pandas as pd

# 同时导入seaborn, 一个Python里面的图形库
import warnings # 当前版本的seaborn会生成一堆警告,我们会忽略它
warnings.filterwarnings("ignore")
import seaborn as sns
import matplotlib.pyplot as plt
sns.set(style="white", color_codes=True)

# 接着我们导入Iris flower 数据集, 这个数据集是在路径"../input/" 下面
iris = pd.read_csv("./input/iris.csv") # the iris dataset is now a Pandas DataFrame

#Jupyter notebooks显示数据集的前5行
iris.head()

# 按下shift+enter来执行单元格

Python对iris数据集绘图 python导入iris数据集_数据集

 

# 统计每个品种有多少个样本
iris["Species"].value_counts()


setosa 50 virginica 50 versicolor 50 Name: Species, dtype: int64


# 第一种方法我们用Pandas dataframes扩展的.plot来画图
# 我们将用这个来画出irisz中Sepal_Length和Sepal_Width特征的散点图。
iris.plot(kind="scatter", x="Sepal_Length", y="Sepal_Width")

Python对iris数据集绘图 python导入iris数据集_Python_02

# 我们也可以使用seaborn库来话相似的图
# 一个seaborn的结合图在同一图中显示了双变量散点图和单变量直方图
sns.jointplot(x="Sepal_Length", y="Sepal_Width", data=iris, size=5)

 

Python对iris数据集绘图 python导入iris数据集_html_03

# 在上面的图中缺失的一些信息是每一种植物的种类
# 我们将使用seaborn的FacetGrid来为散点图上色
sns.FacetGrid(iris, hue="Species", size=5) \
   .map(plt.scatter, "Sepal_Length", "Sepal_Width") \
   .add_legend()

 

Python对iris数据集绘图 python导入iris数据集_html_04

# 我们可以通过一个箱形图来查看seaborn的单独的一个特征
sns.boxplot(x="Species", y="Petal_Length", data=iris)

Python对iris数据集绘图 python导入iris数据集_数据集_05

# 我们可以通过用seaborn的striplot添加单独的点来扩展上图
# 
# 我们将使用jitter=True,这样所有的点都不会落在物种的单条垂直线上
#
# 每次将产生的轴作为ax,每次都会导致结果图显示在前面的axes上
ax = sns.boxplot(x="Species", y="Petal_Length", data=iris)
ax = sns.stripplot(x="Species", y="Petal_Length", data=iris, jitter=True, edgecolor="gray")

 

Python对iris数据集绘图 python导入iris数据集_Python_06

# violinplot结合了前两个plot的优点并简化了它们
# 在violinplot中,更密集的数据区域更胖,更稀疏的数据区域更薄
sns.violinplot(x="Species", y="Petal_Length", data=iris, size=6)

Python对iris数据集绘图 python导入iris数据集_html_07

# 最后一个用于研究单变量关系的seaborn plot是kdeplot,它创建并可视化了底层特性的内核密度估计
sns.FacetGrid(iris, hue="Species", size=6) \
   .map(sns.kdeplot, "Petal_Length") \
   .add_legend()

 

Python对iris数据集绘图 python导入iris数据集_html_08

# 另一个有用的seaborn plot是pairplot,它显示了每一对特征之间的双变量关系
# 从pairplot中,我们可以看到Iris-setosa物种在所有特征组合中与另外两种都是分离的
sns.pairplot(iris.drop("ID", axis=1), hue="Species", size=3)

Python对iris数据集绘图 python导入iris数据集_html_09

# 在pairplot中,对角线元素在默认情况下显示了直方图
# 我们可以更新这些元素以显示其他东西,比如kde
sns.pairplot(iris.drop("ID", axis=1), hue="Species", size=3, diag_kind="kde")

 

Python对iris数据集绘图 python导入iris数据集_html_10

# 讲解完seaborn之后,让我们回到pandas中
# 我们可以快速制作一个Pandas的箱形图,每个特征按物种划分
iris.drop("ID", axis=1).boxplot(by="Species", figsize=(12, 6))

Python对iris数据集绘图 python导入iris数据集_Python_11

# Andrews曲线涉及使用样本的属性作为傅立叶级数的系数,然后进行绘制
from pandas.tools.plotting import andrews_curves
andrews_curves(iris.drop("ID", axis=1), "Species")

 

Python对iris数据集绘图 python导入iris数据集_html_12

# pandas另一种多变量可视化技术是parallel_coordinates
# 平行坐标在单独的列上绘制每个特征。然后绘制连接每个数据样本要素的线条
from pandas.tools.plotting import parallel_coordinates
parallel_coordinates(iris.drop("ID", axis=1), "Species")

 

Python对iris数据集绘图 python导入iris数据集_Python_13

# pandas最后的多变量可视化技术是radviz,它将每个特征作为一个点放在2D平面上,然后通过由该特征的相对值加权的跳跃加到这些点上来模拟每个样本
from pandas.tools.plotting import radviz
radviz(iris.drop("ID", axis=1), "Species")

 

Python对iris数据集绘图 python导入iris数据集_Python_14