Python实战—尾鸢花数据集数据分析

原创

大话数据分析 2022-11-10 09:17:50 ©著作权

文章标签 数据 ico python 文章分类 虚拟化云计算

©著作权归作者所有：来自51CTO博客作者大话数据分析的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python实战—尾鸢花数据集数据分析_ico

Python实战—尾鸢花数据集数据分析_python_02

最近可是在学习啊

在家上网课

一定要把持住自己

我保证上课不磕瓜子

Python实战—尾鸢花数据集数据分析_ico_03

Python实战—尾鸢花数据集数据分析_python_04

本节所使用的尾鸢花数据集是Python中自带的数据集，常用于机器学习分类算法模型，其中sepal_length_cm、sepal_width_cm、petal_length_cm、petal_width_cm、class字段代表的含义分别是花萼长度、花萼宽度、花瓣长度、花瓣宽度、尾鸢花的类别。

一、数据来源

from pandas import Series,DataFrame
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns  #导入seaborn绘图库
%matplotlib inline

iris_data = pd.read_csv(open('D:\python数据分析\数据\iris-data.csv'))
iris_data.head()

Python实战—尾鸢花数据集数据分析_ico_05

二、问题探索

通过数据可视化和分析，按照尾鸢花的特征分出尾鸢花的类别。

三、数据清洗

iris_data.shape

(150, 5)

共有150条数据，5列。

iris_data.describe()

Python实战—尾鸢花数据集数据分析_数据_06

由描述统计可以看出，数据没有缺失值。

iris_data['class'].unique() #查看唯一值

array(['Iris-setosa', 'Iris-setossa', 'Iris-versicolor', 'versicolor','Iris-virginica'], dtype=object)

iris_data.ix[iris_data['class'] == 'versicolor', 'class'] = 'Iris-versicolor'
iris_data.ix[iris_data['class'] == 'Iris-setossa', 'class'] = 'Iris-setosa'
iris_data['class'].unique() #查看唯一值

array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], dtype=object)

sns.pairplot(iris_data, hue='class')

Python实战—尾鸢花数据集数据分析_ico_07

利用seaborn绘制散点图矩阵，通过第一列可看出，有几个Iris-versicolor样本中的sepal_length_cm值偏移了大部分的点，通过第二行可看出，一个Iris-setosa样本的sepal_width_cm值偏离了大部分点。

iris_data.ix[iris_data['class'] == 'Iris-setosa', 'sepal_width_cm'].hist()

Python实战—尾鸢花数据集数据分析_ico_08

对通过Iris-setosa的花萼宽度绘制直方图也能观测出异常。

过滤小于2.5cm的数据后再做直方图。

iris_data = iris_data.loc[(iris_data['class'] != 'Iris-setosa') | (iris_data['sepal_width_cm'] >= 2.5)]iris_data.loc[iris_data['class'] == 'Iris-setosa', 'sepal_width_cm'].hist()

Python实战—尾鸢花数据集数据分析_数据_09

通过索引选取Iris-versicolor样本中sepal_length值小于0.1的数据，选取异常数据。

iris_data.loc[(iris_data['class'] == 'Iris-versicolor') &(iris_data['sepal_length_cm'] < 1.0)]

Python实战—尾鸢花数据集数据分析_数据_10

iris_data.loc[(iris_data['class'] == 'Iris-versicolor') &(iris_data['sepal_length_cm'] < 1.0),'sepal_length_cm'] *= 100.0

发现花瓣宽度有5条缺失值，由于3种分类数据样本均衡，直接将缺失值删除处理。

iris_data.isnull().sum()

Python实战—尾鸢花数据集数据分析_python_11

发现花瓣宽度有5条缺失值。

iris_data[iris_data['petal_width_cm'].isnull()] #处理缺失值

Python实战—尾鸢花数据集数据分析_python_12

iris_data.dropna(inplace=True)

iris_data.to_csv('D:\python数据分析\数据\iris-clean-data.csv', index=False) #保存清洗后的数据

iris_data = pd.read_csv(open('D:\python数据分析\数据\iris-clean-data.csv'))
iris_data.head()

Python实战—尾鸢花数据集数据分析_数据_13

iris_data.shape

(144, 5)

数据清洗后，有144条数据，5列。

四、数据探索

sns.pairplot(iris_data, hue='class')

Python实战—尾鸢花数据集数据分析_ico_14

绘制散点矩阵图可以发现，大部分情况下数据接近正态分布，而且Iris-setosa与其他两种花是线性可分的，其他两种花型可能需要非线性算法进行分类。

iris_data.boxplot(column='petal_length_cm', by='class',grid=False,figsize=(6,6))

Python实战—尾鸢花数据集数据分析_数据_15

通过petal_length_cm（花瓣长度）可以轻松区分Iris-setosa与其他两种花。

Python实战—尾鸢花数据集数据分析_python_04

以上就是今天推送的文章

研究尾鸢花数据集的分类情况

数据分析就是将实际生活问题

数据处理并且可视化的过程

“纸上得来终觉浅，

绝知此事要躬行”

一起加油

Python实战—尾鸢花数据集数据分析_数据_17

Python实战—尾鸢花数据集数据分析_数据_18

Python实战—尾鸢花数据集数据分析_python_19

上一篇：文本挖掘工具ROSTCM6软件安装

下一篇：Anaconda修改国内镜像源

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯