Python自带的数据集
在Python的生态系统中,有很多可用于数据分析和机器学习的模块和库。其中,Python自带了一些常用的数据集,这些数据集可以帮助我们在学习和实践中进行分析和建模。本文将介绍一些常用的Python自带数据集,并提供相应的代码示例。
1. iris
数据集
iris
数据集是机器学习领域中最常用的数据集之一,它包含了150个样本,每个样本有4个特征:花萼长度、花萼宽度、花瓣长度和花瓣宽度。这些样本分为3个类别:Setosa、Versicolour和Virginica。下面是如何使用sklearn.datasets
模块加载iris
数据集的代码示例:
from sklearn.datasets import load_iris
iris = load_iris()
data = iris.data
target = iris.target
print(data.shape)
print(target.shape)
运行上述代码,将输出数据集的形状(150,4)和目标值的形状(150,)。
2. digits
数据集
digits
数据集包含了一系列手写数字的图像样本,每个样本是一个8x8像素的灰度图像。这些样本分为10个类别(数字0-9),每个类别有至少150个样本。下面是如何使用sklearn.datasets
模块加载digits
数据集的代码示例:
from sklearn.datasets import load_digits
digits = load_digits()
data = digits.data
target = digits.target
print(data.shape)
print(target.shape)
运行上述代码,将输出数据集的形状(1797,64)和目标值的形状(1797,)。
3. boston
数据集
boston
数据集是一个经典的回归问题数据集,它包含了506个样本,每个样本有13个特征:房屋各项特征(如犯罪率、房间数等)。目标值是房屋价格的中位数。下面是如何使用sklearn.datasets
模块加载boston
数据集的代码示例:
from sklearn.datasets import load_boston
boston = load_boston()
data = boston.data
target = boston.target
print(data.shape)
print(target.shape)
运行上述代码,将输出数据集的形状(506,13)和目标值的形状(506,)。
4. wine
数据集
wine
数据集包含了178个葡萄酒样本,每个样本有13个特征:酒的各项化学成分(如酒精含量、酸度等)。这些样本分为3个类别:Class_0、Class_1和Class_2。下面是如何使用sklearn.datasets
模块加载wine
数据集的代码示例:
from sklearn.datasets import load_wine
wine = load_wine()
data = wine.data
target = wine.target
print(data.shape)
print(target.shape)
运行上述代码,将输出数据集的形状(178,13)和目标值的形状(178,)。
5. diabetes
数据集
diabetes
数据集包含了442个糖尿病患者的生理指标数据,每个样本有10个特征:血压、血清胰岛素等。目标值是1年后疾病级数的测量。下面是如何使用sklearn.datasets
模块加载diabetes
数据集的代码示例:
from sklearn.datasets import load_diabetes
diabetes = load_diabetes()
data = diabetes.data
target = diabetes.target
print(data.shape)
print(target.shape)
运行上述代码,将输出数据集的形状(442,10)和目标值的形状(442,)。
总结
本文介绍了一些Python自带的常用数据集,并提供了相应的代码示例。这些数据集可以帮助我们在学习和实践中进行数据分析和机器学习任务。