python自带的数据集有哪些

原创

mob649e81597922 2023-07-17 03:08:03 ©著作权

©著作权归作者所有：来自51CTO博客作者mob649e81597922的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python自带的数据集

在Python的生态系统中，有很多可用于数据分析和机器学习的模块和库。其中，Python自带了一些常用的数据集，这些数据集可以帮助我们在学习和实践中进行分析和建模。本文将介绍一些常用的Python自带数据集，并提供相应的代码示例。

1. `iris`数据集

iris数据集是机器学习领域中最常用的数据集之一，它包含了150个样本，每个样本有4个特征：花萼长度、花萼宽度、花瓣长度和花瓣宽度。这些样本分为3个类别：Setosa、Versicolour和Virginica。下面是如何使用sklearn.datasets模块加载iris数据集的代码示例：

from sklearn.datasets import load_iris

iris = load_iris()
data = iris.data
target = iris.target

print(data.shape)
print(target.shape)

运行上述代码，将输出数据集的形状（150，4）和目标值的形状（150，）。

2. `digits`数据集

digits数据集包含了一系列手写数字的图像样本，每个样本是一个8x8像素的灰度图像。这些样本分为10个类别（数字0-9），每个类别有至少150个样本。下面是如何使用sklearn.datasets模块加载digits数据集的代码示例：

from sklearn.datasets import load_digits

digits = load_digits()
data = digits.data
target = digits.target

print(data.shape)
print(target.shape)

运行上述代码，将输出数据集的形状（1797，64）和目标值的形状（1797，）。

3. `boston`数据集

boston数据集是一个经典的回归问题数据集，它包含了506个样本，每个样本有13个特征：房屋各项特征（如犯罪率、房间数等）。目标值是房屋价格的中位数。下面是如何使用sklearn.datasets模块加载boston数据集的代码示例：

from sklearn.datasets import load_boston

boston = load_boston()
data = boston.data
target = boston.target

print(data.shape)
print(target.shape)

运行上述代码，将输出数据集的形状（506，13）和目标值的形状（506，）。

4. `wine`数据集

wine数据集包含了178个葡萄酒样本，每个样本有13个特征：酒的各项化学成分（如酒精含量、酸度等）。这些样本分为3个类别：Class_0、Class_1和Class_2。下面是如何使用sklearn.datasets模块加载wine数据集的代码示例：

from sklearn.datasets import load_wine

wine = load_wine()
data = wine.data
target = wine.target

print(data.shape)
print(target.shape)

运行上述代码，将输出数据集的形状（178，13）和目标值的形状（178，）。

5. `diabetes`数据集

diabetes数据集包含了442个糖尿病患者的生理指标数据，每个样本有10个特征：血压、血清胰岛素等。目标值是1年后疾病级数的测量。下面是如何使用sklearn.datasets模块加载diabetes数据集的代码示例：

from sklearn.datasets import load_diabetes

diabetes = load_diabetes()
data = diabetes.data
target = diabetes.target

print(data.shape)
print(target.shape)

运行上述代码，将输出数据集的形状（442，10）和目标值的形状（442，）。