Python自带的数据集

在Python的生态系统中,有很多可用于数据分析和机器学习的模块和库。其中,Python自带了一些常用的数据集,这些数据集可以帮助我们在学习和实践中进行分析和建模。本文将介绍一些常用的Python自带数据集,并提供相应的代码示例。

1. iris数据集

iris数据集是机器学习领域中最常用的数据集之一,它包含了150个样本,每个样本有4个特征:花萼长度、花萼宽度、花瓣长度和花瓣宽度。这些样本分为3个类别:Setosa、Versicolour和Virginica。下面是如何使用sklearn.datasets模块加载iris数据集的代码示例:

from sklearn.datasets import load_iris

iris = load_iris()
data = iris.data
target = iris.target

print(data.shape)
print(target.shape)

运行上述代码,将输出数据集的形状(150,4)和目标值的形状(150,)。

2. digits数据集

digits数据集包含了一系列手写数字的图像样本,每个样本是一个8x8像素的灰度图像。这些样本分为10个类别(数字0-9),每个类别有至少150个样本。下面是如何使用sklearn.datasets模块加载digits数据集的代码示例:

from sklearn.datasets import load_digits

digits = load_digits()
data = digits.data
target = digits.target

print(data.shape)
print(target.shape)

运行上述代码,将输出数据集的形状(1797,64)和目标值的形状(1797,)。

3. boston数据集

boston数据集是一个经典的回归问题数据集,它包含了506个样本,每个样本有13个特征:房屋各项特征(如犯罪率、房间数等)。目标值是房屋价格的中位数。下面是如何使用sklearn.datasets模块加载boston数据集的代码示例:

from sklearn.datasets import load_boston

boston = load_boston()
data = boston.data
target = boston.target

print(data.shape)
print(target.shape)

运行上述代码,将输出数据集的形状(506,13)和目标值的形状(506,)。

4. wine数据集

wine数据集包含了178个葡萄酒样本,每个样本有13个特征:酒的各项化学成分(如酒精含量、酸度等)。这些样本分为3个类别:Class_0、Class_1和Class_2。下面是如何使用sklearn.datasets模块加载wine数据集的代码示例:

from sklearn.datasets import load_wine

wine = load_wine()
data = wine.data
target = wine.target

print(data.shape)
print(target.shape)

运行上述代码,将输出数据集的形状(178,13)和目标值的形状(178,)。

5. diabetes数据集

diabetes数据集包含了442个糖尿病患者的生理指标数据,每个样本有10个特征:血压、血清胰岛素等。目标值是1年后疾病级数的测量。下面是如何使用sklearn.datasets模块加载diabetes数据集的代码示例:

from sklearn.datasets import load_diabetes

diabetes = load_diabetes()
data = diabetes.data
target = diabetes.target

print(data.shape)
print(target.shape)

运行上述代码,将输出数据集的形状(442,10)和目标值的形状(442,)。

总结

本文介绍了一些Python自带的常用数据集,并提供了相应的代码示例。这些数据集可以帮助我们在学习和实践中进行数据分析和机器学习任务。