1. 数据集作用

sklearn机器学习包中包含了多个自带的数据集,用于对机器学习模型的学习和理解。

2. 数据集使用

其数据集的使用和调用过程如下所示(以鸢尾花数据为例):

#!/use/bin/python
# -*- coding:utf-8 -*-
import pandas as pd
import numpy as np
import sys, os, re
from sklearn.datasets import load_iris

iris = load_iris()
x = iris.data # 获得数据集的特征值,数据个数 * 特征个数的二维数组形式
y = iris.target # 获得数据集的数字化后的每个数据的标签组成的数组
x_features = iris.feature_names # 返回数据集特征的列表 ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
y_label = iris.target_names # 返回数据集的标签列表 array(['setosa', 'versicolor', 'virginica'], dtype='<U10')
iris_desc = iris.DESCR # 返回数据集的描述信息
iris_filename = iris.filename # 返回数据集所在的路径

print("数据集数据的形状:", x.shape)
print("数据集特征(前五个数据):\n", x[:5,:])
print("数据集的标签:\n", y)
print("数据集特征:\n", x_features)
print("数据集标签集合:\n", y_label)
print("数据集所在文件的路径:\n", iris_filename)

机器学习-sklearn数据集汇总_机器学习

3. 数据集种类

sklearn包含的常见数据集如下:

模块

数据集

大小

load_iris()

鸢尾花数据集

150 *4

load_boston()

波士顿房价数据

506 *13

load_wine()

葡萄酒数据集

178*13

load_digits()

手写体数字光学识别数据集

1797*64

load_breast_cancer()

乳腺癌数据集

569*30

load_diabetes()

糖尿病数据集

442 *10

load_linnerud()

体能训练

20*3

load_sample_images()

图像数据集(2个图像:中国和花朵)

427*640*3