机器学习-sklearn数据集汇总

原创

终黑极客 2021-12-07 08:23:29 博主文章分类：机器学习 ©著作权

文章标签 数据集数据机器学习 ico git 文章分类 机器学习人工智能

©著作权归作者所有：来自51CTO博客作者终黑极客的原创作品，请联系作者获取转载授权，否则将追究法律责任

1. 数据集作用

sklearn机器学习包中包含了多个自带的数据集，用于对机器学习模型的学习和理解。

2. 数据集使用

其数据集的使用和调用过程如下所示(以鸢尾花数据为例)：

#!/use/bin/python
# -*- coding:utf-8 -*-
import pandas as pd
import numpy as np
import sys, os, re
from sklearn.datasets import load_iris

iris = load_iris()
x = iris.data      # 获得数据集的特征值，数据个数 * 特征个数的二维数组形式
y = iris.target    # 获得数据集的数字化后的每个数据的标签组成的数组
x_features = iris.feature_names    # 返回数据集特征的列表 ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
y_label    = iris.target_names     # 返回数据集的标签列表 array(['setosa', 'versicolor', 'virginica'], dtype='<U10')
iris_desc  = iris.DESCR            # 返回数据集的描述信息
iris_filename = iris.filename      # 返回数据集所在的路径

print("数据集数据的形状：", x.shape)
print("数据集特征(前五个数据)：\n", x[:5,:])
print("数据集的标签：\n", y)
print("数据集特征：\n", x_features)
print("数据集标签集合：\n", y_label)
print("数据集所在文件的路径：\n", iris_filename)

机器学习-sklearn数据集汇总_机器学习

3. 数据集种类

sklearn包含的常见数据集如下：

模块	数据集	大小
load_iris()	鸢尾花数据集	150 *4
load_boston()	波士顿房价数据	506 *13
load_wine()	葡萄酒数据集	178*13
load_digits()	手写体数字光学识别数据集	1797*64
load_breast_cancer()	乳腺癌数据集	569*30
load_diabetes()	糖尿病数据集	442 *10
load_linnerud()	体能训练	20*3
load_sample_images()	图像数据集（2个图像：中国和花朵）	4276403