1. 数据集作用
sklearn机器学习包中包含了多个自带的数据集,用于对机器学习模型的学习和理解。
2. 数据集使用
其数据集的使用和调用过程如下所示(以鸢尾花数据为例):
#!/use/bin/python
# -*- coding:utf-8 -*-
import pandas as pd
import numpy as np
import sys, os, re
from sklearn.datasets import load_iris
iris = load_iris()
x = iris.data # 获得数据集的特征值,数据个数 * 特征个数的二维数组形式
y = iris.target # 获得数据集的数字化后的每个数据的标签组成的数组
x_features = iris.feature_names # 返回数据集特征的列表 ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
y_label = iris.target_names # 返回数据集的标签列表 array(['setosa', 'versicolor', 'virginica'], dtype='<U10')
iris_desc = iris.DESCR # 返回数据集的描述信息
iris_filename = iris.filename # 返回数据集所在的路径
print("数据集数据的形状:", x.shape)
print("数据集特征(前五个数据):\n", x[:5,:])
print("数据集的标签:\n", y)
print("数据集特征:\n", x_features)
print("数据集标签集合:\n", y_label)
print("数据集所在文件的路径:\n", iris_filename)
3. 数据集种类
sklearn包含的常见数据集如下:
模块 | 数据集 | 大小 |
load_iris() | 鸢尾花数据集 | 150 *4 |
load_boston() | 波士顿房价数据 | 506 *13 |
load_wine() | 葡萄酒数据集 | 178*13 |
load_digits() | 手写体数字光学识别数据集 | 1797*64 |
load_breast_cancer() | 乳腺癌数据集 | 569*30 |
load_diabetes() | 糖尿病数据集 | 442 *10 |
load_linnerud() | 体能训练 | 20*3 |
load_sample_images() | 图像数据集(2个图像:中国和花朵) | 427*640*3 |