监督学习 特征值 + 目标值
-分类 目标值是离散数据
-回归 目标值是连续数据
无监督学习 只有特征值
-聚类
数据集
数据
-训练集 80% 70% 75%
-测试集 20% 30% 25%
数据拆分:
sklearn.model_selection.train_test_split
sklearn数据集
sklearn.datasets
-小规模数据集
-datasets.load_*()
-已下载
-大规模数据集
-datasets.fetch_*()
- 需要下载默认目录:~/scikit_learn_data/
数据类型
datasets.base.Bunch(字典格式)
data:特征数据 二维数组[n_samples * n_features]
target: 标签数组
DESCR: 数据描述
feature_names:特征名(新闻数据,手写数字,回归数据集没有)
target_names:标签名
数据集介绍
分类数据集
鸢尾花数据集 sklearn.datasets.load_iris
新闻数据集 sklearn.datasets.fetch_20newsgroups
回归数据集
波士顿房价数据集 sklearn.datasets.load_boston
糖尿病数据集 sklearn.datasets.load_diabetes