机器学习概述
特征工程
特征工程是指从原始数据转换为特征向量的过程
。特征工程是机器学习中最重要的起始步骤
,会直接影响机器学习的效果
,并通常需要大量的时间
。典型的特征工程
包括数据清理
、特征提取
、特征选择
等过程。
数据集
下面列举了一些示例来说明哪些内容能算作数据集:
- 包含某些数据的表格或 CSV 文件
- 组织有序的表格集合
- 采用专有格式的文件,其中包含数据
- 可共同构成某个有意义数据集的一组文件
- 包含其他格式的数据的结构化对象,您可能希望将其加载到特殊工具中进行处理
- 捕获数据的图像
- 与机器学习相关的文件,如经过训练的参数或神经网络结构定义
- 任何看来像数据集的内容
特征提取
特征预处理
特征降维
特征选择
主成分分析
分类算法
分类算法-sklearn转换器和估计器
分类算法-K-近邻算法
回归与聚类算法
整理中