人工智能基础 - 机器学习工作流程

原创

虾王之王 2023-12-02 16:14:35 ©著作权

文章标签 机器学习特征工程 文章分类 机器学习人工智能

©著作权归作者所有：来自51CTO博客作者虾王之王的原创作品，请联系作者获取转载授权，否则将追究法律责任

什么是机器学习

机器学习是从数据中自动分析获得模型，并利用模型对未知数据进行预测。

机器学习工作流程

1.获取数据集

2.数据基本处理

3.特征工程

4.机器学习（模型训练）

5.模型评估

结果达到要求，上线服务

没有达到要求，重新上面步骤

获取数据集

在数据集中一般：

一行数据我们称为一个样本

一列数据我们成为一个特征

有些数据有目标值（标签值），有些数据没有目标值（如上表中，电影类型就是这个数据集的目标值）

数据类型构成：

数据类型一：特征值+目标值（目标值是连续的和离散的）

数据类型二：只有特征值，没有目标值

数据分割：

机器学习一般的数据集会划分为两个部分：

训练数据：用于训练，构建模型

测试数据：在模型检验时使用，用于评估模型是否有效

划分比例：

训练集：70% 80% 75%

测试集：30% 20% 25%

数据基本处理

即对数据进行缺失值、去除异常值等处理

特征工程（Feature Engineering）

什么是特征工程

特征工程是使用专业背景知识和技巧处理数据，使得特征能在机器学习算法上发挥更好的作用的过程。特征工程会直接影响机器学习的效果。

为什么需要特征工程

机器学习领域的大神Andrew Ng（吴恩达）老师说“Coming up with features is difficult，time-consuming，requires expert knowledge.“Applied machine learning"is basically feature engineering.”，翻译一下，就是处理特征的数据是艰难的、耗时，而且需要专业知识。把机器学习应用在实际应用上，基本上就是在做特征工程。

注：业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。