机器学习算法概述

转载

mb5ff40b968831d 2021-10-12 10:47:00

文章标签 数据机器学习监督学习无监督学习聚类 文章分类 机器学习人工智能

机器学习算法概述

1机器学习定义

给定任务T，相关经验E，以及学习效果的度量P。机器学习就是通过E的学习来优化任务T的完成效果的度量P

训练数据 ==> 机器学习 ==> 模型

2机器学习vs人优点

从海量数据中提取相关特征
可以自动地对模型进行调整，以适应环境的变化

3机器学习面临的问题

需要大量数据来训练模型，数据不足可能首先会导致其所选数据代表性不好（垃圾数据进，垃圾数据出）。其次所选数据的特征可能将模型带入过渡拟合。
机器学习还没有在创造性领域取得成就（如艺术创作）

4机器学习的形式分类

4.1监督学习

在监督学习形式中每一条训练数据都含有两部分信息：特征组与标签。一条训练数据的特征组是对相应对象的特征的描述为了好处理，通常用一个向量表示对象的特征组，向量中的每一分量表示具体某一特征，而标签是对象的一个属性。（例如在用模型进行房价预测，房子大小，房间数，地理位置等等都是该问题的特征，这些特征组成一个特征组，然而房子的价格就是该问题的标签）监督学习任务就是根据对象的特征组对标签的取值进行预测。（标签有自带，有人工标注）

根据标签取值的特性，将监督学习分为两类，1分类问题，2回归问题。分类问题标签值是离散的（如手写数字识别），而回归问题标签的值是连续的（如房价预测）。

4.2无监督学习

在无监督学习形式下，训练数据不含有标签，无监督学习问题任务通常是对数据本身模式的识别与分类。主要有两类问题具有广泛实际应用1.降维问题，2.聚类问题。

降维问题：每一条训练数据的特征组都用向量表示，但是在许多情况下对象很复杂，特征组的维度相当高，达到数百万量级，在预测标签时特征并非越多越好。
聚类与分类的区别：聚类问题中的任务是仅限于对未知分类的一批数据进行分类（如从银行客户中分析出可疑用户），而分类是用已知分类的训练数据训练出一个能够预测的模型。