机器学习算法概述

1机器学习定义

给定任务T,相关经验E,以及学习效果的度量P。机器学习就是通过E的学习来优化任务T的完成效果的度量P

训练数据 ==> 机器学习 ==> 模型

2机器学习vs人 优点

  1. 从海量数据中提取相关特征
  2. 可以自动地对模型进行调整,以适应环境的变化

3机器学习面临的问题

  1. 需要大量数据来训练模型,数据不足可能 首先会导致其所选数据代表性不好(垃圾数据进,垃圾数据出)。其次所选数据的特征可能将模型带入过渡拟合。
  2. 机器学习还没有在创造性领域取得成就(如艺术创作)

4机器学习的形式分类

4.1监督学习

在监督学习形式中每一条训练数据都含有两部分信息特征组与标签。一条训练数据的特征组是对相应对象的特征的描述为了好处理,通常用一个向量表示对象的特征组,向量中的每一分量表示具体某一特征,而标签是对象的一个属性。(例如在用模型进行房价预测,房子大小,房间数,地理位置等等都是该问题的特征,这些特征组成一个特征组,然而房子的价格就是该问题的标签)监督学习任务就是根据对象的特征组对标签的取值进行预测。(标签有自带,有人工标注

根据标签取值的特性,将监督学习分为两类,1分类问题,2回归问题。分类问题标签值是离散的(如手写数字识别),而回归问题标签的值是连续的(如房价预测)。

4.2无监督学习

在无监督学习形式下,训练数据不含有标签,无监督学习问题任务通常是对数据本身模式的识别与分类。主要有两类问题具有广泛实际应用1.降维问题,2.聚类问题

降维问题:每一条训练数据的特征组都用向量表示,但是在许多情况下对象很复杂,特征组的维度相当高,达到数百万量级,在预测标签时特征并非越多越好。
聚类与分类的区别:聚类问题中的任务是仅限于对未知分类的一批数据进行分类(如从银行客户中分析出可疑用户),而分类是用已知分类的训练数据训练出一个能够预测的模型。

4.3强化学习

强化学习的任务是,根据对环境的探索,制定对环境变化的策略。它模拟了生物探索环境与经验积累的过程。