统计学习及监督学习概论

  

1、统计学习

   统计学习研究的对象是数据(同类数据应具有一定的统计规律性),从数据出发提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据(未知新数据)的分析与预测中去。对数据的预测与分析是通过构建概率统计模型实现的。

  统计学习由监督学习(supervised learning)、无监督学习(unsupervised learning)以及加强学习(reinforcement learning)等组成。

  下记为实现统计学习方法的步骤:

  • 得到一个有限的训练数据集合
  • 确定包含所有可能的模型的假设空间,即学习模型的集合
  • 确定模型选择的准则,即学习的策略
  • 实现求解最优模型的算法,即学习的算法
  • 通过学习方法选择最优模型
  • 利用学习的最优模型,对新数据进行预测或分析

2、统计学习的分类

  1)基本分类

  • 监督学习:从标注数据(输入/输出的对应关系)中学习预测模型(对于给定的输入获得相应的输出)的机器学习问题。本质是学习输入到输出映射的统计规律。
  • 无监督学习:从无标注数据(自然得到的数据)中学习预测模型(表示数据的类别、转换或概率)的机器学习问题。本质是学习数据中的统计规律或潜在结构。
  • 强化学习:智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。系统不断地试错,以达到学习最优策略的目的。

  未完待续