(此为机器学习随笔之一)
机器学习中的算法,主要有两种:监督学习;半监督学习。

1 、名词

监督学习 : supervised learning
无监督学习 : unsupervised learning
半监督学习 : semi-supervised learning

2 、 概念

监督学习:亦称监督训练、有教师学习。是利用已知类别的样本(即有标记的样本 labeled sample,已知其相应的类别),调整分类器的参数,训练得到一个最优模型,使其达到所要求性能,再利用这个训练后的模型,将所有的输入映射为相应的输出,对输出进行简单的判断,从而实现分类的目的,这样,即可以对未知数据进行分类。
注意 : 最优,意思是在某个评价准则下,表现是最佳的。
用一句话概括就是:用一部分已知分类、有标记的样本来训练机器后,让它用学到的特征,对没有还分类、无标记的样本进行分类、贴标签。

无监督学习:即非监督学习,是实现没有有标记的、已经分类好的样本,需要我们直接对输入数据集进行建模,例如聚类,最直接的例子就是我们常说的“人以群分,物以类聚”。我们只需要把相似度高的东西放在一起,对于新来的样本,计算相似度后,按照相似程度进行归类就好。至于那一类究竟是什么,我们并不关心。

以上两者的区别 : 监督学习则只利用标记的样本集进行学习,而无监督学习只利用未标记的样本集。

半监督学习:有两个样本集,一个有标记,一个没有标记。综合利用有类标的样本( labeled sample)和没有类标的样本( unlabeled sample),来生成合适的分类函数。
半监督学习出现的背景是 :实际问题中,通常只有少量的有标记的数据,因为对数据进行标记的代价有时很高,比如在生物学中,对某种蛋白质的结构分析或者功能鉴定,可能会花上生物学家很多年的工作,而大量的未标记的数据却很容易得到。

3、思考

监督学习主要是根据已有标记,进行分类,区分;
无监督学习主要是用相似度,进行聚类,归类;
半监督学习一般结合了分类与聚类的思想;
还有一点,这里的样本标记,都是人为事先进行标记的,然后进行使用。