半监督学习方法总结监督半监督

转载

mob64ca13f7419f 2024-05-01 21:02:03

文章标签 半监督学习方法总结机器学习算法 class 监督学习 文章分类 机器学习人工智能

（此为机器学习随笔之一）
机器学习中的算法，主要有两种：监督学习；半监督学习。

1 、名词

监督学习： supervised learning
无监督学习： unsupervised learning
半监督学习： semi-supervised learning

2 、概念

监督学习：亦称监督训练、有教师学习。是利用已知类别的样本（即有标记的样本 labeled sample，已知其相应的类别），调整分类器的参数，训练得到一个最优模型，使其达到所要求性能，再利用这个训练后的模型，将所有的输入映射为相应的输出，对输出进行简单的判断，从而实现分类的目的，这样，即可以对未知数据进行分类。
注意：最优，意思是在某个评价准则下，表现是最佳的。
用一句话概括就是：用一部分已知分类、有标记的样本来训练机器后，让它用学到的特征，对没有还分类、无标记的样本进行分类、贴标签。

无监督学习：即非监督学习，是实现没有有标记的、已经分类好的样本，需要我们直接对输入数据集进行建模，例如聚类，最直接的例子就是我们常说的“人以群分，物以类聚”。我们只需要把相似度高的东西放在一起，对于新来的样本，计算相似度后，按照相似程度进行归类就好。至于那一类究竟是什么，我们并不关心。

以上两者的区别：监督学习则只利用标记的样本集进行学习，而无监督学习只利用未标记的样本集。

半监督学习：有两个样本集，一个有标记，一个没有标记。综合利用有类标的样本（ labeled sample）和没有类标的样本（ unlabeled sample），来生成合适的分类函数。
半监督学习出现的背景是：实际问题中，通常只有少量的有标记的数据，因为对数据进行标记的代价有时很高，比如在生物学中，对某种蛋白质的结构分析或者功能鉴定，可能会花上生物学家很多年的工作，而大量的未标记的数据却很容易得到。

3、思考

监督学习主要是根据已有标记，进行分类，区分；
无监督学习主要是用相似度，进行聚类，归类；
半监督学习一般结合了分类与聚类的思想；
还有一点，这里的样本标记，都是人为事先进行标记的，然后进行使用。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。