第十三章 半监督学习
此系列文章旨在提炼周志华《机器学习》的核心要点,不断完善中…
13.1 未标记样本
1、一些概念
主动学习(active learning):使用尽量少的query获得经良好的性能
半监督学习(semi-supervised learning):让学习器不依赖外界交互,自动利用未标记样本来提升学习性能
2、一些假设
聚类假设(cluster assumption):假设数据存在簇结构,同一个簇的样本属于同一个类别
流形假设(manifold assumption):假设数据分布在一个流形结构上,邻近的样本拥有相似的输出值
3、半监督学习分类
纯半监督学习:假定训练数据中的未标记样本并非预测的数据
直推学习:假定学习过程中所考虑的未标记样本恰是预测数据
13.2 生成式方法
1、概述
- 直接给予生成模型的方法
- 假设所有数据都是由同一个潜在的模型“生成”
2、公式推断
- 数据样本生成基于的概率密度:
- 推导:
- 后验概率:
(标记样本集
未标记样本集)对数似然:
上式两部分:有监督项和无监督项
3、EM算法求解高斯混合模型的参数估计

13.3 半监督SVM
代表:TSVM(Transductive Support Vector Machine)
学习目标:中样本预测标记


13.4 图半监督学习
- 基本概念:给定一个数据集可以映射为一个图(样本为点,强度为边)
- 迭代式标记传播算法
13.5 基于分歧的方法
- 概述
使用多学习器:多学习器之间的分歧对未标记的数据利用至关重要
代表方法:协同训练(针对多视图数据) - 协同训练算法
13.6 半监督聚类
聚类任务中获得的监督信息类型
- 第一类:“必连”与“勿连”约束(根据样本是否必属于同一个簇)
- 第二类:少量有标记样本
利用第一类监督信息的代表:约束k均值算法

利用第二类监督信息的代表:约束种子k均值算法

















