有监督学习:建立映射关系 f:x->y

        无监督学习:从无标签的数据中学习有用的模式

一、聚类

        将样本中相似的样本分配给相同的类/簇

        样本间距/相似性:L1、L2距离;余弦距离;相关系数;汉明距离

        常见的聚类任务:图像分割;文本聚类;社交网络分析

        ①类/簇:可以理解为一组相似的样本,但是并无严格定义

        ②类内间距:样本间最大距离

无监督神经网络模型PPT 无监督神经网络算法_学习

                              样本间最大距离

无监督神经网络模型PPT 无监督神经网络算法_神经网络_02

        ③样本距离:样本间最短距离:

无监督神经网络模型PPT 无监督神经网络算法_神经网络_03

                              样本均值间距离

无监督神经网络模型PPT 无监督神经网络算法_学习_04

        ④聚类效果评价外部指标

无监督神经网络模型PPT 无监督神经网络算法_神经网络_05

                         JC系数=

无监督神经网络模型PPT 无监督神经网络算法_无监督神经网络模型PPT_06

        (TP除以总数)

                                     内部指标

无监督神经网络模型PPT 无监督神经网络算法_神经网络_07

 

        1.K均值聚类

                ①确定K值,随后随机生成K个类中心

                ②根据点到类中心的距离,将空间划分为K个区域,同一个区域内划分为一个类

                ③根据划分重新计算每个类的类中心

                ④由新的类中心重新划分区,随后重复③、④。直至收敛(类中心不再变化)

                K均值聚类的目标函数

                        

无监督神经网络模型PPT 无监督神经网络算法_神经网络_08

        其中

无监督神经网络模型PPT 无监督神经网络算法_无监督神经网络模型PPT_09

为第 i 个簇

无监督神经网络模型PPT 无监督神经网络算法_神经网络_10

的均值向量

                K的选择:K为超参数

无监督神经网络模型PPT 无监督神经网络算法_学习_11

                         K↑,平均半径↓。一般选择平缓段的K

                类中心的初始化:

                        ①大于最小间距随机点\样本点

                        ②K个相互距离最远的样本点

                        ③K个等距网格点

                优点:实现简单、时间复杂度低

                缺点:K值的选择、主要适合凸集、初始值影响较大

        2.层次聚类

                通过计算不同数据点的相似度来创建有层次的嵌套聚类树

无监督神经网络模型PPT 无监督神经网络算法_神经网络_12

                 聚合过程:属于自底向上

                        ①将每个样本分到单独的类

                        ②通过迭代将其相似的不断聚合(计算两两类的距离将距离最小的两个合并

无监督神经网络模型PPT 无监督神经网络算法_神经网络_13

                 分裂过程:属于自顶向下

                        ①将所有样本划分为同一个类

                        ②通过迭代使其不断分裂(计算两两类的距离,找出两个距离最远的样本a,b,计算其他点到a,b的距离,将其划分到较近<比如dis(a)<dis(b)>的簇中)

无监督神经网络模型PPT 无监督神经网络算法_神经网络_14

                 优点:简单且便于理解

                 缺点:合并点/分裂点难以选择;不能撤销操作;不适合大数据;执行效率低

二、特征学习

         目的:特征提取、去噪、降维、数据可视化

        1.主成分分析

                原始数据可能存在的问题:维度过高、冗余性过高(难以学习);可以通过降维的方法解决

                ①线性投影

无监督神经网络模型PPT 无监督神经网络算法_机器学习_15

                ②并满足

无监督神经网络模型PPT 无监督神经网络算法_无监督神经网络模型PPT_16

                ③优化准则->最大投影方差:转换后数据的方差最大(尽可能保存原数据信息)

                        投影后的方差:

无监督神经网络模型PPT 无监督神经网络算法_学习_17

                        目标函数:

无监督神经网络模型PPT 无监督神经网络算法_学习_18

     对目标函数求导=0可得

无监督神经网络模型PPT 无监督神经网络算法_机器学习_19

                                      最小重构误差

        2.编码与稀疏编码

无监督神经网络模型PPT 无监督神经网络算法_神经网络_20

                 

无监督神经网络模型PPT 无监督神经网络算法_无监督神经网络模型PPT_21

                过完备:基向量个数远大于其支撑空间维度,这种基向量一般不具备独立、正交等性质

                稀疏编码:原始向量中的特征由少数基向量加权构成

                        

无监督神经网络模型PPT 无监督神经网络算法_神经网络_22

                                

无监督神经网络模型PPT 无监督神经网络算法_神经网络_23

为稀疏性衡量函数,

无监督神经网络模型PPT 无监督神经网络算法_学习_24

是一个超参数,用以控制稀疏性强度

无监督神经网络模型PPT 无监督神经网络算法_神经网络_25

                 交替优化

无监督神经网络模型PPT 无监督神经网络算法_学习_26

                 优点:降低后续计算量、可解释行强、便于特征选择

        3.自编码器

无监督神经网络模型PPT 无监督神经网络算法_神经网络_27

                 目标函数:重构错误

无监督神经网络模型PPT 无监督神经网络算法_学习_28

                稀疏自编码器:给自编码器的隐藏层单元加上稀疏限制

                        

无监督神经网络模型PPT 无监督神经网络算法_学习_29

                降噪自编码器:通过引入噪声来增加编码鲁棒性的自编码器

无监督神经网络模型PPT 无监督神经网络算法_无监督神经网络模型PPT_30

         4.自监督学习

                自监督学习依旧是X->Y的映射学习(而非类聚)

                通过人为对X的扰动,进行学习(比如旋转图像)

三、密度估计

        1.参数密度估计

                先假设随机变量服从某种分布,再通过训练样本来估计分布的参数

                最大似然估计:

无监督神经网络模型PPT 无监督神经网络算法_机器学习_31

                存在的问题

                        ①模型选择问题:如何选择密度函数

                        ②不可观测变量问题:难以准确估计数据的真实分布

                        ③维度灾难问题:样本随维度增加而指数增加;样本不足时会出现过拟合

        2.非参数密度估计

                不假设随机变量服从某种分布,通过样本空间的划分来估计近似数据的概率密度

                原型公式

无监督神经网络模型PPT 无监督神经网络算法_聚类_32

                        其中:K为落入R中的样本数量;N为训练样本;实质上是由

无监督神经网络模型PPT 无监督神经网络算法_机器学习_33

推导而来

                ①直方图法

无监督神经网络模型PPT 无监督神经网络算法_无监督神经网络模型PPT_34

                 ②核密度估计

无监督神经网络模型PPT 无监督神经网络算法_神经网络_35

                 ③K近邻方法

无监督神经网络模型PPT 无监督神经网络算法_无监督神经网络模型PPT_36

                 优势:非参数密度估计不需要保留整个训练集,便于计算和存储

四、半监督学习

        1.区别

                监督学习:提供任务相关的标签(打标签费时费力且数量有限)

                无监督学习:不用打标签,数量充足(但仅限于特殊任务)

        2.模式

                自训练

无监督神经网络模型PPT 无监督神经网络算法_神经网络_37

                        先使用监督学习训练模型

                        再使用模型进行分类

                        最后将这个簇标注后混合原来的数据集再次用于模型训练

                协同训练

无监督神经网络模型PPT 无监督神经网络算法_无监督神经网络模型PPT_38

                         采用n种不同的方式训练分类器,让这些分类器互相分对方的数据