非监督度学习-1 Unsupervised Learning-1(K-means,HAC,PCA)
非监督学习方法主要分为两大类
- Dimension Reduction (化繁为简)
- Generation (无中生有)
目前我们仅专注化繁为简,降维的方法,无中生有(GAN为代表的)方法,以后关注。
1. Clustering
• K-means 算法
经典的非监督根据距离分类算法:
- Hierarchical Agglomerative Clustering (HAC)
根据数据两两间的相似度,进行建立一棵树,进行分类
2. 分布的重表示 Distributed Representation
我们主要介绍Principle Component Analysis(PCA):
需要找到W,
(1)线性代数表示
使得投影的结果的方差最大化
多维度投影中w1和w2是正交的
数学化证明,PCA与协方差有关 最大化
因为S是对称矩阵,是半正定,特征值非负。使用拉格朗日乘子法:
是特征向量,是最大的特征值
同理:
是特征向量,是第二大的特征值PCA去相关性举例:
(2)另一种视角看PCA
举例:手写数字是由基本的图片元素组成
那么7是由以下图片元素组成
我们有:
PCA可以看看做是特殊的神经网络,元素间是正交的