LDA主题词分析 r语言 r语言lda函数输出含义

转载

mob64ca1405664d 2023-12-24 21:53:31

文章标签 LDA主题词分析 r语言 pca降维机器学习特征值最小值 文章分类 R语言后端开发

LDA

概述

LDA（Linear Discriminant Analysis），线性判别分析。LDA是一种监督学习的降维技术。主要用于数据预处理中的降维、分类任务。LDA的目标是最大化类间区分度的坐标轴成分，将特征空间投影到一个维度更小的k维子空间中，同时保持区分类别的信息。简而言之，LDA投影后的数据类内方差最小，类间方差最大。

LDA主题词分析 r语言 r语言lda函数输出含义_最小值

数学基础知识

瑞利商
定义： $LDA主题词分析 r语言 r语言lda函数输出含义_pca降维_02$
其中，x是非零向量，A是n*n的Hermitan矩阵（自共轭矩阵，矩阵中每一个第i行第j列的元素都与第j行第i列的元素的共轭相等）
性质：瑞利商最大值等于矩阵A最大的特征值，最小值等于矩阵A的最小特征值
$LDA主题词分析 r语言 r语言lda函数输出含义_最小值_03$

广义瑞利商
定义： $LDA主题词分析 r语言 r语言lda函数输出含义_特征值_04$
其中，x是非零向量，而A，B为n*n的Hermitan矩阵。B为正定矩阵
最大值为矩阵 $LDA主题词分析 r语言 r语言lda函数输出含义_最小值_05$ 的最大特征值，或者说矩阵 $LDA主题词分析 r语言 r语言lda函数输出含义_pca降维_06$ 的最大特征值，最小值是其最小特征值

二类LDA原理

假设数据集 $LDA主题词分析 r语言 r语言lda函数输出含义_pca降维_07$ ,其中任意 $LDA主题词分析 r语言 r语言lda函数输出含义_pca降维_08$ 为n维向量
第j类样本的均值向量： $LDA主题词分析 r语言 r语言lda函数输出含义_特征值_09$
第j类样本的协方差矩阵： $LDA主题词分析 r语言 r语言lda函数输出含义_机器学习_10$
假设投影直线是向量 $LDA主题词分析 r语言 r语言lda函数输出含义_LDA主题词分析 r语言_11$ ,则对任意一个样本本xi,它在直线 $LDA主题词分析 r语言 r语言lda函数输出含义_LDA主题词分析 r语言_11$ 的投影为 $LDA主题词分析 r语言 r语言lda函数输出含义_特征值_13$ ,对于我们的两个类别的中心点 $LDA主题词分析 r语言 r语言lda函数输出含义_pca降维_14$ ,在在直线 $LDA主题词分析 r语言 r语言lda函数输出含义_LDA主题词分析 r语言_11$ 的投影为 $LDA主题词分析 r语言 r语言lda函数输出含义_特征值_16$ , $LDA主题词分析 r语言 r语言lda函数输出含义_机器学习_17$ 。由于LDA需要让不同类别的数据的类别中心之间的距离尽可能的大，也就是我们要最大化 $LDA主题词分析 r语言 r语言lda函数输出含义_LDA主题词分析 r语言_18$ ,同时我们希望同一种类别数据的投影点尽可能的接近，也就是要同类样本投影点的协方差 $LDA主题词分析 r语言 r语言lda函数输出含义_LDA主题词分析 r语言_19$ 和 $LDA主题词分析 r语言 r语言lda函数输出含义_机器学习_20$ 尽可能的小，即最小化 $LDA主题词分析 r语言 r语言lda函数输出含义_pca降维_21$ 。综上所述，我们的优化目标为：
$LDA主题词分析 r语言 r语言lda函数输出含义_最小值_22$
类内散度矩阵 $LDA主题词分析 r语言 r语言lda函数输出含义_最小值_23$ 为：
$LDA主题词分析 r语言 r语言lda函数输出含义_pca降维_24$
类间散度矩阵 $LDA主题词分析 r语言 r语言lda函数输出含义_机器学习_25$ 为：
$LDA主题词分析 r语言 r语言lda函数输出含义_特征值_26$
优化目标重新定义：
$LDA主题词分析 r语言 r语言lda函数输出含义_特征值_27$
这就是广义瑞利商，最大值就是 $LDA主题词分析 r语言 r语言lda函数输出含义_机器学习_28$ 的最大特征值

多类LDA原理

优化目标：
$LDA主题词分析 r语言 r语言lda函数输出含义_机器学习_29$
特征向量最多有k-1个

LDA算法流程

计算类内散度矩阵 $LDA主题词分析 r语言 r语言lda函数输出含义_最小值_30$
计算类间散度矩阵 $LDA主题词分析 r语言 r语言lda函数输出含义_机器学习_31$
计算矩阵 $LDA主题词分析 r语言 r语言lda函数输出含义_最小值_32$
计算 $LDA主题词分析 r语言 r语言lda函数输出含义_最小值_32$ 的最大的d个特征值和对应的d个特征向量 $LDA主题词分析 r语言 r语言lda函数输出含义_最小值_34$ 得到投影矩阵W
对样本集中的每一个样本特征 $LDA主题词分析 r语言 r语言lda函数输出含义_LDA主题词分析 r语言_35$ ,转为新的样本 $LDA主题词分析 r语言 r语言lda函数输出含义_LDA主题词分析 r语言_36$
得到输出样本集 $LDA主题词分析 r语言 r语言lda函数输出含义_机器学习_37$

优点

在降维过程中可以使用类别的先验知识经验，而像PCA这样的无监督学习则无法使用类别先验知识。
LDA在样本分类信息依赖均值而不是方差的时候，比PCA之类的算法较优。

缺点

LDA不适合对非高斯分布样本进行降维，PCA也有这个问题。
LDA降维最多降到类别数k-1的维数，如果我们降维的维度大于k-1，则不能使用LDA。当然目前有一些LDA的进化版算法可以绕过这个问题。
LDA在样本分类信息依赖方差而不是均值的时候，降维效果不好。
LDA可能过度拟合数据。

PCA

概述

PCA（principal component analysis），主成分分析。PCA的主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。
PCA的工作就是从原始的空间中顺序的找一组相互正交的坐标轴，新的坐标轴的选择与数据本身是密切相关的。其中，第一个新坐标轴选择是原始数据中方差最大的方向，第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大，第三个轴是与第1、2个轴正交的平面中方差最大的。以此类推，可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴，我们发现，大部分方差都包含在前面k个坐标轴中，后面的坐标轴所含的方差几乎为0。于是，我们可以忽略余下的坐标轴，只保留前面k个含有绝大部分方差的坐标轴。事实上，这相当于只保留包含绝大部分方差的维度特征，而忽略包含方差几乎为0的特征维度，实现对数据特征的降维处理。
计算数据矩阵的协方差矩阵，得到协方差矩阵的特征值特征向量，选择特征值最大（方差最大）的k个特征所对应的特征向量组成的矩阵。
由于得到协方差矩阵的特征值特征向量有两种方法：特征值分解协方差矩阵、奇异值分解协方差矩阵

协方差和散度矩阵

协方差

$LDA主题词分析 r语言 r语言lda函数输出含义_机器学习_38$

协方差矩阵

LDA主题词分析 r语言 r语言lda函数输出含义_LDA主题词分析 r语言_39

散度矩阵

$LDA主题词分析 r语言 r语言lda函数输出含义_LDA主题词分析 r语言_40$

对于数据X的散度矩阵 $LDA主题词分析 r语言 r语言lda函数输出含义_最小值_41$ 。

特征值分解矩阵原理

计算特征值和特征向量
计算特征值分解矩阵

SVD分解矩阵原理

奇异值分解是一个能适用于任意矩阵的一种分解方法，对于任意矩阵A总是存在一个奇异值分解：
$LDA主题词分析 r语言 r语言lda函数输出含义_最小值_42$
假设A是一个mn的矩阵，那么U是一个mm的方针，U里面的正交向量被称为左奇异向量。 $LDA主题词分析 r语言 r语言lda函数输出含义_LDA主题词分析 r语言_43$ 是一个mn的矩阵， $LDA主题词分析 r语言 r语言lda函数输出含义_机器学习_44$ 除了对角线其他元素都是0，对角线上的元素称为奇异值。 $LDA主题词分析 r语言 r语言lda函数输出含义_最小值_45$ 是V的转置矩阵，是一个nn的矩阵，它里面的正交向量被称为右奇异值向量。而且一般来讲，我们会将 $LDA主题词分析 r语言 r语言lda函数输出含义_LDA主题词分析 r语言_43$ 上的值按从大到小的顺序排列。
SVD分解矩阵A的步骤：

求 $LDA主题词分析 r语言 r语言lda函数输出含义_最小值_47$ 的特征值和特征向量，用单位化的特征向量构成U
求 $LDA主题词分析 r语言 r语言lda函数输出含义_特征值_48$ 的特征值和特征向量，用单位化的特征向量构成V
将 $LDA主题词分析 r语言 r语言lda函数输出含义_最小值_47$ 或者 $LDA主题词分析 r语言 r语言lda函数输出含义_特征值_48$ 的特征值求平方根，然后构成 $LDA主题词分析 r语言 r语言lda函数输出含义_机器学习_44$