lda文本匹配 lda文本分析

转载

mob64ca13fa6a3c 2024-04-25 10:56:40

文章标签 lda文本匹配词向量条件概率概率密度 文章分类 机器学习人工智能

上一节详细介绍了什么是LDA，详细讲解了他的原理，大家应该好好理解，如果不理解，这一节就别看了，你是看不懂的，这里我在简单的叙述LDA的算法思想：

首先我们只拥有很多篇文本和一个词典，那么我们就可以在此基础上建立基于基于文本和词向量联合概率（也可以理解为基于文本和词向量的矩阵，大家暂且这样理解），我们只知道这么多了，虽然知道了联合概率密度了，但是还是无法计算，因为我们的隐分类或者主题不知道啊，在LSA中使用SVD进行寻找隐分类的，在PLSA中使用概率进行找隐分类的，而在LDA中是如何做的呢？他是这样做的，首先我为每个文本赋值一个服从Dirichlet分布的

$\large \theta _m$

，他的作用就是寻找文本中对应词的主题（隐分类），或者从本篇文本的角度来说确定这篇文本有哪几个隐分类，而隐分类的确定是根据

$\large \varphi _k$

进行确定的，首先我们根据

$\large \theta _m$

确定了这个这篇文章的某一个位置的词了即

$\large Z_{m,n}$

，那么我通过词典，在通过

$\large \varphi _k$

去寻找这个词对应的隐分类（主题），这样我就确定了这篇文章的隐分类，同时都可以计算了所有的相关概率，后面就可以通过隐分类和相关概率进行判断文本的相似性等等就和前面几节一样了，这就是LDA的深层工作原理，我们一起看看下图，在分析一下，看看是不是这样的：

lda文本匹配 lda文本分析_lda文本匹配_06

首先我通过文本和词向量建立联合概率密度，但是这个联合概率密度需要知道隐分类，要不然后面无法进一步计算，首先我们现在需要确定这个文本有多少个隐分类（隐分类和词的多少有关），而隐分类的和词相关，上图的

$\large \alpha \rightarrow \theta \rightarrow z_{m,n}\rightarrow w_{m,n}$

,就是这个意思了，那么我们怎么知道这个文本有多少隐分类呢？这里是通过词典或者说是通过词典对应的隐分类，去寻找文本的对应的隐分类，这时我们根据词典就可以寻找文本对应词的隐分类，这样就可可以确定文本中词对应的隐分类了，这也是

$\large \beta \rightarrow \varphi \rightarrow w_{m,n}$

的意思了，这里大家应该可以理解了，当然这需要大家知道前面的知识如LSA、PLSA，不懂的请自行查阅我的前两篇文章，下面开始今天的内容即LDA是如何训练的：

LDA训练算法

通过上一篇的文章我们知道了什么是LDA模型，那么这个模型有两个目标，如下：

估计模型的参数和;
对于新来的一篇文档，我们能够计算这篇文档的主题（隐分类、topic）分布

根据前面的算法即LSA，PLSA我们知道只要知道隐分类（主题、topic）那么文本其他计算就简单了，因此这里我们第二个目标就不详细的讲解，本节详细介绍LDA的训练算法，当然，我只是把训练算法的思路讲一下，具体细节大家看原始论文吧，这一节我想想就头大的，我尽力写，你们也尽力看，等这一节过了，后面的就很简单了。下面开始：

总体思路：

首先给出联合分布公式（但由于topic是隐变量，所以实际上并能进行计算）