首页 理论教育 潜在狄利克雷分布(LDA)及其文档主题生成模型

潜在狄利克雷分布(LDA)及其文档主题生成模型

时间:2023-05-19 理论教育 版权反馈
【摘要】:(一)定义LDA是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。(二)生成过程对于语料库中的每篇文档,LDA定义了如下生成过程。④从狄利克雷分布β中取样生成主题zi,j对应的词语分布φzi,j,换言之,词语分布φzi,j由参数为β的Dirichlet分布生成。其中,类似Beta分布是二项式分布的共轭先验概率分布,而狄利克雷分布是多项式分布的共轭先验概率分布。

潜在狄利克雷分布(LDA)及其文档主题生成模型

(一)定义

LDA(Latent Dirichlet Allocation,LDA)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。

LDA是一种非监督机器学习技术,可以用来识别大规模文档集(Document Collection)或语料库(Corpus)中潜藏的主题信息。它采用了词袋(Bag of Words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。由于Dirichlet分布随机向量各分量间的弱相关性(之所以还有点“相关”,是因为各分量之和必须为1),使得我们假想的潜在主题之间也几乎是不相关的,这与很多实际问题并不相符,从而造成了LDA的又一个遗留问题。

(二)生成过程

对于语料库中的每篇文档,LDA定义了如下生成过程(Generative Process)。①对每一篇文档,从主题分布中抽取一个主题。

②从上述被抽到的主题所对应的单词分布中抽取一个单词。

③重复上述过程直至遍历文档中的每一个单词。

(三)文档生成方式(www.xing528.com)

在LDA模型中,一篇文档生成的方式如下:

①按照先验概率P(di)选择一篇文档di

②从狄利克雷分布(即Dirichlet分布)α中取样生成文档di的主题分布θi,换言之,主题分布θi由超参数为α的Dirichlet分布生成。

③从主题的多项式分布θi中取样生成文档di第j个词的主题zi,j

④从狄利克雷分布(即Dirichlet分布)β中取样生成主题zi,j对应的词语分布φzi,j,换言之,词语分布φzi,j由参数为β的Dirichlet分布生成。

⑤从词语的多项式分布φzi,j中采样最终生成词语ωi,j

其中,类似Beta分布是二项式分布的共轭先验概率分布,而狄利克雷分布(Dirichlet分布)是多项式分布的共轭先验概率分布。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈