首页 理论教育 基于判别式扩展策略的短文本检索方法

基于判别式扩展策略的短文本检索方法

时间:2023-11-18 理论教育 版权反馈
【摘要】:微博文本通常并不包含充足的信号用于统计推理。该研究[227]认为,选择判别式扩展特征有助于检索得到相关的文档,从而满足用户的查询需求,进而缓解词表不匹配问题。面向微博检索任务的语言模型所面临的最大挑战是文本长度过于短小导致主要特征出现的次数非常少,因此诸如推文此类短文本无法提供充足的统计信息。

基于判别式扩展策略的短文本检索方法

微博文本通常并不包含充足的信号用于统计推理。主题信息和句法信息也被尝试引入并应用到微博检索查询扩展[276−279],不过此类研究受限于微博文本的稀疏性和不规则性,主题建模和句法分析效果不理想。Albishre等[227]认为有效利用查询中的关键词能够提高被检索到的推文的相关性,并基于判别式扩展(Discriminative Expansion)和主题建模提出了一个伪相关反馈模型,该模型能够融合从伪相关文档中获取到的与原始查询相关的词语信息和主题信息。

微博检索面临的一大挑战是词表不匹配(Vocabulary Mismatching),这通常发生在用户的查询意图并未充分表达相关文档的情境中。该研究[227]认为,选择判别式扩展特征(Expansion Feature)有助于检索得到相关的文档,从而满足用户的查询需求,进而缓解词表不匹配问题。因此,该研究利用两阶段伪相关反馈技术来提高查询扩展质量;同时,为了解决传统伪相关反馈策略的限制,提出一个融入LDA模型的伪相关反馈模型。

使用查询似然模型(Query Likelihood Model)从数据集Δ中检索得到相关文档d,公式如下:

式中,P(d)——文档d与所有查询相关的先验概率

P(q|d )——给定文档d的查询似然(Query Likelihood)。

多项式形式的查询似然P(q|d)表示为

式中,img——查询特征的数量;

P(wi|d )——相关性模型(Relevance Model)概率,表示在文档d中词语wi的分布。

基于Dirichlet先验的贝叶斯平滑计算得到相关性模型概率P(wi|d )表示为

式中,μ——平滑参数;

n(w,d)——文档d中词语w的出现次数;

P(w|Δ)——全集语言模型(Collection Language Model),表示词语w在数据集Δ中的概率分布。(www.xing528.com)

使用Dirichlet平滑方法计算得到查询似然P(q|d):

式中,(,)n w q——给定查询q中词语w的出现次数;

img——文档d、查询q的长度

面向微博检索任务的语言模型所面临的最大挑战是文本长度过于短小导致主要特征出现的次数非常少,因此诸如推文此类短文本无法提供充足的统计信息。

沿用伪相关反馈的常用假设,即初始检索得到的排序靠前的文档是相关的。使用RM1模型[280]生成伪相关反馈文档集合ΔPRF,对于给定查询imgimg,计算相关性模型(Relevance Model)概率P(w|q):

使用LDA模型生成伪相关反馈文档的主题。LDA模型的输出结果包括一组潜主题,每个主题被表示为词语上的多项式分布。例如,第j个主题表示为Φj=(φi,1,φi,2,…),其中φi,k是词语wk的概率,Φj是数据集上关于第j个主题的主题分布表示。此外,数据集中的每个文档被表示为主题上的多项式分布Θi=(ϑi,1,ϑi,2,…),其中,ϑi,j是文档di中主题j的占比,Θi是文档di的主题分布表示。对于词语w,将查询q的主题概率与词语w在伪相关反馈文档ΔPRF每个主题上的分布乘积累加,作为对于每个主题z ∈Z的词语分布P(w|z)。

使用线性插值策略,融合伪相关反馈文档上的相关性模型Plex(w|q)和主题z上的词语概率P(w|z),得到新的相关反馈模型(Relevance Feedback Model)Pexp(w|q):

式中,λ——平滑参数,λ∈[0,1]。

同理,使用线性差值策略,基于原始查询模型P(w|q)和相关性模型Pexp(w|q),生成新的查询扩展词语:

式中,γ——控制和平衡伪相关反馈程度的平滑参数,γ∈[0,1]。

最终,使用新的查询在数据集全集上再次进行检索,得到最终的检索结果。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈