首页 理论教育 CADAL数字图书馆文本相似度模型研究成果

CADAL数字图书馆文本相似度模型研究成果

时间:2023-10-27 理论教育 版权反馈
【摘要】:然而,LSA的降维过程,是舍弃不重要的特征向量来达到降维效果的,这样分析后的数据集是对原数据集的一种近似而非等价形式,从而在降维的过程中会丢失部分信息。再者,LSA所谓的语义,是统计意义上的相似,是基于同现分析,词条的点间互信息高低可以衡量词条间的相关性,相关性越高的词条被认为是语义相关的,它并不是真正意义上的语义。

CADAL数字图书馆文本相似度模型研究成果

由上述分析可知,潜在语义分析(latent semantic analysis,LSA)有许多优点,对传统的向量空间模型是一种改进,并且它不需要借助人工构建词典、语法、句法分析等,以体现词条间的相关性。然而,LSA的降维过程,是舍弃不重要的特征向量来达到降维效果的,这样分析后的数据集是对原数据集的一种近似而非等价形式,从而在降维的过程中会丢失部分信息。另外,LSA在进行信息提取时,它是简单地通过所有词语向量的线性总和来产生文本向量,表示文本的含义,忽略了词语的语法信息,然而句子的语法结构包含了词语之间的更深层次的语义关联信息,忽略这种语义关联信息势必会影响LSA对文本内容的把握能力。再者,LSA所谓的语义,是统计意义上的相似,是基于同现分析,词条的点间互信息高低可以衡量词条间的相关性,相关性越高的词条被认为是语义相关的,它并不是真正意义上的语义。鉴于此,建立了文本相似度模型,就可以基于语义词典反映文本间真实的语义相似关系。

3.2.3.1 词语相似度计算

词语相似度计算是自然语言的基础研究课题,其在自然语言、文本分类、文本聚类、智能检索、词义消歧、机器翻译和自动应答系统等领域有着重要的应用。目前,词语相似度计算方法之一是基于语义词典的词语相似度计算。在中文方面,有知网(How Net)、同义词词林、中文概念词典等。

基于同义词词林,词语相似度是个数值,一般取值范围在[0,1],一个词语与其本身的语义相似度为1,若是两个词语在任何上下文都不可替换,则其相似度为0。影响词语相似度的两个重要指标是词语相似度和词语相关度。词语相似度可以用词语间的语义距离来衡量,两个词语的相似度与它们的词语距离成反比;词语相关度一般用同一个语境中词语共现的可能性来衡量。词语相似度反映的是词语之间的聚合特点,而词语相关度反映的是词语之间的组合特点。

3.2.3.2 句子相似度计算

句子相似度是指两个句子在语义上的匹配程度,相似度取值为[0,1]的实数,定义为:

其中,sim W i(s 1,s 2)(i=1,2,3,4)分别表示两个句子名词、动词、代词和形容词部分的相似度。参数αi是各部分相似度的权系数,满足α1234=1,这里取:α1=0.5,α2=0.2,α3=0.17,α4=0.13。(www.xing528.com)

3.2.3.3 段落相似度计算

段落相似度是通过两个段落之间的语义距离表示的。假定文本P由n个自然段P i构成,即P={P 1,P 2,…,P n}。段落Pi与P j之间的相似度定义为:

式中:

所以,可将段落P i与P j之间的相似度定义为:

可知,因为Similarity(P i,P j)∈[0,1],所以有distance(P i,P j)∈[0,1],表示该语义距离越小,两者描述的主题内容越相似,语义距离越大,两者描述的主题内容越不相似。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈