潜在语义索引模型是1988年S.T.Dumais等人提出的一种信息检索代数模型,它主要是为了克服布尔模型、概率模型、向量空间模型基于字、词匹配带来的局限性[18-20]。
在布尔、概率和向量空间这三种检索模型中,用户查询和文档都是采用基于关键词的技术来表示的,检索是通过用户查询和文档之间字、词的匹配来实现的。尽管这种匹配在三种模型中表现形式各异,但都是某种形式上浅层次的概念匹配,而非深层次的语义匹配。所以,这种匹配是不准确的。事实上,独立的字、词集合不能完全、准确地反映文档和查询的语义。因此,改善传统信息检索性能的一个有效途径就是让用户根据文档的概念主题或者说语义来进行信息检索。
潜在语义索引模型就可以看成是一种基于语义概念的检索模型,它利用统计计算得出的潜在语义关系进行信息检索,而不再依赖于传统的索引字、词的匹配。同样,潜在语义索引方法也被广泛应用于信息过滤中。
在潜在语义索引模型中,文档库被表示为一个m×n的词-文档矩阵A。这里,n表示文档库中的文档数;m表示文档库中包含的所有不同词的个数。A中的元素aij为非负值,表示第i个词在第j个文档中的权重。由于词和文档的数量都很大,而单个文档中出现的词又非常有限,因此A一般为稀疏矩阵。(www.xing528.com)
A建立后,利用奇异值分解(Singular Value Decomposition,SVD),矩阵A可以表示为3个矩阵的乘积:A=Uk∑kVTk。其中,U和V分别是矩阵A的奇异值对应的左、右奇异向量矩阵;矩阵A的奇异值按递减排列构成对角矩阵Σ。取U和V最前面的k个列构建A的k-秩近似矩阵Ak(k<<min(m,n)),即A=Uk∑kVTk;其中Uk和Vk分别是U和V的前k列组成。Ak是对A的一个近似,同时它又保持了索引项和与文档之间的潜在语义关系,但又去掉了因用词习惯或语言的多义性等带来的“噪声”。
用Ak近似表示词-文档矩阵A,Uk和Vk的行向量分别作为词向量和文档向量,在此基础上进行信息检索和信息过滤,这就是潜在语义索引技术。尽管它也是用文档中包含的词来表示文档的语义,但它并不把文档中所有的词看做文档概念的可靠表示。正相反,文档中用词的多样性很大程度上掩盖了文档的语义结构。潜在语义索引通过奇异值分解和取k-秩近似矩阵,一方面,消减了原词-文档矩阵中包含的“噪声”因素,从而更加凸显出词和文档之间的语义关系;另一方面,使得词、文档向量空间大大缩减,因而可以提供信息过滤的效率。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。