首页 理论教育 经典信息检索模型与短文本表示建模及应用

经典信息检索模型与短文本表示建模及应用

时间:2023-11-18 理论教育 版权反馈
【摘要】:根据相关度判别方法的不同,已发展出了多种类型的信息检索模型,比较有代表性的模型有布尔检索模型、向量空间模型等。布尔检索模型的这些缺陷决定了它不适合应用于现在主流的互联网搜索中。向量空间模型、词频和逆文档频率几乎构成了现代信息检索的基础,它们简单、易于实现和量化,并在实际的系统中取得了较好的效果,现有的绝大多数商业或实验信息检索系统都基于向量空间模型。

经典信息检索模型与短文本表示建模及应用

经典信息检索的目的是根据用户的查询(即关键词)从大量文档中找到满足用户要求的相关文档,其核心问题是判别相关文档和无关文档。相关检索理论及模型就是判断文档是否与查询相关和对相关文档进行排序的数学模型。根据相关度判别方法的不同,已发展出了多种类型的信息检索模型,比较有代表性的模型有布尔检索模型、向量空间模型等。

1.布尔检索模型

布尔(Boolean)检索模型[1]是最典型的一种集合模型,是信息检索系统提供的基本功能,在传统的信息检索中有着广泛应用。它将文档表示成布尔表达式,然后将其通过与用户的查询表达式进行逻辑比较来检索相关文档。

标准布尔逻辑模型是二元逻辑。在布尔模型中,首先要针对文档定义一系列二元特征项,这些特征项一般是从文档中提取的文档索引关键词,有时也包括一些更为复杂的特征项,如数据、短语、私人签名和手工加入的描述词等。其次,使用这些特征项的集合来表示文档di=(wi1,wi2,…,win),其中,n是特征项的个数;wik(k=1,2,…,n)的值为True或False,如果特征项wik在文档di中出现,就赋予True值,反之置为False。

在布尔检索模型中,用户可以根据查询关键词在文档中的布尔逻辑关系,用∧(AND)、∨(OR)、¬(NOT)等逻辑运算符将多个关键词连接成一个逻辑表达式来提交查询。匹配函数由布尔逻辑的基本法则确定,通过对文档表达式与用户查询表达式的逻辑比较进行检索,所检索出的文档要么与查询相关,要么与查询无关。

布尔检索模型相对比较简单,在早期被广泛应用于文献数据库的检索中,现仍然应用于某些著名的文献数据库,如PubMed。但是布尔检索模型有一些明显的缺陷和不足:首先,布尔检索模型基于布尔表达式的真假对文档进行检索,每个文档要么与查询相关,要么与查询无关,无法量化表示文档和查询之间的相关程度,因此无法按照相关性对返回的文档进行排序;其次,在布尔检索模型中,要想进行高效率的检索,用户就需要非常了解自己所要检索的主题并具备一定的专业知识,并且能够把自己的信息需求准确地转化为布尔表达式,但这对于非专业的用户来说是很难做到的。布尔检索模型的这些缺陷决定了它不适合应用于现在主流的互联网搜索中。

2.向量空间模型

向量空间模型(Vector Space Model,VSM)已成为现代信息检索系统中最常用的模型,基于向量空间模型开发的SMART信息检索系统也成为后来信息检索实验系统的样板[1,243]。向量空间模型克服了使用布尔检索模型中二元权值的缺点,采用非二元权值来表示特征项在文档和用户查询中的权重,提出了允许部分匹配的模型结构。在向量空间模型中,文档使用特征项构成的加权向量来表示:Di=(w1,weight(w1,Di);w2,weight(w2,Di);…;wn,weight(wn,Di))。其中,n是特征项的个数;特征项wk与布尔模型中的特征项类似;weight(wk,Di)为特征项wk在文档i中的权重。(www.xing528.com)

通常有两种方法来确定权值weight(wk,Di)。一种方法是由专家(或用户)根据自己的经验与所掌握的领域知识进行人为地赋予权值,但是这种方法随意性很大、效率很低,很难适用于大规模文档集的处理。另一种方法是运用统计学的知识,也就是用文档的统计信息(如词频、词语之间的共现频率等)来计算项的权重,大部分统计方法都基于香农信息论原理:如果某特征项在所有文档中出现的频率越高,那么它所包含的信息熵也就越少;如果某特征项只在少量文档中有较高的出现频率,那么该特征项就会拥有较高的信息熵。

目前被广泛采用的权值计算公式是词频−逆文档频率(Term Frequency- Inverse Document Frequency,TF-IDF),公式如下:

式中,TF(wk,Di)——词频,表示特征项wk在文档Di中的频率;

IDF(wk,Di)——逆文档频率,表示特征项wk反比文档频率。

文档之间或者文档与用户查询之间的(内容)相关程度(Degree of Relevance)通常用它们之间的相似度sim(Di,Dj)来度量。当文档和查询均被表示为向量空间模型时,可以借助于向量之间的某种距离来表示二者之间的相似度,常用向量之间的内积进行计算,即

相似度sim(Di,Dj)越大,说明两个文档(或文档和用户)查询之间的相关度越大。因此,可以根据相似度进行排序。向量空间模型、词频和逆文档频率几乎构成了现代信息检索的基础,它们简单、易于实现和量化,并在实际的系统中取得了较好的效果,现有的绝大多数商业或实验信息检索系统都基于向量空间模型。向量空间模型的一个缺点是它假设词语与词语之间是独立的,但这个假设与实际的应用场景并不完全相符。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈