首页 理论教育 计算机信息检索技术介绍及应用探究

计算机信息检索技术介绍及应用探究

时间:2023-07-07 理论教育 版权反馈
【摘要】:信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。目前,计算机信息检索技术已经从基本的布尔逻辑检索、截词检索、邻近检索、短语检索、字段检索,发展为高级的加权检索、自然语言检索、模糊检索、概念检索和相关检索等多种技术并存。

计算机信息检索技术介绍及应用探究

信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。由于信息检索提问式是用户需求与信息集合之间匹配的依据,所以信息检索技术的实质是信息检索提问式的构造技术。目前,计算机信息检索技术已经从基本的布尔逻辑检索、截词检索、邻近检索、短语检索、字段检索,发展为高级的加权检索、自然语言检索、模糊检索、概念检索和相关检索等多种技术并存。每一种信息检索系统都有自己特定的检索技术,因此,计算机信息检索技术的掌握是进行计算机信息检索的基础。

1.布尔逻辑检索

逻辑检索是一种开发较早、比较成熟、在信息检索系统中广泛应用的技术。布尔逻辑检索就是采用布尔关系运算符来表达检索词与检索词之间逻辑关系的检索方法,目前最常用的布尔逻辑运算符主要包括“与”(AND)、“或”(OR)、“非”(NOT)。

(1)逻辑“与”。

逻辑“与”,也称为逻辑乘,用AND或“*”表示,是用来组配不同含义检索词之间的限定关系。检索词A、B若以AND(或“*”)相连,即A AND B(或A*B),表示同时包含A、B两词的文献才是命中记录,因而逻辑“与”可用于对检索词进行限定,从而缩小检索范围,提高检索结果的查准率

例如,要查找children education(儿童教育)方面的文献,检索逻辑式可表示为“education*children”或者“education AND children”。运算的结果是同时含有education和children的文献才被检索出来。

(2)逻辑“或”。

逻辑“或”,也称为逻辑加,用OR或者“+”表示,是用来组配同义或者同族检索词之间的并列关系。检索词A、B若以OR(或“+”)相连,即A OR B(或A+B),表示只要含有A、B之一或者同时包含A、B的文献都是命中记录。因而逻辑“或”可用于扩大检索范围,增加命中文献数量,提高检索结果的查全率

例如,要查找“汽车”方面的文献,因为汽车在英语中可以用car或者automobile表示,所以为了将有关汽车的文献全部检出,避免漏检,检索逻辑式就可表示为“car+automobile”或者“car OR automobile”。运算的结果是含有car或者automobile任意一个或者同时两个的文献均被检索出来。

(3)逻辑“非”。

逻辑“非”用NOT或者“-”来表示,是用来组配概念的包含关系,可以从原检索范围中排除一部分,因而使用逻辑“非”组配可以缩小检索范围。检索词A、B若以NOT(或“-”)相连,即A NOT B(或A-B),表示只含有检索词A而不含有B的文献才是命中记录。逻辑“非”可用于缩小检索范围,但是不一定能提高文献命中的准确率。在使用时要注意,避免将相关的有用文献排除在外。

例如,要查找有关energy(能源),但又不涉及“nuclear(核能)”方面的文献,检索逻辑式可表示为“energy NOT nuclear”或者“energy-nuclear”。运算的结果是含有energy,但不含有nuclear的文献将被检索出来。

上面三种检索逻辑式是最为简单的布尔逻辑运算。在检索实践中,可以根据实际需要,组合使用多个布尔运算符,以准确表达检索主题。

布尔逻辑检索与人们的思维习惯一致,表达清晰,方便用户进行扩检和缩检,而且易于计算机实现,因此在计算机信息检索系统中得到广泛应用。但是它无法反映检索词对于检索的重要性,无法反映概念之间内在的语义联系,因而检索结果不能按照用户定义的重要性排序输出。

2.截词检索

截词检索是利用检索词的词语或不完整的词形查找信息的一种检索方法。用相应的截词符(如“?”“*”等)代替检索词的可变化部分,让计算机按照检索词的片段同标引词进行对比匹配,这样可以简化检索程序,扩大检索范围,以提供族性检索的功能,提高查全率。截词检索按照截断的位置划分,可分为右截断(前方一致)、左截断(后方一致)、左右截断(中间一致)和中间截断四种方法。

(1)右截断。

右截断即将检索词的词尾部分截断,要求比较匹配检索词的前面部分,是一种前方一致的检索。这种方法可以省略输入各种词尾有变化的检索词的麻烦,有助于提高查全率。

例如,输入检索词“econom*”(“*”为截断符号)可以检索出任何以econom开头的检索词的文献,如economic、economics、economist、economize、economy等。

一些计算机检索系统规定了右截断的限度,可在截断符号后加入一个限定字母数的值,例如“Circ*3”可检出包括Circle、Circlet,但不包括Circuitry、Circulation的文献。

(2)左截断。

左截断即将检索词的词头部分截断,要求比较检索词的后面部分,是一种后方一致的检索。这种方法可以省略输入各种词头有变化的检索词的麻烦,有助于提高查全率。

例如,输入检索词“*biology”(“*”为截断符号),可以检索出任何以biology结尾的检索词的文献,如electrobiology、neurobiology、pathobiology等。

(3)左右截断。

左右截断即将检索词左右词头、词尾部分同时截断,检索词中间一致,只要检索词中含有指定的词干即为合法检索词。

例如,输入检索词“*biolog*”可以检索出含有该词干的所有索引词的文献,如neurobiology、neurobiologist、microbiology、microbiologist等。这种检索方式在检索较广泛课题的资料时比较有用,可以获得较高的查全率。

(4)中间截断。

中间截断即在检索词中间嵌入截断符,允许检索词中间有若干形式的变化。检索时,检索词中嵌入的字母与截断符号数相同即为合法检索词。

例如,输入检索词“wom*n”,可以检索出包含women、woman的文献。

目前截词检索在计算机信息检索系统中有广泛应用,利用截词检索可以减少检索词的输入量,简化检索,扩大查找范围,提高查全率,但也有可能检索出大量无关资料。不同检索工具有自己的截词规则,使用时要注意。有的是自动截词,有的是在一定条件下才能截词。在允许截词的检索工具中,一般是指右截词,部分支持中间截词,前截词较少。有的需要限定截断的字符数量,有的是无限制截断。检索工具中使用的截词符没有统一标准,如Dialog用“?”,BRS系统用“$”,ORBIT系统用“#”等。

3.邻近检索

邻近检索,又称位置检索,主要是通过位置运算符来规定和限制检索词之间的相对位置。引入位置运算符的目的是弥补布尔逻辑运算符某些提问式的不足,表达复杂专深的概念,从而提高检索的专指度。常用的位置运算符介绍如下。

(1)相邻位置算符:(W)或者(nW)、(N)或者(nN)。

①(W)——with或(nW)——nword:

(W)是with的缩写,表示在此运算符两侧的检索词按前后衔接的顺序排列,次序不许颠倒,而且两个检索词之间不许有其他的词或者字母出现,但允许有空格或标点符号。例如CD(W)ROM相当于检索“CD-ROM”或者“CDROM”。

(nW)是nword的缩写,表示在此算符两侧的检索词之间允许插入不多于n个的实词或虚词(通常指系统中出现频率较高而不能用来检索的冠词介词和连接词,如an、in、by、other、to、with等),两个检索词的次序不允许改变。如“control(1W)system”,可以检索出含有control system、control of system或control in system。

②(N)——near或(nN)nnear:

(N)是near的缩写,表示在此运算符两侧的检索词彼此相邻,次序可以颠倒,但两个检索词之间除空格或标点符号外不允许有其他的词或字母出现。如输入“robot(N)control”,可以检索出含有robot control或者control robot的文献记录。

(nN)是nnear的缩写,表示在此运算符两侧的检索词之间允许插入不多于n个的实词或虚词,两个检索词的次序可以改变。如“control(1n)system”,不仅可以检索出含有control system、control of system或control in system的文献记录,还可以检索出含有system of control,甚至system without control等的文献记录。

(2)字段算符(F)、(L)。

①(F)——in the same field:

(F)是field的缩写,表示在此运算符两侧的检索词必须同时出现在文献记录的同一字段内,如出现在篇名字段、叙词字段、文摘字段等,两个检索词的前后顺序不限,夹在两个检索词之间的词的个数也不限。例如输入“robot(F)control”,可以检索出在篇名字段或叙词字段等同一字段中同时包括robot和control的文献记录。

②(L)——link:

(L)是link的缩写,表示在此运算符两侧的检索词必须同在数据库界定的同一规范词字段中出现,两个词之间具有一定的从属关系,可以用来连接主标题词和副标题词。(www.xing528.com)

(3)句子位置算符。

(S)——in the same subfield or Sallie paragraph

(S)是subfield的缩写,表示在此运算符两侧的检索词只要在一个子字段(如在文摘中,一个句子就是一个子字段)或者全文数据库的一个段落中出现,就符合检索提问的要求,两个检索词的次序和插入词的个数不限。例如输入“expert(w)system(s)medical”,则可以查到所有子字段含有expert system和medical这两个词的文献。

相邻位置算符、字段位置算符、句子位置算符可连用,顺序为A(W)B(S)C(F)Do在同一检索式中,如果两个检索词之间的位置算符由(W)—(S)—(F),说明检索范围越大,查全率越提高;反之,检索范围小,查准率提高。位置检索对提高检索的查准率和查全率有重要作用,但网络检索中基本只支持(W)和(N)。

4.限制检索

限制检索是通过限制检索范围达到优化检索结果的方法。限制检索的方式有多种,例如字段检索、使用限制符、采用限制检索命令等,这些限制检索方法既可独立使用,也可以混合使用。

(1)字段检索。

把检索词限定在某个(些)字段中,如果记录的相应字段中含有输入的检索词则为命中记录,否则就为检不中。联机、光盘信息检索系统的数据库记录都是由各种字段组成的,检索的时候可以限定检索词出现的字段范围,以缩小检索范围,提高查准率。对于网络信息而言,网络信息一般不分字段,但是一些网络信息检索工具设计了类似于字段检索的功能,依据这类功能,用户可以把查询WWW信息的检索范围限制在标题、统一资源定位地址(URL)或超链接等部分。例如“TITLE:北京大学”这一检索提问可以查得网页题名中含有“北京大学”的网页。

(2)使用限制符。

用表示语种(LA)、文献类型(DT)、出版年代(PY)等的标识符来限制检索范围。例如,要查找1999年出版的英文或法文的个人计算机方面的期刊,检索式可表示为“(personal computer/ti,ab)AND PY=1999 AND(LA=EN OR FR)AND DT=Serial”。

(3)使用范围符号。

符号如Lessthan、Greaterthan、Fromto等。如查找1989—1999年的文献,检索式可表示为:“PY=1989:1999”或者“PY=1989 to PY=1999”。又如,查找2000年以来的计算机方面的文献,检索式可表示为“computer??And Greater than1999”。

(4)使用限制指令。

限制指令可以分为一般限制指令Limit(它对事先生成的检索集合进行限制)和全限制指令Limit all(它是在输入检索式之前向系统发出的,它把检索的全过程限制在某些指定的字段内)。Dialog系统的检索指令就包括了Limit命令。

例如,“Limit S5/328000-560000”表示把先前生成的第5个检索集合限定在指定的文摘号内。又如,“Limit all/de,ti”表示将后续检索限定在叙词和题名字段。

5.区分大小写检索

大小写有别是英文等西方文字中的一个特点。在查找西文信息时,区分大小写这一检索特性有助于提高查准率。为此,许多的网络信息检索工具让用户选择是否分辨检索词的大小写。例如Web专指万维网,而web表示蜘蛛网。这一检索功能尤其有助于对专有名词的检索查询。

6.短语检索

短语检索也称为精确检索(Exact search),将检索词用双引号(“”)括起,检索出与双引号内形式完全相同的短语,以提高检索的精度和准确度。

7.加权检索

检索提问式中不同检索词的重要性是不同的,因此,可以用一定的数值来表示它们的重要性,这就出现了定量检索技术——加权检索。加权检索的基本方法就是在检索时赋予每个检索词一个表示其重要程度的数值,即所谓的“权值”。检索过程中,对含有这些检索词的文献进行加权计算,权值之和在规定的数值(称为阈值)之上才会作为检索结果输出,权值的大小可以反映被检出文献的切题程度。

运用加权检索可以命中核心概念文献,因此它是一种缩小检索范围、提高查准率的有效方法。其重点不在于判定检索词是否在某一文献中存在以及与其他检索词的关系,而在于判定检索词在满足检索逻辑后对文献命中与否的影响程度。

目前加权检索在信息检索系统中的应用还很不完善,并不是所有系统都提供这种检索技术。而能提供加权检索的系统,对权的定义、加权方式、权值计算和检索结果的判定都有不同的技术规范。不过现在几乎约定俗成,加号“+”表示检索词一定要出现在检索结果中,而减号“-”表示某检索词一定不能出现在检索结果中。目前存在两种基本的加权检索方法,即词加权检索和词频加权检索。

(1)词加权检索。

词加权检索是指在构造检索方式时,检索者根据对检索需求的理解选定检索词,同时每一个检索词(概念)被赋予一个数值(权重),表示其在本次检索中的重要程度。检索时先判断检索词在文献记录中是否存在,然后计算存在检索词的记录所包含的检索词的权值总和,通过与预先给定的阈值进行比较,权值之和达到或超过阈值的记录视为命中记录,命中记录的输出按权值总和从大到小排列输出。这种给检索词加权来表达信息需求的方式,称为词加权。

检索词的权值是按照提问者的需要给出的。加权运算符的表示如表4-1所示。

表4-1 加权运算符的表示

例如,以“粮食收购政策”为检索课题,给检索词“粮食”“政策”和“收购”分别赋予权值30、30和40。检索时,在关键字文本框内输入“粮食/30*政策/30*收购/40”,单击查询,则依所含关键词的权重检出相应记录,按权值递减排列如下:

100=30+30+40 粮食收购政策

70=30+40 粮食收购

60=30+30 粮食政策

若规定权值大于或者等于70的为命中文献(70为阈值),则只有有关粮食收购政策和粮食收购的文献被打印输出。

(2)词频加权检索。

词频加权检索是根据检索词在文档记录中出现的频率来决定该检索词的权值的,而不是由检索者指定检索词的权值。这种方法消除了人工干预因素,但是必须建立在全文或者文摘型数据库基础之上,否则词频加权将没有意义。

8.自然语言检索

自然语言检索是指用户在检索时可输入用自然语言表达的检索要求。在检索过程中,检索工具收到用户的提问后,首先利用一个禁用词表从提问式中剔除那些没有实质主题意义的词汇,然后将余下的词汇作为关键词进行检索。

9.模糊检索

模糊检索允许被检索信息和检索提问之间存在一定的差异。这种差异一部分来自用户在输入检索提问式时的输入错误,例如少输入一个字,打错一个字母等,另一部分差异来自某些词汇在不同国家的不同表现形式。检索工具能够估计到这些词汇的正确形式或者其他变形,使用户能够检索到正确词汇或者以其他变形形式标引的结果。

10.概念检索

概念检索是用户输入一个检索词后,检索工具不仅能检出包含这个具体词汇的结果,还能检出包含与词汇属于一类概念的词汇的结果。例如,检索automobile时能找出包含automobile、car、trunk、van、bus等任一词汇的结果。又如,在查找公共交通这一概念时,有关“公共汽车”“地铁”等的信息也能检索出来。在此意义上,概念检索实现了受控检索语言的一部分功用,即考虑到了同义词、广义词和狭义词的使用。至今为止,搜索引擎Excite在概念检索方面取得了比较明显的成就。

11.相关检索

相关检索是目前大多数搜索引擎提供的一种检索技术。当使用关键词检索时,除得到相应的检索结果之外,在结果页面的上方或者下方会出现与检索词相关的一些关键词,单击这些关键词就可以得到其相应的搜索结果。相关检索可以避免重复输入搜索关键词,并给出选择的范围,使用户更容易地找到真正想得到的信息,大大提高搜索效率,减少找到有效信息所花费的时间。

上述的多种信息检索技术,一些是联机信息检索、光盘信息检索和网络信息检索系统全部支持的,但是像自然语言检索、模糊检索、概念检索、相关检索等信息检索技术是网络信息检索系统所特有的。在实际的检索实践中,往往可将上述多种检索技术混合使用,从而构造一个适当的检索提问式,提高检索结果的查全率和查准率。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈