首页 理论教育 计算机信息检索技术的应用

计算机信息检索技术的应用

时间:2023-08-02 理论教育 版权反馈
【摘要】:它是机检系统中最常用的一种检索方法。检索词A和检索词B用“与”组配,检索式为:A AND B或者AB,它表示检出同时含有A、B两个检索词的记录。逻辑“与”检索能增强检索的专指性,使检索范围缩小,此运算符适于连接有限定关系或交叉关系的词。逻辑“非”和逻辑“与”运算的作用类似,可以缩小检索范围,增强检索的准确性。检索时应注意了解各机检系统的规定。采用截词检索时,既要灵活,又要谨慎。

计算机信息检索技术的应用

1.布尔逻辑检索

布尔逻辑检索(Boolean Logical)是用布尔逻辑算符将检索词、短语或代码进行逻辑组配,指定文献的命中条件和组配次序,凡符合逻辑组配所规定条件的为命中文献,否则为非命中文献。它是机检系统中最常用的一种检索方法。逻辑运算符主要有:AND/与、OR/或、NOT/非,分述如下。

(1)逻辑“与”

运算符为“AND”或“∗”。检索词A和检索词B用“与”组配,检索式为:A AND B或者A∗B,它表示检出同时含有A、B两个检索词的记录。逻辑“与”检索能增强检索的专指性,使检索范围缩小,此运算符适于连接有限定关系或交叉关系的词。

(2)逻辑“或”

运算符为“OR”或“+”。检索词A和检索词B用“或”组配,检索式为:A OR B或者A+B,它表示检出所有含有A词或者B词的记录。逻辑“或”检索扩大了检索范围,此运算符适于连接有同义关系或相关关系的词。

(3)逻辑“非”

运算符为“NOT”或“-”。检索词A和检索词B用“非”组配,检索式为:A NOT B或者A-B,它表示检出含有A词,但同时不含B词的记录。逻辑“非”和逻辑“与”运算的作用类似,可以缩小检索范围,增强检索的准确性。此运算符适于排除那些含有某个指定检索词的记录。但如果使用不当,就会排除有用文献,导致漏检。

上述三种逻辑运算的关系见图2-2。对于一个复杂的逻辑检索式,检索系统的处理是从左向右进行的。在有括号的情况下,先执行括号内的运算;有多层括号时,先执行最内层括号中的运算,逐层向外进行。在没有括号的情况下,“AND”“OR”“NOT”的运算次序,在不同的系统中有不同的规定,例如DIALOG系统中依次为“NOT→AND→OR”;STAIRS系统和ORBIT系统中依次为“AND”和“NOT”按自然顺序执行,然后执行“OR”运算。检索时应注意了解各机检系统的规定。

图2-2 三种逻辑运算的关系图

2.截词检索

截词检索(Truncation)是指用给定的词干作为检索词,查找含有该词干的全部检索词的记录,也称词干检索或字符屏蔽检索。它可以起到扩大检索范围,提高查全率,减少检索词的输入量,节省检索时间,降低检索费用等作用。检索时,若遇到名词的单数、复数形式,词的不同拼写法,词的前缀或后缀变化,则均可采用此方法。

截词的方式有多种,按截断部位可分为右截断、左截断、中间截断、复合截断等;按截断长度可以分为有限截断和无限截断。

(1)右截断

截去某个词的尾部,是词的前方一致比较,也称前方一致检索。例如输入“geolog?”(“?”为截断符号),将会把含有“geological”“geologic”“geologist”“geologize”“geology”等词的记录检索出来。若输入“PY=199?”,就会把20世纪90年代的记录全部查出来。

(2)左截断

截去某个词的前部,是词的后方一致比较,也称后方一致检索。例如输入“?magnetic”能够检出含有“magnetic”“electromagnetic”“paramagnetic”“thermo-magnetic”等词的记录。

(3)中间截断

截去某个词的中间部分,是词的两边一致比较,也称两边一致检索。例如输入“organi?ation”可以检出“organization”“organisation”;输入“ft”可查出“foot”“feet”。

(4)复合截断

同时采用两种以上的截断方式。例如“chemi”可以检出“chemical”“chemist”“chemistry”“electrochemistry”“electrochemical”“physicochemical”“thermochemistry”等。

(5)有限截断

允许截去有限个字符。例如“acid”表示截去一个字符,它可检出“acid”“acids”,但不能检出“acidic”“acidicity”“acidity”等词。又如“comput”可检出“compute”“computer”“computers”“computing”等词,不能检出“computable”“computation”“computerize”等词。注意:词干后面连续的数个问号是截断符,表示允许截去字符的个数,最后一个问号是终止符,它与截断符之间要有一个空格。

(6)无限截断

允许截去的字符数量不限,也称开放式截断。上面右截断、左截断所举的例子均属此类型。

综上所述,任何一种截词检索,都隐含着布尔逻辑检索的“或”运算。采用截词检索时,既要灵活,又要谨慎。截词的部位要适当,如果截得太短(输入的字符不得少于3个),就将增加检索噪声,影响查准率。另外,不同的机检系统使用的截词符不同,各数据库所支持的截断类型也不同,例如DIALOG系统和STN系统用“?”,ORBIT系统用“:”,BRS系统用“$”,ESA-IRS系统用“+”等。

3.位置检索

位置检索(Proximate)是在检索词之间使用位置算符(也称邻近算符,Adjacent Operators),来规定运算符两边的检索词出现在记录中的位置,从而获得不仅包含有指定检索词而且这些词在记录中的位置也符合特定要求的记录。这种方法能够提高检索的准确性,当检索的概念要用词组表达,或者要求两个词在记录中位置相邻/相连时,可使用位置运算符。机检系统中常用的位置运算符(按限制强度递增顺序排列)如下。(www.xing528.com)

(1)(f)运算符(Field)

要求被连接的检索词出现在同一字段中,字段类型和词序均不限。例如happiness(f)sadness and crying,又如pollution(f)control/ti,ab。

(2)(s)运算符(Sub-field/Sentence)

要求被连接的检索词出现在同一句子(同一子字段)中,词序不限。例如machine(s)plant。

(3)(n)运算符(near)

要求被连接的检索词必须紧密相连,词之间除允许有空格、标点、连字符外,不得夹单词字母,词序不限;(Nn)表示两个检索词之间最多可以夹N个词(N为自然数1、2、3……),且词序任意。例如information(n)retrieval可以检出information retrieval和retrieval information,又如econom(2n)recovery可以检出economic recovery、recovery of the economy、recovery from economic troubles。

(4)(w)运算符(With)

要求检索词必须按指定顺序紧密相连,词序不可变,词之间除允许有空格、标点、连字符外,不得夹单词或字母;(Nw)表示连接的两个词之间最多可夹入N个词(N为自然数),词序不得颠倒。例如input(w)output可检出input output,而wear(1w)materials可检出wear materials、wear of materials。

采用运位置算符检索时,通常将最严谨的运算符放在最左面,例如:european(w)economic(w)community(f)patio,redwood(3n)deck?(s)(swimming(w)pool?)。

说明:不同的机检系统,位置检索的功能及运算符不同,应参看机检系统的说明。

4.限制检索

限制检索(Range)是通过限制检索范围,达到优化检索结果目的的方法。限制检索的方式有多种,例如进行字段检索、使用限制符、采用限制检索命令等。

(1)字段检索

字段检索是把检索词限定在某个/些字段中,如果记录的相应字段中含有输入的检索词则为命中记录,否则检不中。

例如,查找微型机和个人计算机方面的文章,要求“微型机”一词出现在叙词字段、标题字段或文摘字段中,“个人计算机”一词出现在标题字段或文摘字段中,检索式可写为:microcomputer/de,ti,ab OR personal computer/ti,ab。

又如查找wang wei写的文章,可以输入检索式:au=wang wei。

(2)使用限制符

使用限制符是指用表示语种、文献类型、出版国家、出版年代等的字段标识符来限制检索范围。例如要查找2015年出版的英文或法文的微型机或个人计算机方面的期刊,其检索式为:(microcomputer/de,ti,ab OR personal computer/ti,ab)AND PY=2014 AND(LA=EN OR FR)AND DT=Serial。

(3)使用范围符号

如Less than、Greater than、From to等;如查找1979—2008年的文献,可表示为:PY=1979:2008或者PY=1979 to PY=2008。

又如查找2000年以来的计算机方面的文献,可表示为computer AND Greater than 1999。

查找在指定的文摘号范围内有关地震方面的文献,可表示为earthquake/635000-800000。

(4)使用限制指令

限制指令可以分为:一般限制指令(Limit,它对事先生成的检索集合进行限制)、全限制指令(Limit all,它是在输入检索式之前向系统发出的,它把检索的全过程限制在某些指定的字段内)。

例如“Limit S5/328000-560000”表示把先前生成的第5个检索集合限定在指定的文摘号内。又如“Limit all/de,ti”表示将后续检索限定在叙词和题名字段。

上述几种限制检索方法既可以独立使用,也可以混合使用。

5.加权检索

加权检索是指根据检索词对检索课题的重要程度,事先指定不同的权值。检索时,系统先查找这些检索词在数据库记录中是否存在,并对存在的检索词计算它们的权值总和;凡是在用户指定的临界值(称阈值)之上者作为命中记录并被输出。阈值可视命中记录的多少灵活地进行调整,阈值越高,命中记录越少。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈