首页 理论教育 网络信息检索的基本方法介绍

网络信息检索的基本方法介绍

时间:2023-07-23 理论教育 版权反馈
【摘要】:信息检索过程实际上是检索词与标引词比较匹配的过程。在网络信息检索中,基本的检索方法有布尔逻辑检索、位置检索、截词检索、限定检索等。布尔逻辑检索是最简单、最基本的检索方法,几乎所有的信息检索系统和搜索引擎都支持布尔逻辑检索。同一位置算符,检索系统不同,规定的位置算符也不同。信息检索中常用的截词方式有前截词、中间截词、后截词三种类型,常用的截词符有“?”

网络信息检索的基本方法介绍

信息检索过程实际上是检索词与标引词比较匹配的过程。在网络信息检索中,基本的检索方法有布尔逻辑检索、位置检索、截词检索、限定检索等。

(一)布尔逻辑检索

布尔逻辑检索是指利用布尔逻辑运算符连接各个检索词,然后由计算机进行相应逻辑运算,以找出所需信息的方法。布尔逻辑检索是最简单、最基本的检索方法,几乎所有的信息检索系统和搜索引擎都支持布尔逻辑检索。主要的运算符有逻辑“与”、逻辑“或”、逻辑“非”(见表3-3)。

1.逻辑“与”

逻辑“与”指用“AND”或“”连接,用于表示其所连接的两个检索词的交叉部分,也即交集部分。检索式A AND B(AB)表示同时含有A或B的文献是命中文献。逻辑“与”是为了增加限制条件、缩小范围,以减少文献输出量,提高检准率。如查“彝族文化”的检索式为:彝族AND文化或彝族文化。

2.逻辑“非”

逻辑“非”指用“NOT”或“-”连接,用于连接排除关系的检索词,即排除不需要的和影响检索结果的概念。检索式A NOT B(或A-B)表示含有检索词A不含B的文献都是命中文献。逻辑“非”能缩小命中文献范围,增强检索的准确性。如在中国知网查找“彝学研究”期刊论文1694篇,用“彝族研究NOT会议论文”查找,检索结果为183篇。

3.逻辑“或”

逻辑“或”指用“OR”或“+”连接,用于连接并列关系的检索词。检索式A OR B(或A+B)表示凡含有A或B其中之一,或同时含有A或B的文献均为命中文献。逻辑“或”可以放宽范围,增加检索结果,提高查全率。如查找“支格阿鲁”的检索式为:支格阿鲁OR支格阿龙或支格阿鲁+支格阿龙。

表3-3 主要的运算符逻辑“与”、逻辑“或”、逻辑“非”

4.运算优先级

在布尔逻辑运算中,运算优先级别从高至低依次是NOT、AND、OR。在一个检索式中,可以同时使用多个逻辑运算符,用单层或多层括号来分清运算秩序,构成一个复合逻辑检索式。有括号的检索式运算优先级别是:先进行括号内的运算,再进行括号外的运算,括号外按NOT、AND、OR的优先级别先后进行,如检索式(A OR B)AND(C NOT D)的运算顺序是:先进行(A AND B)和(C NOT D)的运算,再进行AND的运算。

(二)位置检索

位置检索,也叫临近检索。文献记录中,词语的相对次序或位置不同,所表达的意思可能不同,而同样一个检索表达式中词语的相对次序不同,其表达的检索意图也不一样。布尔逻辑运算符有时难以表达某些检索课题确切的提问要求。字段限制检索虽能使检索结果在一定程度上进一步满足提问要求,但无法对检索词之间的相对位置进行限制。位置算符检索是用一些特定的算符(位置算符)来表达检索词与检索词之间的临近关系,并且可以不依赖主题词表而直接使用自由词进行检索的技术方法。根据两个检索出现的顺序距离,位置算符可以有多种。同一位置算符,检索系统不同,规定的位置算符也不同。下面以美国DIALOG检索系统使用的位置算符为例。

1.“(W)”算符(www.xing528.com)

“W”的含义为“with”。这个算符表示其两侧的检索词必须紧密相连,除空格和标点符号外,不得插入其他词或字母,两词的词序不可以颠倒。“(W)”算符还可以使用其简略形式“()”。例如,检索式为communication(W)satellite时,系统只检索含有“communication satellite”词组的记录。

2.“(nW)”算符

“(nW)”中的“W”的含义为“word”,表示此算符两侧的检索词必须按此前后邻接的顺序排列,顺序不可颠倒,而且检索词之间最多有n个其他词。例如,用laser(nW)printer检索出包含“laser printer”“laser color printer”和“laser and printer”的记录。

3.“(N)”算符

“(N)”中的“N”的含义为“near”。这个算符表示其两侧的检索词必须紧密相连,除空格和标点符号外,不得插入其他词或字母。两词的词序可以颠倒。

4.“(nN)”算符

“(nN)”表示允许两词间插入最多为n个其他词,包括实词和系统禁用词。

5.“(F)”算符

“(F)”中的“F”的含义为“field”。这个算符表示其两侧的检索词必须在同一字段(例如同在题目字段或文摘字段)中出现,词序不限,中间可插任意检索词项。

6.“(S)”算符

“(S)”中的“S”算符是“Sub-field/sentence”的缩写,表示在此运算符两侧的检索词只要出现在记录的同一个子字段内(例如,在文摘中的一个句子就是一个子字段),此信息即被命中。它要求被连接的检索词必须同时出现在记录的同一句子(同一子字段)中,不限制它们在此子字段中的相对次序,中间插入词的数量也不限。例如,high(W)strength(S)steel表示只要在同一句子中检索出含有“high strength和steel”形式的均为命中记录。[3]

(三)截词检索

截词检索是指检索词一部分不变,另一部分用专门的截词符号代替进行的检索。信息检索中常用的截词方式有前截词、中间截词、后截词三种类型,常用的截词符有“?”“S”和“” 等。不同的检索系统,截词符及其功能不完全相同,如Dialog系统的截词符为“?”,INSPEC系统的截词符为“”或“?”,Elsevier Science Direct系统和EBSCO系统的截词符为“”。因为英文单词的构词特点,截词检索在英文信息检索中运用非常广泛,在正文检索中也常有应用,如不知道作者具体名字时,可以用“张?”检索出张姓的所有作者。

(四)限定检索

限定检索是为了提高检索的查全率和查准率,将检索过程限定在特定的范围或特定的字段中进行的检索。以中国知网为例,用户检索可以限定以下字段:文献全文(FT)、篇名(TI)、主题(SU)、关键词(KY)、摘要(AB)、作者(AU)、作者单位(AF)、中图分类号(CLC)等。例如,在“专业检索”选项下用检索表达式SU=凉山彝族and FT=精准扶贫进行检索,可以检索到主题包括“凉山”及“彝族”并且全文中包括“精准扶贫”的信息。另外,中国知网还可以限定文献来源数据库(全部期刊、SCI来源期刊、EI来源期刊、核心期刊、CSSCI、CSCD)、发表时间、文献的支持基金、学科等检索范围,并提供在结果中检索等二次检索功能。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈