首页 理论教育 信息检索技术——便捷高效的信息利用

信息检索技术——便捷高效的信息利用

时间:2023-07-26 理论教育 版权反馈
【摘要】:计算机检索是用户需求和文献需求之间的匹配比较技术,其实质是信息检索提问式的构造技术。布尔逻辑检索、截词检索和限制检索是目前主流检索系统通用的检索技术,对于提高文献检索的查全率和查准率具有一定的意义。现在,布尔逻辑在电子学、计算机硬件和软件中有很多应用,已成为现行计算机检索的基本技术。

信息检索技术——便捷高效的信息利用

随着计算机技术、通信技术以及存储介质的不断发展,计算机检索已成为当前最主流的检索方式。计算机检索是用户需求和文献需求之间的匹配比较技术,其实质是信息检索提问式的构造技术。布尔逻辑检索、截词检索和限制检索是目前主流检索系统通用的检索技术,对于提高文献检索查全率查准率具有一定的意义。

1.布尔逻辑组配检索

布尔逻辑得名于英国数学家George Boole,他在19世纪中叶首次定义了逻辑的代数系统。现在,布尔逻辑在电子学、计算机硬件软件中有很多应用,已成为现行计算机检索的基本技术。布尔逻辑检索法是指利用布尔逻辑运算符连接各个检索词,然后由计算机进行相应逻辑运算,根据提问与系统中的记录进行匹配,当两者相符时则命中,并自动输入对应的文献记录。常用的布尔逻辑运算符分别是“OR”(或)、“AND”(与)、“NOT”(非),优先级为“NOT”>“AND”>“OR”。可使用“()”改变优先级,优先执行括号内的逻辑算式。例如(A OR B)NOT C,表明先执行“A OR B”的检索,再与NOT C 进行运算。各逻辑算符的含义与使用方法如下。

OR:逻辑或,用于组配具有同义或同族概念的检索词。使用方法为:A OR B,表明数据库记录中的任何一条记录,只要包含“A”或“B”中任何一个检索词即为命中文献。“OR”的使用可以扩大检索范围,增加命中文献量,提高文献的查全率。

检索示例:学科服务OR 学科建设OR 知识服务

检索式分析:文献内容中含有“学科服务”或“学科建设”或“知识服务”的文献为命中文献。

AND:逻辑与,用于表示其所连接的两个检索项的交叉部分,也即交集部分。使用方法为:A AND B,表明检索结果中必须同时含有“A”和“B”两个检索词。“AND”的使用可缩小检索范围,提高检索结果的查准率。

检索示例:学科服务AND 嵌入式

检索式分析:文献内容中同时包含“学科服务”和“嵌入式”的文献为命中记录。

NOT:逻辑非,用于排除不需要和影响检索结果的检索词。使用方式为:A NOT B,表明检索结果中含有检索词A 而不含检索词B,即将包含检索词B 的信息集合排除掉。“NOT”的使用可以排除不相关的检索范围,提高检索结果的相关性。

检索示例:电话手表NOT 小天才

检索式分析:检索结果中包含“电话手表”而不包含“小天才”的文献为命中记录。

在英文数据库中,布尔逻辑算符通常用字母表示,在中文数据库中,“NOT”“AND”“OR”可分别用“-”“*”“+”替代。例如,英文数据库的检索式为:cat AND mouse,在中文数据库中的检索式则为cat*mouse。

2.截词检索

截词检索是预防漏检提高查全率的一种常用检索技术,大多数系统都提供截词检索功能。截词是指在检索词的合适位置进行截断,然后使用截词符进行处理,既可节省输入的字符数目,又可达到较高的查全率。尤其在西文检索系统中,使用截词符处理自由词,对提高查全率的效果非常显著。常用的截词符有“?”“*”“$”。“*”可取代检索词中的0 到多个字符,属于无限截断;“?”可替代单词中的单个字符,属于有限截断。按截词的位置,可分为前方截词、中间截词和后截词三种。

(1)前方截词。

将截词符放在词根的前方,保持后方一致,表示在词根前方有无限个或有限个词符变化。如*computer可表示minicomputer、microcomputer 等。

(2)后截词。

将截词符放在词根的后方,保持前方一致,表示在词根后方有无限个或有限个词符变化。如comput*表示computer、computers、computing等。

(3)中截词。

中截词是将截词符号置于检索词的中间,保持词的前、后方一致,一般用于同一单词英美不同拼法的状况。如organi?ation可检索organization、organisation。

也有一种较为通行的说法,把中截断和后截断成为通配符,其原理和用法大致相同。

3.位置算符检索

运用位置算符表明两个检索词间的位置临近关系。这种检索技术通常出现在西文数据库中,在全文检索中应用较多。

常用的位置算符如下。

(1)W(With)算符。

A(W)B 表示A、B 两词之间必须紧挨,之间不允许有其他词,且位置关系不可颠倒。如Lenovo(W)PC 表示包含Lenovo PC 和Lenovo-PC 的文献记录均被命中。

A(nW)B表示A、B两词之间最多可插入n 个单词且位置关系不可颠倒。其中n 为整数,但n不能太多,否则运算符将失去意义。例如,computer(1W)retrieval 可检索到“computer information retrieval“computer document retrieval”等词。

(2)N(Near)算符。

A(N)B 表示A、B 两词之间必须紧挨,之间不允许有其他词,但词序可以颠倒。(www.xing528.com)

A(nN)B表示A、B两词之间可插入n个单词(n为整数),词序可变。例如economy(N)school可检索到economy school、school of economy等词。

(3)F算符。

“(F)”中的“F”的含义为“Field”,表示其两侧的检索词必须在同一字段(例如同在标题字段或文摘字段)中出现,词序不限,中间可插任意检索词项。economy(F)school 可检索到economy和school同时出现在标题字段或文摘字段的文献。

(4)PRE 算符。

A(PRE)B表示A、B两词相邻,按输入顺序排列。例如economy(PRE)school*可检索到economy school、economy schools等结果。

(5)SAME 算符。

A SAME B 将限定所连接的检索词出现在同一个句子或者一个关键词短语里。以WOK检索系统为例,在某些情况下,SAME 与AND 的作用完全相同。例如,在“主题”和“标题”中使用SAME 时,SAME 与AND 的作用完全相同。(cat SAME mouse)与(cat AND mouse)会得到相同的结果。

但是在,在“地址”检索中,可使用SAME 将检索限制为出现在“全记录”同一地址中的检索词。例如:(McGill Univ SAME Quebec SAME Canada)会查找到在“全记录”的同一“地址”字段中出现McGill University 以及Quebec 和Canada 的记录。

需要指出的是,不同的检索系统使用的位置算符不同,不同的算符在不同的系统中含义可能会有所区别。例如“W”算符,在Dialog 系统中表示两词相邻,输入顺序不变;在Pro-Quest 系统中,“W”算符表示两词相邻,顺序可变。因此,查看并仔细阅读各检索系统的帮助文件是正确使用位置算符的前提。

4.词根检索

有些检索系统不支持使用截词检索,默认支持词根检索。系统会预先配置好词根表,输入一个词,系统会自动检索出同一词根的一组词,例如输入“controllers”,可检索出control、controlling、controlled等。以EI 数据库为例,系统会设置词根检索(Turn autostemming on)为可选功能,用户可根据需要打开或关闭此功能。

5.字段检索

字段检索是指限定检索词在记录中出现的字段,检索时,系统只在限定字段内进行匹配运算,以提高查准率。被指定的字段又被称为检索入口。不同数据库和不同种类文献记录中所包含的字段数目不尽相同,字段名称也有差别。数据库中常见的字段和代码如表1-1所示。

表1-1 数据库常用检索字段列表

不同数据库的检索字段、字段名称和字段代码各有不同。以Medline 数据库为例,在常用检索字段之外,还可通过RN(Registry Number)、CH(Chemical)、IC(Identifying Codes)、CPD(Collaborating Partner)等字段进行检索。

一般而言,在网络数据库的简单检索界面,字段名称通常放置在下拉菜单中,用户选择即可。在高级检索界面,各检索字段、字段名称、字段代码和位置在不同数据库中有所不同,需要查看各数据库的使用说明。

6.精确检索与模糊检索

精确检索是查找与检索词形式上完全匹配的检索结果,一般应用在主题词、作者、作者单位等字段。模糊匹配是一种类似智能检索或概念检索的检索方式,系统会自动拆分检索词为单元概念,并进行逻辑与运算,无论词的位置怎样,只要出现该词即可。

为达到精确检索的目的,可将检索词加上双引号或将检索词放置在大括号内。例如,在作者单位字段中检索“电子科技大学”,那么西安电子科技大学、桂林电子科技大学等单位发表的论文就不会出现在检索结果中。

7.其他检索技术

(1)聚类检索。

聚类检索是在对文献进行自动标引的基础上,构造文献的形式化表示——文献向量,然后通过一定的聚类方法,计算出文献与文献之间的相似度,并把相似度较高的文献集中在一起,形成一个个的文献类的检索技术。根据不同的聚类水平的要求,可以形成不同聚类层次的类目体系。在这样的类目体系中,主题相近、内容相关的文献便聚在一起,而相异的则被区分开。

聚类检索的出现,为文献检索尤其是计算机化的信息检索开辟了一个新的天地。文献自动聚类检索系统能够兼有主题检索系统和分类检索系统的优点,同时具备族性检索和特性检索的功能。因此,这种检索方式将有可能在未来的信息检索中大有用武之地。

(2)加权检索。

加权检索是某些检索系统中提供的一种定量检索技术。加权检索同布尔逻辑检索、截词检索等一样,是文献检索的一个基本检索手段,但不同的是,加权检索的侧重点不在于判定检索词或字符串是不是在数据库中存在、与别的检索词或字符串是什么关系,而是在于判定检索词或字符串在满足检索逻辑后对文献命中与否的影响程度。运用加权检索可以命中核心概念文献,因此它是一种缩小检索范围、提高检准率的有效方法。

加权检索的基本方法是:在每个检索词后面加写一个数字,该数字表示检索词的“权”(Weight)值,表明该检索词的重要程度。在检索过程中,一篇文献是否被检索中,不仅看该文献是否与用户提出的检索词相对应,而且要依据它所含检索词的“权”值之和来决定。如果一篇文献所含检索词“权”值之和大于或者等于所指定的权值,该文献命中,如果小于所指定的权值,则不命中。不是所有系统都能提供加权检索这种功能,而能提供加权检索的系统,对权的定义、加权方式、权值计算和检索结果的判定等方面,又有不同的技术规范。

(3)禁用词表。

禁用词(Stop Words)是指在西文数据库中,系统对信息进行标引时,不能做标引词或检索词的词语,包括介词冠词、代词、连接词、某些形容词副词等。这些词语由于使用频率过高,不能反映信息的实际内容,即使用户输入,系统也不会对其进行检索,又称停用词、停止词等。由禁用词构成的词表为禁用词表,不同检索系统的禁用词表有所不同,需要查看。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈