首页 理论教育 文献检索效果评价及其应用研究

文献检索效果评价及其应用研究

时间:2023-11-30 理论教育 版权反馈
【摘要】:为此有必要对检索效果进行评价,以便找出和分析检索中存在的问题,以及影响文献检索效果的各种因素,进一步提高文献检索的有效性。查全率小于 100% 时,则称有漏检的信息线索记录存在。查全率较低时产生的漏检可能会导致严重的后果。检索效果是研究信息检索原理的核心,是评价一个检索系统性能优劣的质量标准。

文献检索效果评价及其应用研究

在第一章我们提到,文献检索效果是指用户利用文献检索系统进行检索所产生的

有效结果。作为文献需求的用户,其主观愿望是希望在最短的时间内获取最满意的文

献结果。但在实际检索时,往往受多种因素的影响,通常只能检索出一部分相关文献,

而漏掉一部分相关文献。为此有必要对检索效果进行评价,以便找出和分析检索中存

在的问题,以及影响文献检索效果的各种因素,进一步提高文献检索的有效性。

一、文献检索效果的评价指标

文献检索效果的评价指标一般有以下几种。

(一)查全率查准率

1.查全率

所谓查全率,即用户找到的符合信息需求的信息线索记录数,占其应该找到的符

合信息需求的信息线索记录数的百分比。用字母 a 表示检出的相关文献量,字母 c 表

示用户漏检的相关文献量,a+c 表示系统相关文献总量,则 :

查全率 R=a/(a+c)×100%   

如果用户找到的符合信息需求的信息线索记录数等于应该找到的符合信息需求的

信息线索记录数,即 c=0,则查全率为 100%。

查全率小于 100% 时,则称有漏检的信息线索记录存在。

2.查准率

所谓查准率,即用户找到的符合信息需求的信息线索记录数占其找到的符合检索

条件的信息线索记录数的百分比。再用字母 b 表示检出的非相关文献数量,a+b= 检出

的文献总量,则 :

查准率 P=a/(a+b)×100%    

如果用户找到的符合信息需求的信息线索记录数等于找到的符合检索条件的信息

线索记录数,即 b=0,则查准率为 100%。

查准率小于 100% 时,则称多余的信息线索为垃圾信息。

3.查全率和查准率的关系

表达式(1)和(2)表明,查全率和查准率的不同在于分母的不同。如果用户找

到的符合检索条件的信息线索记录数,正好是用户应该找到的所有符合信息需求的信

息线索记录总数,即 b=c,则查全率和查准率相等 ; 如果用户找到的符合检索条件的信

息线索记录数多于用户应该找到的所有符合信息需求的信息线索记录总数,即 b>c,则

查全率大于查准率 ; 如果用户找到的符合检索条件的信息线索记录数小于用户应该找

到的所有符合信息需求的信息线索记录总数,即 b<c,则查全率小于查准率。

一般地,用户找到的符合检索条件的信息线索记录数很容易确定,但所有符合信

息需求的信息线索记录的总数却不太容易确定。这两者的大小关系实际上和检索工具

及检索策略有很大的关系。

4.影响查全率和查准率的因素

(1)影响查全率的因素

从文献存储角度看,影响查全率的因素主要有 : 文献库收录文献不全 ; 索引词汇

缺乏控制和专指性 ; 词表结构不完整 ; 词间关系模糊或不正确 ; 标引前后不一致 ; 标

引人员遗漏了原文的重要概念或用词不当等。从信息检索角度看主要有 : 检索策略过

于简单 ; 选词或进行逻辑组配不正确 ; 检索途径和检索方法太少 ; 检索人员业务不熟

练和缺乏耐心 ; 检索系统不具备截词功能和反馈功能 ; 检索时不能全面地描述检索要

求等。 

查全率较低时产生的漏检可能会导致严重的后果。如 : 科技查新工作中,要求判

定某些研究是否具有新颖性时,漏检会导致不正确的结论,从而产生错误的决策 ; 进

行课题研究中,往往希望借助已有的研究成果减少成本,如果漏检,就会失去重要的

参考文献。因此,用户在制订检索策略、设置检索条件时,应该尽可能地避免漏检的

发生,保证尽可能多的目标文献被发现。 

(2)影响查准率的因素

影响查准率的因素主要有 : 索引词不能详细、准确地描述文献主题和检索要求 ;

组配规则不严密 ; 选词和词间关系不正确 ; 标引过于详尽 ; 组配错误 ; 检索时所用检

索词(或检索式)专指度不够 ; 检索面宽于检索要求 ; 检索系统不具备逻辑“非”功

能和反馈功能 ; 检索式中允许容纳的词数量有限 ; 截词部位不当 ; 检索式中使用逻辑

“或”不当等。 

(二)其他检索指标(www.xing528.com)

1.漏检率

漏检率(Omission Ratio,简称 O) ,为漏检相关文献数量 c 与文献库内相关文献总

数(a+c)之比。它是查全率的补数。漏检率是衡量系统漏检相关文献的指标。

漏检率 O=1-R=c/(a+c)×100%    

2.误检率

误检率(Noise Ratio,简称 N)为检出的结果中,不相关文献数 b 与检出的文献总

数(a+b)的比,它是查准率的补数。误检率是衡量误检出不相关文献的程度指标。可

定义为 :

误检率 N=1-P=b/(a+b)×100%    

除这 4 个主要指标外,还有其他一些指标衡量检索效果 : (1)收录范围,即一个

系统收录的文献是否齐全,包括专业范围、语种、年份与文献类型等,这是提高查全

率的物质基础 ; (2)新颖率,即系统检出的最近单位时间内发表的文献信息量,与最

近单位时间内发表的文献信息总量的比率 ; (3)可用性,即按可靠性、年代与全面性

的因素评价检出文献的价值 ; (4)工作量,即从系统获得相关文献信息必需消耗的精

力和工作时间; (5) 检索响应的时间, 即从提问到接收再到出检索结果平均消耗的时间;

(6)检索费用,即用户为本次检索花费的费用。另外还有重复链接和死链接数量等也

可作为评价指标。 

二、提高文献检索效果的措施

用户在进行信息检索时,总是希望获得满意的检索效果。检索效果是研究信息检

索原理的核心,是评价一个检索系统性能优劣的质量标准。它始终贯穿于信息存储和

检索的全过程。因此,需要从以下几个方面入手。

(一)选择质量较高的检索系统

评价检索系统的优劣上要看它的存储功能和检索功能, 即“全” “便” “新” 。 “全”

指存储的内容丰富,摘录的文献量越多,存储率越高,则检索系统存储的文献信息量

越大,这是检索的前提条件,也是实现检索的物质基础 ; “便”是便于利用,它是检索

系统的必备条件,一般指编排结构是否简便易用、标引文献采用的检索语言是否准确

和实用、辅助索引是否齐全、排列是否科学等 ; “新”是指内容新、时差短,以保证提

供的文献不陈旧失效。以上三个条件同时具备,才能称得上是优良的检索系统。对用

户来说,检索前必须慎重选择检索系统,这是提高检索效果的保证条件。 [2]

(二)合理提高查全率和查准率

查全率和查准率之间存在互逆关系。如果对检索系统要求较高的查全率,则查准

率必然下降,反之亦然。所以,在实际检索中,欲达到较好的检索效果,必须根据课

题的具体要求,合理调整查全率和查准率,使其达到一个最佳比例。

(1)跨库检索。首选综合检索工具,结合专业检索工具。例如,CNKI 的跨库检索

界面、专业的数据库。如(化学文摘)数据库、 (生物学文摘)数据库对于专业性文献

的收录全面而准确,兼顾了查全率和查准率。

(2)分类途径和主题途径等多途径结合使用。分类途径结合主题途径兼顾查全率

和查准率。例如,检索汉语类的词典,用在题名途径输入“汉语” ,在索书号途径输入

中国图书馆分类号复分号“-61” ,或者输入中国图书馆分类号的汉语类下属的字典、

词典类号码“H 16” 。

(3)尝试多次检索。在失败中调节检索策略,阅读已知的信息,增加背景知识。

例如,先检索搜索引擎 Google、百科全书、词典、手册及文献综述等,寻找更多词汇;

或阅读国际专利分类表,寻找专利分类号 ; 或在维普资讯网的“分类检索”单击中国

图书馆图书分类表,寻找图书和期刊论文的分类号。

(三)提高检索者的检索水平

检索效果与检索者的知识水平、业务能力、工作经验,特别是检索技能、技巧的

熟练程度和外语水平有着密切的关系。因此,检索者的检索水平是提高检索效率的核

心因素。检索者应具备一定的检索语言知识,能正确理解检索课题的实质要求,选取

正确的检索方法,并能合理使用逻辑组配符完整地表达信息需求的主题 ; 还要能灵活

运用各种检索途径,制订最优的检索策略。同时在检索过程中采用严谨的科学态度耐

心细致地检查检索步骤的各环节,例如,检查输入内容是否与字段符合,检索式是否

多了空格等,以减少人为的错检和漏检。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈