首页 理论教育 电子文献检索基础知识及实践应用研究结果

电子文献检索基础知识及实践应用研究结果

时间:2023-11-30 理论教育 版权反馈
【摘要】:第一节电子文献检索基础知识随着计算机技术、数字信息存储技术和网络通讯技术的飞速发展,以磁盘、光盘为存储介质,网络通讯为传输手段,计算机检索为文献信息的主要检索方法的一个新局面已在国内外展开。或者有些网站的网页上也可连接光盘的电子文献,用户可在条件允许的情况下,随意检索浏览。只要与数据库中的文献特征标识及其逻辑组配关系相一致,则属检索“命中” ,即找到了符合要求的文献。

电子文献检索基础知识及实践应用研究结果

第一节 电子文献检索基础知识

随着计算机技术、数字信息存储技术和网络通讯技术的飞速发展,以磁盘、光盘为

存储介质,网络通讯为传输手段,计算机检索为文献信息的主要检索方法的一个新局面

已在国内外展开。这种以磁、光盘为存储介质,二进制字节的数字信息为存储对象的文

献,我们称其为电子文献,也有人称为数字文献。 它主要包括电子图书、电子期刊、

电子报纸及可供查询的数据库等。由于电子文献具有载体密度高,存储量大,文献信息

表达数字化,加工处理和传输速度快,并可重复使用和多次复制等特点,人们越来越重

视对电子文献的检索利用,电子文献检索已成为最重要和最主要的文献检索方式。

一、电子文献资源的布局

一般来讲,根据电子文献存在的方式不同,其布局也存有差异,电子文献根据种

类划分,其布局主要分布在以下三种。 

(一)光盘

国内外出版社出版发行的以光盘为载体的电子文献。个人、团体、机构或图书馆

皆有购买,检索者可根据所处条件便利借阅。此外,许多图书馆的主页上,把随书光

盘也装载到网络服务器上,可供局域网内用户检索浏览。或者有些网站的网页上也可

连接光盘的电子文献,用户可在条件允许的情况下,随意检索浏览。

(二)网页

主要是指那些根据 XML,HTML 格式编写的网页上刊载的电子文献。此类网页上

常常有一些专门的机构或专家、学者等撰写的一些专业性或学术价值很高的文献,其

中有正式发表,也有未正式发表的。但是,网络上的文献资源是十分丰富的,价值很

高,且报道速度快捷及时,更新速度快,是我们获取文献信息的最佳场所。需要注意

的此类文献资源有免费的和收费的 ; 授权的和非授权的,从某种程度上讲,限定了我

们的自由使用。

(三)数据库

目前出版发行或传统文献的数字化版本主要集中在国内外出版商、学术或科研机

构、图书馆编制的综合性和专科性数据库之中,如超星数字图书馆、书生之家数字

图书馆、中国学术期刊网、维普科技期刊全文数据库、DIALOG,STN,OCLC First

Search 等。此类文献与网页上的文献资源一样,同样存在着收费与免费,授权与不授

权之分,在文献的检索利用时,大家要给予充分的重视。

二、数据库的相关认识

(一)数据库的概念

数据库(Database)是统一管理的相关数据的集合,它能为各种用户所共享,具

有最小冗余度,数据间联系密切,而又有较高的数据独立性。数据库系统(Database

System)是指实现有组织地、动态地存储大量的关联数据,方便多用户访问的计算机

软件、硬件和数据资源组成的系统,即采用了数据库技术的计算机系统。根据 ISO.

DIS5127 号标准(文献与情报工作术语) ,数据库被定义为 : “至少由一种文档组成,

并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。 ” [1]

(二)数据库的类型

1.参考数据库

参考数据库是指以文档的形式组织起来,提供文献的题录、文摘等书目信息,指引

用户到另一信息源获取原文或其他细节的数据库。它又包括书目数据库和指南数据库。

书目数据库存储描述如目录、题录、文摘等书目线索的数据库,又称二次文献信息

数据库,如 SCI 数据库,EI 数据库。指南数据库存储关于机构、人物、产品、活动等对

象的数据库。与其他数据库相比,指南数据库为用户提供有关信息,多采用名称进行检

索。如机构名录数据库、人物传记数据库、产品或商品信息数据库、企业名录库等。

2.源数据库

源数据库主要存储全文、数值、结构式等信息,能直接提供原始信息或具体数据,

用户不必再转其他信息源的数据库。它主要包括全文数据库、数值数据库、图像数据

库和术语数据库。

全文数据库存储文献全文或其中的主要部分的源数据 ; 数值数据库的记录含有大

量的原始调查数据和统计数据 ; 图像数据库以图形、图像为记录单位。

3.混合数据库

混合数据库是同时存储参考数据库和源数据库的数据库。

(三)数据库的结构

数据库一般由记录、字段与文档三部分构成。 

1.记录

记录是构成数据库的信息单元。每条记录都描述了原始信息的外表特征和内容特

征。书目数据库中的一条记录通常是对一篇文献的描述,如一篇期刊论文、一本专著、

一篇专利说明书的题录或摘要。

2.字段

字段是组成记录的数据项,如篇名、著者、来源、主题词等。有的字段还可分为

若干子字段,如来源字段还可分为刊名、出版年、出版机构等。每个字段都有各自的

标识符,如 CBMdisc 中的 TI 表示题名、AU 表示作者、PY 表示年份、PT 表示文献类

型等。字段的划分便于进行字段限定检索。

3.文档

文档是数据库中一部分记录的集合。数据库往往含有数以万计的记录,为便于用

户检索,常划分为若干个文档。另一方面,众多的记录如果提供给用户检索,必须进

行合理的组织编排,建立一个顺排文档和若干个倒排文档。顺排文档是将全部记录按

输入顺序编号(存取号)排列生成的文档。倒排文档是从记录中抽取有检索意义的文

献特征标识,如主题词、关键词、自由词、著者等,按一定顺序(如字母顺序)排列。

检索时先查倒排文档(相当于先查索引) ,然后根据存取号和字段标识符,从顺排文档

中抽取文献记录内容。

三、计算机检索技术

计算机文献检索系统一般由计算机硬件、软件、数据库三部分组成。计算机文献

检索就是利用计算机进行文献的存贮和检索。存贮和检索分别对应于数据库的建立和(www.xing528.com)

利用。存贮就是把大量的文献按一定的格式输入计算机中,经过计算机的加工处理,

生成具有一定结构可供检索用的数据库 ; 检索则是存贮的逆过程,用户的提问按要求

转换成系统语言,输入计算机中,利用数据库进行查找。查找的过程实际上是一个比

较、匹配的过程。只要与数据库中的文献特征标识及其逻辑组配关系相一致,则属检

索“命中” ,即找到了符合要求的文献。这种比较、匹配过程由计算机自动完成。 

掌握计算机检索技术,快速准确地构建计算机能识别的检索表达式是进行计算机

检索的重要环节。计算机检索技术主要指检索词的组配技术和检索式的构成规则。检

索词包括主题词、关键词、名称、分类号分子式专利号及各种号码等。检索式主

要是运用各种逻辑运算符号、位置逻辑算符、截词符及其他限制符号等,把检索词连

接组配起来,确定检索词之间的关系,准确表达检索课题的内容。

(一)布尔逻辑检索

布尔逻辑检索是指利用逻辑“或、与、非”等运算符将同一个字段内两个以上被

检索词进行逻辑组配,组成逻辑检索提问式进行的检索。在实际检索中,检索提问涉

及的概念往往不止一个,而同一个概念又往往涉及多个同义词或相关词,为了正确地

表达检索提问,系统中常常采用布尔逻辑运算符将不同的检索词组配起来。布尔逻辑

检索是目前最成熟的检索方法,几乎每一个搜索引擎都支持布尔逻辑检索。

1.逻辑“或”检索

用逻辑“或”运算符( “OR”或“+” )将同一个字段内两个被检索词(A 或 B)进

行组配并检索的检索方式称逻辑“或”检索。它的检索结果将包括所有带有 A 或 B 两

个检索词中任意一个检索词的记录。逻辑 “或” 检索有助于扩大检索范围, 提高查全率

2.逻辑“与”检索

用逻辑“与”运算符( “AND”或“*” )将同一个字段内两个被检索词(A 与 B)

进行组配并检索的检索方式称逻辑“与”检索。它的检索结果将包括所有同时带有 A

和 B 两个检索词的记录。逻辑“与”检索有助于增强检索专指性,缩小检索范围,提

高检准率。

3.逻辑“非”检索

用逻辑“非”运算符( “NOT”或“-” )将同一个字段内两个被检索词(A 非 B)

进行组配并检索的检索方式称逻辑“非”检索。它的检索结果将包括所有带 A 检索词

而不带 B 检索词的记录。逻辑“非”检索有助于缩小检索范围,增强检索的准确性。

必须注意的是,若在一个逻辑检索式中同时包含 OR,AND,NOT 运算符时,

则有运算优先级顺序,不同的系统有不同的规定。大部分系统的运算次序是 : ()>NOT>AND>OR。例如, (A OR D) AND B,表示先执行“A OR D”的检索,再与 B

进行 AND 运算。

(二)截词检索

截词检索是把检索词截断,取其中的一部分片段,再加截词符号一起构成检索

式,系统将按照词的片段与数据库里的索引词对比匹配,凡包含这些词的片段的文

献均被检索出来。截词符号包括截词符(Truncation Symbol)和通配符(Wildcard

Searching) 。在不同的检索系统用不同的符号。常见的截词符有“*”和“?”两种,

其中“*”常用于无限截词, “?”常用于有限截词。截词检索常用于检索词的单复数、

词尾变化、词根相同的一类词、同一词的拼法变异等。如 transplant *,表示检索词根

为 transplant,词尾可以是 -e、-ation、-ing、-able 等所有词。通配符?代表一个字符

或无,可能检索单复数、英美不同拼写方式等检索词,如 colo? r,wom? n,rat? 等,

分别代表(colour OR color) , (woman OR women) , (rat OR rats) 。这两种符号的使用

一方面可以避免漏检,另一方面也避免了多次输入的麻烦。 

(三)位置检索

位置检索又被称为邻近检索。它是用一些特定的算符(位置算符)来表达检索词

与检索词之间的关系,并且可以不依赖叙词表而直接使用自由词的检索方法。这种检

索方法适用于两个检索词以指定间隔距离或者指定的顺序出现的场合,能够提高检索

的准确性。

按照两个检索词出现的顺序和距离的不同,可以有多种位置运算符,而且对于同

一功能的运算符,不同的检索系统可能有不同的表达方式,也有的检索系统不支持位

置运算符,检索之前应该先看看数据库的帮助信息。常用位置运算符有(W) , (N) ,

(S) , (F) 。 

(四)限定检索

文献数据库的每条记录通常由多个代表不同信息的字段组成。一般情况下,如果

不单独选定在某一字段查询,系统自动会默认在若干个基本字段或全部字段中检索。

绝大多数检索系统都会有一些缩小或约束检索结果的方法,最常用的是对特定字段的

限定检索(Limit Searching) 。用户可以限定某一字段或某几个字段进行检索,以使检

索结果更准确集中。限定检索的限制符多为 IN, =, AD(著者地址)AU(著者) , PT(文

献类型)等。例如,Beijing IN AD 表示限定检索著者地址在“北京”的文献。 [1]

(五)加权检索

加权检索是某些检索系统中提供的一种定量检索技术。加权检索的基本方法是 :

在每个检索词后面给定一个数值表示其重要程度,这个数值称为权,在检索时,先查

找这些检索词在数据库记录中是否存在,然后计算存在的检索词的权值总和。权值之

和达到或超过预先给定的阈值,该记录即为命中记录。运用加权检索可以命中核心概

念文献,因此它是一种缩小检索范围、提高查准率的有效方法。 

(六)扩展检索与缩小检索

(1)扩展检索。扩展检索是指初始设定的检索范围太小,命中文献不多,需要扩

大检索范围的方法。扩展检索的方法主要可以有以下几种: 概念的扩大、范围的扩大、

增加同义词、年代的扩大。

(2)缩小检索。缩小检索又称二次检索,是指开始的检索范围太大,命中文献太

多,或查准率太低,需要增加查准率的一个方法。缩小检索与扩展检索相反,即概念

的缩小、范围的限定、年代的减少等。此外,还可以通过以下方法进行限定 : 核心概

念的限定、语种的限定、特定期刊的限定。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈