首页 理论教育 计算机检索系统的应用与优化方法

计算机检索系统的应用与优化方法

时间:2023-07-07 理论教育 版权反馈
【摘要】:联机检索的通信系统,一般包括通信线路、自动呼叫应答机、调制解调器、通信控制器和多元化装置等设备。联机信息检索主系统。这是计算机信息检索系统为数据库的每一条记录规定的能被计算机识别的特定号码。

计算机检索系统的应用与优化方法

1.计算机检索系统的构成

计算机信息检索是借助检索终端通过通信网络与联机情报检索中心的中央计算机联机来进行情报信息检索的。因此,一个联机信息检索系统应该包括检索终端、通信系统及联机信息检索主系统三个部分。

(1)检索终端。

它是用户与信息主系统的中央计算机进行“人—机对话”的设备。用户利用终端计算机向中央计算机发送检索系统约定的指令或信息语言,中央计算机的响应也即时反馈到终端上来,比较常见的终端设备有以下三种。

①屏幕显示终端。这种终端由一个键盘和一个显示屏幕组成,可以带一台打印机,数据通过键盘发送,同时显示在屏幕上或打印到记录纸上,中央计算机的响应也显示在屏幕上,打印在记录纸上。

微机终端。配上一定的通信软件,就可以将微机作检索智能终端。检索时数据通过键盘发送,也可预先存入内存或外存设备,由微机直接发送显示。

③电传终端。普通的电传机也可作检索终端,其操作与一般电传发送相同。

目前在我国,一般都用微机终端来进行检索。

(2)通信系统。

通过通信网络与中央计算机联机。联机检索的通信系统,一般包括通信线路、自动呼叫应答机、调制解调器、通信控制器和多元化装置等设备。其中,通信线路及调制解调器与用户有着密切的关系。

①通信线路。一般来说,联机检索在本国部分的通信往往采用电路线路,仅仅在国与国、洲与洲之间的远程通信才采用卫星信道或海底电缆线道。

过去国内联机检索的通信线路一般都采用专用线或公用电话线,通过这些专线或电话线连接国外通信网络节点。一般专用线路质量好,使用方便,但租赁费用昂贵。公用线路使用费用便宜,但使用质量不稳定。目前,随着Internet在我国的发展以及国内科研网、教育网等众多网络的兴起,联机检索的通信途径将越来越多样化。

②调制解调器。它是实现远程通信的重要设备。它的基本功能是将数据源送来的信号变成音频信号,同时将线路接收的音频信号变换成串行的数字信号,并传送给数据接收器。

(3)联机信息检索主系统。

①主机。它是检索系统的核心部分,包括软件、硬件两个部分。硬件是指主机(服务器)系统的实际、有形、耐用的部件,由电器机械及其他有关器件组成。其中影响检索系统功能的是CPU的运算速度、内外存容量。

②计算机软件。由系统维护软件与检索软件构成。系统维护软件,如数据库管理程序、词表管理程序等,可对整个检索系统进行管理和维护,其作用是保障检索系统的高效正常运转。检索软件是用户与系统的界面,用户通过检索软件进行检索,检索软件功能的强弱直接影响着检索效果。

③数据库。检索系统中的数据库,可简单定义为一个或多个机器可读的,并按一定方式编制而成的记录的集合。大数据库中的子数据库也称文档。数据库可分为文献型、事实型、数据型、全文型和超文本型5种。

2.计算机检索数据库的类型和结构

(1)计算机检索数据库的类型。

数据库是整个信息检索系统的信息集合,具有一定的组织方式,可供存、取和共享是其三要素。为了便于管理和处理这些数据,当数据存入数据库时,就必须具有一定的结构和文件组织方式。这样就可以为多种用户反复使用,达到数据共享的目的。计算机信息检索数据库类型的划分有多种标准,这里以图书情报界大多从记录形式的角度将数据库分作如下几种。

①文献型数据库。存储的是二次文献,包括文献的外部特征、题录、文摘和标引词等,是传统情报检索的主要对象,查询的是文献的线索和文摘而非文献本身。

②事实型数据库。存储的是完整的、经过加工的事实,如标准、方案、机构、技术等。(www.xing528.com)

③数据型数据库。存储的是具体的数据,如气象、工程、化验、设备的各项参数等,欧洲情报界常把事实型与数据型数据混为一谈。

④超文本型数据库。它是多媒体技术在信息检索中应用的一种形式。这种数据库通过计算机技术,将声音、图像和文字有机地结合在一起,当需要对数据库中某项信息中某段多媒体形式的信息展示时,只要启动某一功能键,就可以得到相应的音、像、图及文字信息。

⑤全文型数据库。它是近年来计算机存储技术发展的结果,其数据库存储的是文献本身。再加上功率强大的通信技术的不断革新,有力地推动了信息检索技术的进步。近年来Internet技术的迅猛发展,使人们可以直接联机访问的信息量空前丰富。人们越来越需要能够快速和准确定位所需信息的检索工具,而全文信息检索系统能有效地查找用户有兴趣的项目,具有较高的查全率查准率,因此得到广泛的应用,成为联机检索的一个重要趋势。已经有许多商业系统采用全文信息检索技术来实现对各种形式全文数据库的信息检索。

全文检索以全文数据库存储为基础。所谓全文数据库即是将一个完整的信息源的全部内容转化为计算机可以识别、处理的信息单元而形成的数据集合。而且,全文检索系统还必须对全文数据库进行词、句、段落等更深层次的编辑、加工,同时,允许用户采用自然语言表达,借助截词、邻词等匹配方法直接查阅信息原文。

(2)计算机信息检索系统数据库的结构。

数据库主要部分是一系列的记录所组成的文档,每条记录均由不同的数据项目(也称字段)构成,每一个数据项目中所含的真实数据叫数据值,简称数据。但是,在具体操作一个计算机检索时,不易直观地从终端看到主系统数据库的结构,因此,下面主要讲数据库数据的记录格式和文档结构,使用户对检索对象有深入全面地了解。

①检索系统存取号(Accession Number)。这是计算机信息检索系统为数据库的每一条记录规定的能被计算机识别的特定号码。在同一数据库中,每篇文献记录只有一个存取号,一般来讲,存取号由6~9位数字组成,出现在每条记录的左上角(或左边)位置。

②基本索引字段(Basic Index Fields)。它指那些用来表达记录的内容特征的字段。一般来讲,主要有以下4种字段:

a.篇名字段(Title Field)。也称题名字段,这一字段描述了该记录的名称,如文献篇名、公司名称、化学物质名称。

b.文摘字段(Abstract Field)。这一字段表示该记录主题内容的简明提要,通常出现在书目型数据库的记录中。

c.叙词字段(Descriptor Field)。这一字段中标引了有关该记录主题的叙词或其他规范词,这些词都是由文献标引人员根据原始文献主题内容标引的能够表达文献主题内容的规范化语词,这些规范词都收集在相应的词表中,如INSPEC数据库有相应的叙词表。

d.自由标引词字段(Identifier Field)。这类词是由标引人员根据原始文献的主题内容标引能够表达文献主题内容的词,但它们不是规范词,因而不一定出现在规范词表中。这类词相当于一般所说的关键词。

基本索引字段中的题名、文摘、正文、叙词、自由标引词等字段,从不同角度表达了该记录的主题内容。一般来讲,叙词字段和自由标引词字段是标引人员经过主题分析按照一定的情报检索语言规范标引的,所以通常都有确切的概念含义,能表达确切的主题内容。而题名、文摘或正文等字段都是用自然语言对记录主题内容的描述,这些字段在整体上或许可以表达原始信息的主题内容,而其中的某一个词则不一定能够确切表达记录的主题内容。

所以我们从主题途径检索时,最精确的办法是从叙词或自由标引词字段中查找具有该主题内容的记录,而从题名、文摘或正文字段中查找则容易误检。

③辅助索引字段(Additional Index)。辅助索引字段主要是一些表达文献外表特征的字段。例如,作者字段(AU=)、期刊名称字段(JN=)、出版年份字段(PY=)、语种字段(LA=)等等。在计算机信息检索中,辅助索引一般不能单独用来检索,它们常与基本索引使用配合,起限定检索范围的作用。

④文档结构。前面介绍了一条记录的格式和组织。我们知道,记录组成文档,它是文档的基本单位。但是分散的杂乱无章的记录不能直接用来检索,还必须对这些记录进行合理的组织,建立几个相关文档,构成相应的数据库。通常一个数据库包括顺排文档和倒排文档。

a.顺排文档。将数据库的全部记录按存取号的大小排列而成的文献记录集合,就构成了数据库的顺排文档。这种文档中的所有文献记录之间的关系不用链指示而按顺序排列,所以对它只能按顺序查找,而不能进行有选择性的查找。计算机必须将整个文档从头到尾扫描一遍,才能将所有含有该主题的文献找出来。这种查找方法不很经济,因此除了顺排文档之外,还要建立一种按记录的文献特征标识(如叙词、关键词、著者、篇名等)的字顺排列文档,我们将这种文档称为倒排文档或索引文档。

b.倒排文档。倒排文档与顺排文档相反,它不是以记录存取号的顺序排列的,而是将记录的特征标识(如主题词,著者等)放在前面,将所有含有此标识的记录存取号列在其后(即按文献属性列出具有同一属性的所有记录),然后将所有的主题性和非主题性的特征标识分别集中起来按顺序排列。其结构中一般都包含基本索引倒排文档和辅助索引倒排文档。

基本索引倒排文档就是从数据库全部记录的基本索引字段中,抽取全部单元词和标引的多元词词组,按一定顺序排列而成的一个倒排文档。在基本索引倒排文档中,基本索引单元按字母顺序排列,每个索引单元后面都标有相应的存取号和字段位置标识符。检索中,计算机就根据这些存取号和字段位置标识符去识别索引单元所处的具体记录和字段位置。如果文档中的基本索引单元同时出现在不同的记录、同一记录的不同字段或同一字段的不同位置,这样的索引单元在文档中标引一次,但同时标引出相应的存取号和字段位置标识符。

辅助索引倒排文档就是抽取辅助索引字段中的单元词、多元词,数字式代码加上相应的辅助索引字段前缀代码,组成一个按字段前缀代码的字母或数字顺序排列的倒排文档。在辅助索引文档中,每个辅助索引单元后面只标上相应的存取号,没有字段位置标识符。同样,如果索引单元同时出现在不同记录中,则此单元在文档中只标一次,再将相应的存取号按大小顺序标引在此单元后面。

事实上,在实际的检索系统中,为了提高检索速度,经常把上述的索引倒排文档拆成两个文档——索引词典文档和存取号倒排文档。因此,在许多计算机信息检索系统中,每个数据库实际存在五个相关文档:文献记录顺排文档;基本索引词典文档;基本索引存取号倒排文档;辅助索引词典文档;辅助索引存取号倒排文档。利用这些文档,查找文献就比较方便了,使得整个查找过程高效而有序。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈