首页 理论教育 计算机信息检索的概述与优化

计算机信息检索的概述与优化

时间:2023-07-07 理论教育 版权反馈
【摘要】:计算机技术、现代信息处理技术、网络通信技术的发展,以及Internet这个新型信息发布和传播媒介的迅速普及,使得信息的采集、加工、存储和获取方式都发生了很大的变化。服务器是计算机信息检索系统的核心部分,管理和控制整个系统的运行。

计算机信息检索的概述与优化

如何从浩如烟海的信息海洋中找到所需的信息资料,一直是信息检索的主旨核心。计算机技术、现代信息处理技术、网络通信技术的发展,以及Internet这个新型信息发布和传播媒介的迅速普及,使得信息的采集、加工、存储和获取方式都发生了很大的变化。以缩微品、声像制品、磁盘、光盘等载体形式记录的非纸质信息和依托于Internet的网络信息数量急速上升。仅依靠纸质载体的信息已经不能满足科技人员对信息的完整性和及时性需求,手工检索方式也已经难以适应当今信息时代的发展。将以计算机技术为核心的现代信息技术应用于信息检索领域就成为时代发展的需要和结果。现代信息技术大大推动了信息存储和信息检索方式的变革,计算机信息检索应运而生,并已经发展成为信息检索的方向和主要手段。

1.计算机信息检索的含义

计算机信息检索是计算机技术应用于信息检索领域而形成的一种信息检索方式,因此简单地说,计算机信息检索就是以计算机为检索手段,从计算机信息系统中查检所需信息的过程。这也就是我们所说的狭义的计算机信息检索。

信息的检索必须以信息的存入为基础,因而从广义来讲,计算机信息检索应该包括信息的存储和检索两个方面。信息的存储是按照既定的标准和原则,从信息源中选择合适的信息,提取这些信息的外在特征或者对其主题内容进行概念分析,用系统的索引语言进行标引,形成信息的检索特征标识,将其整理与排序,构成可供检索的数据库,主要包括人工或者自动方式的信息收集、标引、文摘编写、机读索引文档和数据库的建立几个环节。信息检索作为信息存储的逆过程,主要指对用户的检索课题加以分析,明确检索范围,弄清主题概念,然后用系统语言来表示主题概念,形成检索标识以及检索策略,输入到计算机中进行查找。

与手工信息检索相比,计算机信息检索建立在现代信息处理、存储和管理技术的基础上,是以信息检索系统——数据库为检索工具,需要人与计算机协同作用,计算机进行用户信息需求与数据库中记录的比较和匹配。检索系统有其特定的检索语法、检索技术、检索策略、多个检索途径的保证,克服了检索人员的一些主观判断,因此检索结果能够达到较高的查全率查准率。此外,计算机信息检索系统提供的数据库资源较全面丰富,更新更快,经过专业人员严格加工整理,所以检索功能强,检索质量较高。

2.计算机信息检索系统的构成

从计算机信息检索的定义可以看出,计算机信息检索系统是计算机信息检索的基础。计算机信息检索系统是一个关于目标、设备、人员、规则、程序、状态、信息资源与检索方法及策略的信息集合。从整体上讲,计算机信息检索系统由硬件设备、软件设备和数据库三部分构成。

(1)硬件设备。

硬件设备是计算机信息检索系统用于处理数据和传送数据的各种硬件设备的总和,包括服务器、检索终端、网络通信设备、辅助设备以及其他与数据处理或数据传送有关的设备。服务器是计算机信息检索系统的核心部分,管理和控制整个系统的运行。在检索过程中,服务器要处理大量的指令和数据,因此要有相当高的运算速度和处理能力,以及较大的内存。

检索终端是用户与检索系统进行“人—机对话”,交互传递信息的装置。以前检索终端有电传终端、数传终端和微机终端几种形式。目前基本上都是微机终端,即常用的PC机。

网络通信设备是连接服务器和检索终端的桥梁,包括网络传输媒介(光纤、双绞线等)、网络连接设备(集线器、路由器、调制解调器等),确保检索终端与服务器之间的信息交流。

辅助设备一般包括外部存储设备和外部输入/输出设备,即光盘、磁盘等存储设备和打印机、扫描仪等输出/输入设备。

(2)软件设备。

上述各种硬件之所以能够执行运算和处理数据,是因为信息检索系统的软件设备。软件设备是信息检索系统中各类程序和各种文件数据的总称,分为系统软件和应用软件。信息检索系统的设计思想和总体结构存在差异,因而,各个信息检索系统的系统软件和应用软件的构成也不同。

系统软件是为支持计算机运转与管理其他程序的执行而设计的操作系统。它的主要功能是组织控制计算机软硬件资源协调工作,把应用程序送入或读入主存储器内,进行输入输出管理等。应用软件通常包括自动标引软件、词表管理软件、各种匹配程序及数据库管理程序等,其中数据库管理程序是计算机信息检索系统最基本、最重要的软件组成部分。

(3)数据库。

数据库是计算机信息检索系统的物质基础,是信息检索系统的重要组成部分,也是用户进行检索的对象,由一系列信息记录组成。对于不同的信息需求,数据库可以随时按照不同的检索策略提供各种组合的信息,以满足检索者的需求。

3.计算机信息检索系统的类型

如前所述,计算机信息检索系统是根据一定的目的,利用计算机对信息集合进行记录、存储与排序,以便用户从中获得所需信息资源的计算机系统。由于使用范围、存储的信息内容、检索方式等各方面的不同,计算机信息检索系统的类型也不同。本书将主要介绍下面两种常规划分标准。

(1)按照检索系统存储的信息内容划分。

按照数据库中存储的信息内容可以将计算机信息检索系统划分为文献检索系统、事实检索系统、数值检索系统、图像检索系统、多媒体检索系统等。(www.xing528.com)

①文献检索系统。文献检索系统主要提供文献资料的检索,系统把关于文献的外在特征、内容特征以及内容的知识单元的信息存储起来,并组织成一定结构的数据库,供用户获取文献的二次信息(如目录、索引、文摘)或者全文。文献检索系统根据数据库存储的信息的类型可以划分为目录检索系统、全文检索系统和超文本检索系统。

目录检索系统存储的是关于文献外在特征和内容特征的一般描述性信息,如目录、索引、文摘等,目的在于提供文献线索,指引用户到另外的信息源中获得原文或者其他细节。因而该检索系统也被称为“二次文献检索系统”,如《全国期刊联合目录》《全国报刊索引数据库》以及美国的《化学文摘数据库》等。

全文检索系统以计算机可读的字符代码形式或文献页面扫描图像的形式,存储文献全文或者主要部分内容,以便用户以任意字、词、句、段落等为检索点,查询并直接获取文献全文。与传统的信息检索方式相比,它不是对文献特征的格式化描述,而是用自然语言深入揭示文献的知识单元,用户使用自然语言检索即可,如《中国期刊全文数据库》。

超文本检索系统主要用于检索网络信息资源,它不同于传统的一般文本的线性组织方式,而是按照人脑联想思维方式把相关信息非线性组织连接起来,形成一个以节点(Node)为基本单位,节点之间以链路(Link)相连的网状结构数据库,用户通过“顺链”浏览来发现所需信息。节点用于表示网络信息的基本知识单元,如一个关键词,其大小视主题而定。链路用于表示各节点信息之间的关联,是超文本检索系统的灵魂。网络信息检索工具——搜索引擎就属于超文本检索系统。

②事实型检索系统。事实型检索系统是一种以“事实”为检索对象的非文献型检索系统,它提供有关人物、机构、地域、事件等各种事实一般性信息的直接查找方法。这类数据库内容丰富、类型很多,如人物传记数据库、机构名录数据库、产品指南数据库等,再如万方数据库系统的《中国企业与产品数据库》。另外,电子形式的百科全书、年鉴、手册、名录等也属于事实型检索系统的一种。

③数值型检索系统。数值型检索系统中存储和检索的对象均是数值型的数据,以数据形式记录物质、材料等各种事物的特性、参数、常数、价格等,如人口数据库、商品价格数据库等。世界粮农统计数据库、Dialog检索系统中的“ICC英国公司财务数据资料库”就属于该类。

④图像检索系统。图像检索系统用于存储和检索各种图像或图形及有关说明文字资料。早期图像信息的检索基于文本描述,但文本描述常常无法准确表述图像(形)中丰富的信息内容,从而影响查准率。20世纪90年代以来,基于内容的图像检索应运而生,出现了以颜色、形状和纹理结构等特征为检索内容的图像检索系统,目前许多搜索引擎都提供了图像检索功能。

⑤多媒体信息检索。以上所谈的种种检索系统,都属于单一媒体的检索系统,目录、数值、全文和超文本检索都是基于文本的,图像检索系统也只能用于检索图像(形)信息,而多媒体信息检索系统通过运用多媒体信息检索技术,将文本、音频、视频、图像(形)、动画等各种各样的媒体信息融为一体,从而可以获得检索主题的“全方位”信息。多媒体信息检索系统可分为基于文本方式的多媒体信息检索(Text-Based Retrieval,TBR)和基于内容特征的多媒体信息检索(Contend-Based Retrieval,CBR)两种形式。

基于文本方式的多媒体信息检索系统是以关键词的形式来反映多媒体的物理特征和内容特征,建立类似于文本文献的索引数据库,检索实际上是对描述多媒体的关键词的检索。目前常用的关键词索引字段有文件名或者目录名、多媒体标题、内容描述信息或者说明文字,以及所在Web页的URL、页标题等其他信息。以文本方式对多媒体信息进行描述具有一定的主观性,缺乏直观性,而且难以充分揭示蕴藏在多媒体信息中的丰富内容。

基于内容特征的多媒体信息检索系统是指根据媒体和媒体对象的内容及上下文联系组织信息,建立基于内容特征的标引系统,以便用户根据多方位特征检索多媒体信息的系统。目前,基于内容的多媒体信息检索的主要工作集中在识别、描述和揭示图像、音频和视频等信息的内容特征。其中图像画面的内容特征主要包括颜色、纹理、形状、结构、空间关系;声音的内容特征主要包括音频、响度、频宽、音色和节奏等;影像的内容特征包括对象运动特征、背景、颜色和光线的变化等。

目前基于内容特征的多媒体信息检索系统虽然发展很快,但检索效果存在不尽如人意之处,标引比较宽泛,多媒体资源不够丰富,很多信息都停留在艺术、娱乐、体育等方面,缺乏专业多媒体信息。

(2)按照检索系统的工作方式划分。

按照系统的工作方式可以将计算机信息检索系统分为脱机信息检索系统、联机信息检索系统、光盘信息检索系统和网络信息检索系统四种类型。

①脱机信息检索系统。这是一种最早应用的批处理方式的计算机信息检索系统,利用单台计算机的输入输出装置进行检索。检索人员把众多用户的各种信息需求编成“用户提问单”,按要求一次输入计算机进行检索,并将检索结果整理分发给用户。这种方式适用于大量检索而不必立即获取检索结果的用户。脱机检索系统的数据处理和储存能力有限,检索的执行由专职检索员统一处理,而且不提供任何实际浏览的可能性,用户无法与系统进行交互,所以就要求检索者必须制订完备的检索策略才能保证较好的检索效果。脱机检索系统于20世纪70年代被联机信息检索系统所取代。

②联机信息检索系统。联机信息检索系统是计算机技术和通信技术在情报检索中应用的成果,是由通信网络将计算机检索终端与系统主机远程连接构成的主从结构式的信息检索系统,用户从检索终端输入检索指令,直接与系统进行会话式检索。联机信息检索系统不仅能够使许多相互独立的检索终端同时与主机进行“对话”,而且能及时处理用户的提问,即刻回答。用户还可以浏览有关信息,即时修改检索提问,调整检索策略,直至获取满意的结果。20世纪70年代Dialog之类的大型国际联机系统的出现,使得计算机信息检索步入联机信息检索。目前许多联机信息检索系统,如Dialog、OCLC等,开始依托Internet提供基于WWW方式的联机信息检索,这极大地推动了联机信息检索在网络环境下的发展。

③光盘信息检索系统。20世纪80年代中期至今,自光盘产生后,因其存储量大、价格低廉、使用方便,已发展成为一种主要的信息载体,光盘信息检索得到迅猛发展。光盘信息检索系统是利用计算机和光盘驱动器读取与检索存储在光盘上信息的计算机信息检索系统。光盘信息检索系统主要有两种类型,即单机光盘检索系统和网络光盘检索系统。

④网络信息检索系统。网络信息检索系统是以Internet上的信息资源作为检索对象而形成的检索系统,系统采取客户机/服务器结构,彼此之间的关系对等,这样可以互相访问和利用对方的资源。由于Internet上的信息资源丰富、类型繁多,因此作为检索这些资源的网络信息检索系统也呈现多样化。早期的网络信息检索工具有Archie(针对FTP资源)、WAIS(网上文本信息资源)、Veronica(针对Gopher资源)等。目前针对WWW资源的检索系统是网络信息检索系统的主力,搜索引擎、门户网站、网络资源指南等都是检索网络信息的主要检索工具。

4.计算机信息检索原理

无论对于手工检索还是计算机信息检索而言,信息检索的过程实际上都是一个比较、匹配的过程,其本质是信息用户将自身信息需求与信息集合进行匹配和选择。为了实现信息的检索,首先要对大量的信息进行收集、加工处理和排序,并用特定的标识系统描述信息获取的特征,然后分析用户信息需求的内容,提取用户信息需求中包含的概念或属性,并用与信息集合相同的标识系统将其表示出来,形成检索提问。当检索提问与信息集合中信息的标识相一致,则属于“检索命中”,即找到了符合要求的信息。所以计算机信息检索的基本原理仍是“匹配运算”,但不同于手工检索的“匹配运算”方式。

手工信息检索是通过人工方式对书本式检索工具中的文献款目进行“扫描”“匹配”和“选择”。这种检索过程采用手工操作配合人脑判断来进行,因此,这种检索操作主要是依靠人脑来进行思考、比较和选择的,匹配与选择的标准是隐性的,取决于检索人员的检索知识、技能和经验。计算机应用到信息检索中后,信息检索的本质没有改变,但是信息的表示方法、存储结构和匹配方法变化了。要使用计算机可以识别的代码来表示信息,使用便于计算机快速存取的方式存储信息,匹配的方法亦由人工比较变为计算机匹配,匹配标准由隐式变为显式。在这种计算机匹配的过程中,人们要将检索提问变成计算机可以识别的检索提问式,要使用系统特定的检索指令、检索词和检索策略,由计算机自动对数据库中各文档记录进行信息查找。检索标识、检索策略只要与数据库中信息的特征标识及其逻辑组配关系相一致,即为命中,然后将命中的结果输出给用户。因此,计算机信息检索的实质就是由计算机将输入的检索策略与系统中存储的文献特征标识及其逻辑组配关系进行类比、匹配的过程,需要人—机协同作用来完成。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈