首页 理论教育 自然语言在信息检索中的应用

自然语言在信息检索中的应用

时间:2023-08-01 理论教育 版权反馈
【摘要】:20世纪50年代后期,美国卢恩等人首先将计算机用于关键词索引的编制,之后,各种直接以自然语言为标识的检索系统纷纷出现。自然语言是一种没有经过规范化处理的信息检索语言。目前用于标引和检索的自然语言主要有关键词法、文本检索等。

自然语言在信息检索中的应用

1.自然语言概述

本节使用的自然语言一词,是指直接使用不经过控制的自然语言中的语词做标识,进行信息资源的标引和检索。

自然语言标引和检索的实践,可以追溯到我国唐代类书的编制和西方13—14世纪的圣经语词索引。自然语言作为一种标引和检索语言得到社会广泛使用,则是在计算机出现以后。20世纪50年代后期,美国卢恩等人首先将计算机用于关键词索引的编制,之后,各种直接以自然语言为标识的检索系统纷纷出现。这种检索系统以各种类型的电子文本为基础,一般不对词汇进行控制,或只进行少量控制,因此处理速度快、成本低,70年代后得到了迅速发展。随着电子文本日益广泛的使用和网络的出现,这种方法已逐步发展为主要的检索方式。

自然语言是一种没有经过规范化处理的信息检索语言。其特点如下:①自然语言直接抽取信息的原词,直观性与专指性强;②自然语言全面反映信息的外表属性和全文内容,检索途径多;③自然语言利用计算机自动抽词、标引,省时而且速度快;④自然语言随时可以增补新词,以反映科学的最新发展动态;⑤自然语言对使用者的要求不高,检索方便,容易掌握。

目前用于标引和检索的自然语言主要有关键词法、文本检索等。

2.关键词法

关键词法直接将题名中的关键词作为主题标识来组织检索系统,可以追溯到19世纪欧洲图书馆目录或索引的编制。1856年,英国学者克里斯塔多罗(Crestadoro)在《图书馆编制目录技术》一书中,就提出了书名中的主词即关键词这一概念。1958年,美国的卢恩(Luhn)等人在华盛顿召开的国际会议上首次公布了他们关于关键词索引的构想和用穿孔卡片编制的关键词索引的样品,引起了极大的反响。其后,随着计算机的使用,关键词法得到迅速发展,出现了多种类型。

文献的题名中直接抽取的关键词之所以能够用作文献的主题检索标识,是因为:第一,文献题名,尤其是科技文献的题名通常都具有报道性,大多能基本表达文献的主题;第二,以文献题名中抽取的关键词作为检索入口,能够有效地将用户指向可能包含相关情报的信息资源;第三,保留关键词的上下文有助于解释关键词的含义,因而可以将其用作限定标目的说明语。这些特点与计算机的处理能力相结合,造成了关键词法流行的原因。

关键词索引的优点:①标引时无须查看词表,直接根据题名、文摘中的语词进行标引,简便易行,可以降低对标引人员的要求,节省标引时间。②易于使用计算机编制,实现检索工具编制过程的计算机化,保证通报文献的及时性及生产过程的高效率和低成本。③能够及时更新词汇,出现在题名、文摘中的具有检索意义的词汇均可立即用于标引和检索。(www.xing528.com)

关键词语言的不足:①关键词检索工具的质量往往直接受文献题名质量的影响,由于不同学科领域题名在反映文献主题内容的程度上存在很大的差异,用关键词语言建立的检索工具,质量往往不稳定,会导致漏检、误检。②作为一种自然语言,关键词语言未进行同义词、相关词的处理,用户检索时很难依靠自己的了解查全同一概念的不同词形及进行相关词的检索,会增加用户的负担,影响检全率。③题名中的不少语词为通用概念,它们为检索入口建立的检索款目没有实际检索意义。④由于汉语存在分词难题,应用计算机进行汉语关键词抽词标引时仍需要解决词汇切分的问题。

3.自然语言检索

自然语言检索也称为文本检索,指不对文献进行任何标引,直接通过计算机以自然语言中的语词进行匹配查找的系统。文本检索进行匹配的对象,可以是整个出版的文本,包括文章、报告甚至整本图书,也可以是它的一部分,如文摘、摘录或只是文献的题名。以整个文献正文为对象进行的匹配查找,称为全文检索。这种方式无须标引,能快速生成数据库,很快地投入运行。

为了便于用户使用,满足用户在检索中可能出现的各种查全、查准的需求,自20世纪60年代以来,文本检索系统发展了一系列检索的技术方法。常川的文本检索技术包括布尔检索、截词检索、精确检索、限定范围检索、相关检索等。此外,全文检索中往往使用二次检索等形式,包括提供修改检索式的建议供选择使用,对检出的结果进一步加以限定,缩小检索范围,提高查准率等。这些方法不仅在传统的文献数据库中使用,也作为一些网络搜索引擎的检准措施使用。

上述检索方式从不同的角度提供了改善检索效果的方法,使得用户可以在文本检索的基础上,通过对各种方法的使用来扩大或缩小检索范围,满足不同的需要。可以看出,文本检索与受控检索在不少方面是相通的,但比较而言,特别是在网络搜索引擎中,文本检索对各种检索方法的使用更为充分,功能也更强。

检索结果的显示也是影响检索效果的一个重要方面。大型数据库,特别是网络检索工具,资源数量极大,在实施文本检索的情况下,一般检出数量较大,动辄数千条,检索结果的输出方式是否合理,直接影响检索效果。一个具体的系统对检索结果的显示通常有一个默认的、具有普遍性的界面,同时提供多种选择,使得结果的显示具有一定的灵活性。

这样,结合检索方式和检索结果的改进,文本检索力图在实现自然语言检索的同时达到较高的检全率、检准率以及调整检索结果的可能性,以争取得到较好的检索效果。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈