首页 理论教育 信息检索语言分类及其应用

信息检索语言分类及其应用

时间:2023-08-02 理论教育 版权反馈
【摘要】:检索语言的类型有多种,不同的划分标准有不同的检索语言。1.依据规范化程度分依据信息检索语言的规范化程度,信息检索语言可分为人工语言和自然语言。1)分类检索语言分类检索语言是按文献研究所属学科或专业,结合文献的内外特征,根据特定分类体系进行分类和系统排列,以代表类目的分类号作为文献标识的一类检索语言。因此在计算机检索系统中,关键词法得到广泛深入的应用。

信息检索语言分类及其应用

检索语言的类型有多种,不同的划分标准有不同的检索语言。

1.依据规范化程度分

依据信息检索语言的规范化程度,信息检索语言可分为人工语言和自然语言

(1)人工语言

人工语言也称规范化语言,是以文献用语的概念加以人工控制和规范,把同义词、同音词、多义词、近义词、同形异义词等进行规范化处理的语言,使每个检索词只能表达一个概念,以便准确检索,防止误检、漏检。

(2)自然语言

自然语言也称非规范化语言,是采用未经人工控制的词语或符号作为检索标识,如自由词、关键词。由于非规范化语言使用自由词,因而不用编制词表,检索时选词灵活、随意,标引和检索速度快,便于检索规范词难以表达的特定概念,但自然语言未经规范,因此检索时会影响检索效率

(3)人工语言与自然语言的比较

人工语言与自然语言相比较,人工语言的查全率查准率均比较高,因此,人工语言的检索效率要高于自然语言。但是,人工语言是基于印刷型文献资源产生的,对标引来说,工作量大,成本高;对文献信息检索来说,用户不容易掌握。而自然语言则不然,对标引来说,主要由计算机检索系统自动完成,具有灵活性、新颖性和专指性,并且检索点多,管理和维护的成本低;对文献信息检索来说,用户很容易掌握。但是,由于目前计算机的抽词技术还无法达到从自然语言中抽取最准确并能够表达信息资源内容的词,无法自动规范自然语言,无法指示概念之间的关系,缺乏对词汇的控制能力,因此检索效率比较低。

综上所述,可以看出,人工语言与自然语言并不是相互对立的。在实际进行的文献信息检索过程中,检索词的选择往往是个非常复杂而又麻烦的问题,必须考虑表达概念的准确性与完善度。因此,通常是规范语言和非规范语言交混使用,以便满足各种不同的检索需求。

2.依据描述文献信息的特征分

依据描述文献信息的特征,信息检索语言可分为文献外部特征的检索语言和文献内容特征的检索语言。

(1)文献外部特征的检索语言

将文献外部特征,如文献的篇名(题目)、著者、文献序号(出版者、报告号、专利号)等作为文献存储的标识和文献检索途径的检索语言。其主要应用有以下几种。

1)题名索引系统

以书名、刊名等作为标识的字顺索引系统,如书名目录(索引)、刊名目录、篇名索引等。

2)著者索引系统

以文献上署名的个人作者、译者、编者的姓名或学术团体名称作为标识的字顺索引系统,如著作索引、专利权人索引等。

3)文献序号索引系统

以文献特有的序号作为标识的索引系统,如专利号索引、科技报告序号索引、技术标准号、国际标准书号(ISBN)索引等。(www.xing528.com)

4)引文索引系统

这是利用科学文献末尾所附引用文献、参考文献目录,揭示科学论文之间引证和被引证关系而编制的索引系统,如美国SCI、中国科学引文数据库

(2)文献内容特征的检索语言

文献信息内容特征主要是指文献研究的主题、所属学科或专业等方面。描述文献内容特征的检索语言按其构成原理,主要有分类检索语言、主题检索语言和代码检索语言三大类型。

1)分类检索语言

分类检索语言是按文献研究所属学科或专业,结合文献的内外特征,根据特定分类体系进行分类和系统排列,以代表类目的分类号作为文献标识的一类检索语言。其特点是揭示学科体系,按学科专业所属等级排列文献,通过分类体系(分类号)使同学科专业文献集中,提供以学科分类为出发点的文献检索途径。

国外广泛采用的分类法有《美国国会图书馆图书分类法》(Library of Congress Classification,LCC)、《国际专利分类法》(International Patent Classification,IPC)、《杜威十进分类法》(Dewey Decimal Classification,DDC)。我国图书情报界主要采用的有《中国图书馆图书分类法》(简称中图法)和《中国科学院图书馆图书分类法》(简称科图法)。

2)主题检索语言

主题检索语言是用文献主题内容的词语作为标识,并按词语的字顺编排的检索语言,提供了从主题词入手查找信息的途径。应用较多的是主题词法和关键词法。

主题词又称叙词,是指能代表文献主题内容实质的、经过严格规范化处理的专业名词术语或词组。其主要特点为:①它对一个主题概念的同义词、近义词、拼法变异词和缩写词等适当归并,以保证词语与概念的唯一对应,避免多次检索;②采用参照系统揭示非主题词与主题词之间的等同关系以及某些主题词之间的相互关系,以便正确地选用检索词;③强调构词的规则和取词的统一性,一般都有一部词表作为检索者和标引者取词的依据。

关键词是指出现在文献的标题、文摘或全文中,能表达文献实质内容的,或者被人们作为检索入口的关键性专业名词术语,它属于自然语言范畴

由于关键词直接来源于文献,不考虑规范化,抽词容易,所以关键词语言的最大特点是使用起来比较灵活,常能揭示最新出现的专业名词术语,同时计算机编制关键词索引还具有成本低、速度快、时差短的优点。因此在计算机检索系统中,关键词法得到广泛深入的应用。出现在文献篇名、文摘或全文中的关键词,通常被作为文本词纳入文献数据库索,以提供更多的检索入口。

由于关键词不像主题词那样严格、规范、唯一,因此造成同一主题内容的文献可能由于使用不同的关键词而被分散,造成漏检的可能性较大。同时,每篇文献信息标引的关键词较多时,虽然可以减少漏检,但误检的可能性增大,使检索到的大量文献可能并不相关。因此使用关键词语言检索工具应注意检索结果的全面性和准确性。

3.依据检索语言的词汇组配方式分

依据检索语言的词汇组配方式,信息检索语言可分为先组式语言和后组式语言。

(1)先组式语言

先组式语言是指在检索实施前已经事先组配好的一种检索语言。用户只能用这种已经固定好的检索词组形式去完成检索,它有较好的直接性和专指性,但灵活度差。例如,标题词语言就属于此类。

(2)后组式语言

后组式语言是指在检索实施前未事先组配好的、以单元词等形式出现的一种检索语言。用户在检索时将它们临时组配起来,表达一定的概念,来完成信息检索。这种后组方式语言提供了灵活的组配方式,在计算机检索中得到了广泛的应用。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈