首页 理论教育 主题语言和主题词表在《信息检索》中的应用

主题语言和主题词表在《信息检索》中的应用

时间:2023-08-01 理论教育 版权反馈
【摘要】:主题词表是供标引者和检索者共同使用的工具。由于主题词表是沟通文献标引人员和文献检索人员的桥梁,相当于他们进行思想交流的一种工具,所以主题词表也被称作主题语言。③参照系统,是主题语言显示主题词语义关系的语义网。

主题语言和主题词表在《信息检索》中的应用

主题语言是使用词语标识的一类检索语言,它用自然语言中的名词、名词性词组描述事务概念的中心语义。主题语言不管各概念间的相互关系,完全按照字顺来排列。

主题语言包括标题词语言、叙词语言、关键词语言和单元词语言。

1.主题

文献主题即文献论述或涉及的主要事物或问题。文献主题可分为简单主题和复杂主题两类,当某文献或提问只涉及一个主题时,该主题就叫简单主题;若某文献或提问涉及两个或两个以上的主题,则该主题叫复杂主题。实际上,绝大多数图书、论文会议文献的主题都是复杂主题。

2.主题词

主题词是川于描述、存储、查找文献主题的受控词汇,是主题表中能表达一定意义的最基本的词汇单元。主题词一般分为标题词、单元词、叙词和关键词。

①标题词是主题语言系统中最早使用的一种类型,是从文献的题目和内容中抽选出来,经过规范处理,用以描述文献内容特征的词和词组。标题词一般分为两级,即主标题和副标题。编制标题词表时,标题词被一一列举,并将主标题和副标题固定地组配在一起。它只能选用“定型”标题词进行标引和检索,反映的文献主题概念必然受到限制,不适应时代发展的需要,目前已较少使用。

②关键词是从文献的题目和内容中抽选出来,未经过规范处理的自由词汇。关键词没有固定词表,标引文献时根据文献内容选择恰当的词汇进行组配,以表达文献的内容特征。关键词法主要川于计算机信息加工抽词编制索引,因而这种索引被称为关键词索引。

③单元词是从文献的题目和内容中抽选出来的、最基本的、字面上不能再分的词汇。单元词一般未经规范处理,也无词表,无固定组配关系,检索时根据提问的内容特征,选取恰当的单元词进行组配检索。单元词法多用于机械检索,适合用简单的标识和检索手段(如穿孔卡片等)来标识信息。

④叙词是表达文献基本内容的概念单元,即在概念上不能再分的基本概念。叙词经过规范处理形成一个完整的词表,词表中词与词之间无从属关系,都是一个个相互独立的概念单元。叙词法综合了多种信息检索语言的原理和方法,具有很多优越性,适用于计算机和手工检索系统,是目前应用较广的一种主题语言。CA、EI等著名检索工具都采用了叙词法进行编排。

3.主题词表

主题词表是把主题词按一定方式组织与展示的词汇表。受控的主题词之间的语义关系用参照系统等方式加以显示。主题词表是供标引者和检索者共同使用的工具。(www.xing528.com)

按照主题词的特点,主题词表可划分为标题词表、单元词表和叙词表等不同类型。

由于主题词表是沟通文献标引人员和文献检索人员的桥梁,相当于他们进行思想交流的一种工具,所以主题词表也被称作主题语言。

主题语言的要素包括四个方面:

①语词标识,是代表一定主题概念的标记符号,是标引、存储和检索文献主题的依据。语词标识采用自然语言中的名词术语,作为描述文献主题的检索标识。

②字顺系统,是主题语言区别于其他检索语言的重要标志。汉字的字顺系统即汉字排检方法,主要有两类。一是音序法,即以汉字的音序作为编排次序的排检方法,主要有声韵法、注音字母法和拼音字母法。二是形序法,即从汉字字形特征出发来编排汉字次序的排检方法,包括部首法、笔画笔形法和四角号码法。

③参照系统,是主题语言显示主题词语义关系的语义网。其基本作用是显示概念关系,扩大检索途径。

④主题检索工具,是指依据主题语言原理编制的各种主题检索工具,主要包括主题目录、主题索引及计算机的主题词倒排档。

4.《汉语主题词表》简介

《汉语主题词表》(简称《汉表》)是显示主题词与词间语义关系的规范化、动态性的检索语言词表,由中国科学技术信息研究所编写。该词表于1974年作为“汉字信息处理系统工程”的配套项目开始编制,并在研究和借鉴国外叙词表编制技术的基础上,根据ISO 2788:1986《单语种叙词表编辑和修订准则》,经过近9000人5年时间的工作,于1980年编成问世。

《汉表》按照社会科学、自然科学两个系统分别编列,全表共收词108568条,其中叙词91158条,非叙词17410条。它是我国第一部大型的综合性的叙词表,包括主表(字顺表)、附表、词族索引、范畴索引和英汉对照索引,共分三卷十个分册,其收词范围之广、编辑技术之先进、结构体系之严谨,当时达到国内外一流水平。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈