首页 理论教育 智能检索服务:CADAL数字图书馆规范及应用研究

智能检索服务:CADAL数字图书馆规范及应用研究

时间:2023-10-27 理论教育 版权反馈
【摘要】:该检索方法的优点是简单直接,不足之处是只能对节点及明确存在的关联进行检索。

智能检索服务:CADAL数字图书馆规范及应用研究

9.3.1.1 基于本体的检索

本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,以不同层次的形式化模式给出这些词汇(术语)和词汇间相互关系的明确定义,通过概念之间的关系来描述概念的语义。概念间的语义关系主要包括同义词关系、上下位关系、类属关系等。基于本体的检索系统由如下几个模块组成:本体构建、知识获取、语义词典和知识检索。本体构建模型如图9-4所示。

(1)本体构建。为了方便地进行人机交互和概念间的语义转换,可通过对学术文献(论文)对象的抽象,建立学术文献(论文)的本体模型。在学术文献(论文)本体模型中声明了学术文献(论文)的元数据结构(metadata schemes)以及学术文献(论文)与其他实体的语义网络(semantic web)。

图9-4 本体构建模型

(2)知识获取。目前网上期刊全文数据库中收录了大量的学术论文,并提供了统一的检索界面,因此可从中收集论文信息,构建论文的知识库。网页信息抽取的方法较多,由于本模型是以网上期刊全文数据库作为论文知识抽取的数据源,其网页上论文信息的表现形式比较固定统一,因此可以采用网页结构分析法获取所需的论文知识。在二叉树结构的模型中,非叶节点代表HTML代码中的标签字段,叶子节点表示网页的具体描述信息,从根节点出发到叶子节点的路径则反映了论文数据在网页中的抽取路径,根据已建的论文本体和论文元数据在网页中的抽取路径,可实现网页中论文元数据的自动抽取。

(3)语义词典。在基于本体的文献检索系统当中,语义词典用来描述术语之间的语义关系。在本规范中,术语关系主要体现为学术文献关键词之间、关键词和学术领域之间的语义关系。

术语之间的语义关系包括同义关系、上下位关系等。同义关系是指对同一概念的不同表达形式,描述的是术语间的等价关系,如“个人计算机”和“电脑”。上下位关系则是指概念之间的蕴含关系,即某一概念蕴含于另一概念中,如“分类组织”和“学科分类”。由于学术文献涉及的领域众多,对其归类的难度较大,可采用“中图分类法”的思想,对学术文献中的关键词所蕴含的语义关系进行描述和刻画。“中图分类法”是建立在科学分类的基础上,结合图书资料的特性所编制的分类法,它将学科分成五大类和若干细目,能比较清晰地展示各学科之间的类属关系、上下位关系等。在学术文献中,如期刊论文、图书、学位论文等元数据中基本都已经提供中图分类号,这样就减少了论文词典构建的复杂度。构建语义词典时,可先根据学术文献中提供的中图分类号,将学术文献的关键词或概念填入中图分类表中对应的位里,形成能反映关键词之间的上下位关系的词典基表。另外,由经验可知,同义关键词一般只出现在同类论文(具有相同或相近的中图分类号)中,因此,在词典基表的基础上,只需要人工对词典基表中的相邻或相近的关键词进行少许划分和调整,即可得出关键词之间的同义关系,并最终形成有关学术文献元数据的语义词典。[25]

(4)知识检索。在以上检索框架的基础上,将基于本体的知识检索方式分为基于数据模型检索、基于语义检索和基于规则的推理检索3种。这3种检索方式建立了一个多层次的检索模型(见图9-5),其智能化程度逐级递增并且系统内部的处理过程对用户完全透明。

图9-5 基于本体的知识检索模型(www.xing528.com)

1.基于数据模型检索

该检索模式通过与数据模型节点进行信息匹配检索,直接查询数据模型中的某个节点,因此独立于表示数据的特定的句法。对于RDF(S)的三元组模型,该数据模型检索时只检索出某个Subject或Object节点。该检索方法的优点是简单直接,不足之处是只能对节点及明确存在的关联进行检索。[26]

2.基于语义检索

本体形成了概念及其关系的分类化、层次化,使得语义检索能实现复杂的语义关系,在知识层面或者在概念层面上奠定语义检索,能提供给用户一个缩小或扩大的检索范围,以获得某个概念的上位概念、下位概念、平级概念等,通过概念的缩放,获得概念所对应的知识对象。在本体库提供的概念空间的基础上实现语义匹配检索,提供粗粒度和细粒度的检索操作,提供弹性语义范围及精确的语义匹配检索。基于知识构建的知识系统不仅具有表达概念及概念间的逻辑语义关系,而且因不同的知识分类体系而具有层次性,因不同的本体语义关联而形成一个语义网络。通过计算本体之间的相似度和相关度,在语义检索的同时计算本体之间的相似度和相关度,向用户提供有价值的参考信息,智能性地帮助用户进行有效的知识检索和知识导航。按照从上而下的思想,可以将知识的组织形式分成如下3层:

(1)本体层。主要由分类本体构成了一个树形层次分类结构,形成分类概念空间,为基于概念匹配的语义检索提供基础。

(2)元数据描述层。主要对知识对象进行元数据描述,建立知识对象的元素属性与值之间的对应关系,实现非结构、半结构化知识的结构化处理。

(3)具体资源层。是分布在各处的具体的非结构、半结构化知识对象资源,也是知识检索最终要定位的具体资源。

3层结构通过对本体层的概念空间进行概念匹配实现语义检索,由该概念在元数据描述层发现与其链接的实例主题及元数据描述,由该实例主题通过URI找到具体的知识资源,从而实现从概念到具体知识对象的定位过程。同时,基于文本知识结构分析而构建的知识组织系统通过概念的上下位关系来减少歧义干扰,有效地解决了语义检索中最常遇见的同义异形和同形异义关系的问题。

3.基于规则的推理检索

本体只是给出了概念及概念之间的相互关系,在具体应用中,往往还需要用到概念间的逻辑关系,如规则关系等,这就需要在本体层之上构建逻辑层。基于本体的结构化表示及本体库提供概念之间一定的逻辑语义关系,定义以知识元推理为核心的基于本体的推理机制。知识元本体提供基础的、底层的知识,而逻辑层是在知识元本体层之上构建更为复杂的(包含复杂逻辑关系)知识单元,以帮助用户获得概念的语义层次结构。基于规则的推理检索通过递归调用等方法可获得知识系统中暗含的语义关系,进而发现其中蕴含的隐含知识。通过建立多个不同的规则来充分表示知识系统中的网状知识,充分暴露知识系统中的隐含表达语义,可以加强知识系统的检索能力。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈