首页 理论教育 人文大数据的知识生产与服务

人文大数据的知识生产与服务

时间:2023-08-08 理论教育 版权反馈
【摘要】:如何帮助学者在海量文献中找到与研究主题相关的数据、事实和知识,是图书馆服务的首要任务。图书馆的文献服务是建立在对文献的规范标引和著录、对标引著录的结果——元数据进行组织和管理的基础上的,而知识服务则需要建立在对文献中的知识进行组织和管理的基础上。关联数据和知识图谱就是在知识之间建立可被机器理解的关联关系的技术,这种技术建立在Web的HTTP协议之上,以RDF三元组为最小的知识单元。

人文大数据的知识生产与服务

在数字图书馆时代,图书馆使用元数据的方法来组织资源,基于元数据的字段检索来提供文献查询和全文阅览服务。而到了数字人文时代,由于互联网的发展和数字图书馆建设的成果,学者可获得的文献不是太少,而是太多。如何帮助学者在海量文献中找到与研究主题相关的数据、事实和知识,是图书馆服务的首要任务。图书馆需要直接为学者提供文献中蕴含的且与研究主题相关的知识,帮助学者准确而全面地定位到所需文献。更重要的是,数字人文的优势还在于提供不一样的视角帮助学者发现新的研究问题。因而对于图书馆来说,完成从文献服务到知识服务的转型,是图书馆从事数字人文项目建设的主要目的。

图书馆的文献服务是建立在对文献的规范标引和著录、对标引著录的结果——元数据进行组织和管理的基础上的,而知识服务则需要建立在对文献中的知识进行组织和管理的基础上。知识组织是揭示知识单元(包括显性知识因子和隐性知识因子)、挖掘知识关联的过程或行为,最快捷地为用户提供有效知识或信息。

互联网时代的知识组织与传统知识组织的不同之处在于:分类系统和叙词表主要是让人使用的,便于编目员在文献著录时参考,作为元数据元素的取值,同时在检索系统中进行简单的索引以便于检索,而机器智能时代的知识组织是为了让机器能够读取、处理并理解数据中蕴含的语义,归根结底是为机器服务的,目的是用机器来帮助学者处理研究所需的大量繁琐、重复劳动的前期工作,如资源的搜集、查询、聚类、统计、分析等。因而,这种“知识组织”需要完成以下任务:

(1)知识编码的形式化——机器可读

知识编码的形式化即用规范化的机器语言来表达知识,其目的是使机器可读。传统的图书馆基于MARC的元数据记录以ISO 2709格式编码,是一种严格遵循标准的编码格式,在图书馆自动化系统中可被机器读取,也用于不同图书馆间的数据交换。但在互联网时代,需要采用更为开放的、符合Web标准的格式,如XML、RDF的各种序列化格式(RDF/XML、Turtle、N3、JSON-LD)等。这些数据编码格式是W3C的推荐标准,被绝大多数编程语言支持,有着跨平台、跨系统、跨领域的特性,因而使知识变成真正的“(任意)机器可读”的数据。

(2)知识单元的细粒度化——机器可计算

图书馆的元数据记录,其描述的对象是文献,以文献为最小单位,主要描述的是文献的外部特征,目的是为了让读者能够查询、定位和阅览文献。到了数字图书馆时代,虽然纸质文献大多已经被数字化为电子版本,但这种以文献为最小描述单位的情况却没有根本性的改变。数字人文要求深入揭示文献内部的事实、数据和知识,因而描述的知识单元更细致,具体来说就是文献中的人、地、时、事、物等内容特征及其相互之间的关系。目的是使得机器可以根据这些知识单元的各项特征属性进行聚类、统计、分析、推理等计算行为。

(3)知识表示的语义化——机器可理解(www.xing528.com)

让机器能够理解人类的信息是计算机科学永恒的主题。语义万维网提出了首先让机器理解机器的有限目标,W3C推出了RDF标准,用“主体-谓词-客体”三元组模型作为知识表示的基本框架。主体是谓词描述的对象,其属性特征可通过定义从同类对象中抽象出来的概念来界定,谓词是严格定义的术语,是描述概念特征的属性,客体作为谓词的值,不仅可以是数据,还可以是另一个对象,这样,谓词就是表示主体和客体之间关联关系的规范化术语。这样的三元组模型以其简洁、普适、规范的形式,经过以机器理解为目的形式化编码,可用来形式化地表达任何事实、数据和知识,并可超越系统、平台和领域的限制,使得机器与机器之间的相互理解成为可能。

在不同的领域内,概念及其属性的定义不尽相同,某一领域内可共享的概念及其概念间关系的形式化定义被称为知识本体,简称本体。本体是语义万维网环境下知识组织的主要方法和技术之一。

(4)知识组织的关联化——机器可推理

在现实世界中,事物之间的关联是普遍存在的,如将这种关联关系反映到机器世界中,机器便可基于大规模的关联关系推理出新的知识。而知识单元之间的关联关系越多,越有利于提高推理结果的准确性。关联数据和知识图谱就是在知识之间建立可被机器理解的关联关系的技术,这种技术建立在Web的HTTP协议之上,以RDF三元组为最小的知识单元。三元组中的主体、谓词、客体都可由HTTP URI来唯一定位和标识,因而其建立的关联关系是跨网域的,而非只在某一系统内部生效。这种广泛而深刻的、基于Web的、植入数据底层的关联关系为大范围、跨领域、大规模数据的机器推理带来了便利。

(5)知识增长的自动化——机器可自学习

在数字图书馆建设时期,图书馆的知识组织工作主要依赖于人工的编目著录工作,尤其是各种分类法、叙词表、规范档等。随着机器智能时代的到来,以及基于神经网络的深度学习(deep learning)技术的进一步发展和成熟,在知识组织的过程中,也开始可以借助机器智能自动地完成知识增长的过程。目前,在自然语言处理(NLP)、名称实体识别(NER)、自动标引和自动分类领域,机器学习大有用武之地。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈