首页 理论教育 图情大数据:长期数据保存规范

图情大数据:长期数据保存规范

时间:2023-08-08 理论教育 版权反馈
【摘要】:中国国家数字图书馆标准规范体系项目基于OAIS制定了国家图书馆数字资源长期保存规范。目前摄入领域的标准化实践主要是Producer-Archive Interface Methodology Abstract Standard标准,是数字信息资源长期保存系统特有的标准。国际标准化组织与RLG合作,准备提出适合数字信息资源长期保存系统本身特点的认证、授权标准。数据溯源是OAIS模型定义的长期保存描述信息的重要组成部分,确保元数据在将来可追溯。

图情大数据:长期数据保存规范

数字资源长期保存是数字图书馆建设中首要考虑的问题之一,到了大数据时代,长期保存要考虑的不仅仅是数字资源对象,还涉及各种元数据、研究数据、用户数据、交互数据的长期保存。无论是数字资源对象,还是各种结构化或非结构化数据的长期保存,标准规范是不可忽视的重要部分,贯穿于数字资源和各种数据生命周期的全过程。

开放档案信息系统(open archival information system,OAIS)是一项旨在为基于长期保存目的的信息系统建立一个参考模型和基本概念框架,以维护信息系统中数字信息的长期保护和可存取,在长期保存领域有着广泛而深入的影响。OAIS是由国际空间数据系统咨询委员会(CCSDS)制定的标准,2003年最终作为ISO的标准(ISO 14721:2003)颁发。OAIS模型将数字信息资源长期保存系统划分为摄入、保存、访问和管理四个部分,每一部分需要相应的包标准和转换标准,同时,一些基于OAIS的系统采用了标准元数据框架和元数据标准,采用通用协议和技术等,这些标准为建设高质量的数字信息资源长期保存系统提供了科学依据。中国国家数字图书馆标准规范体系项目基于OAIS制定了国家图书馆数字资源长期保存规范。

OAIS提出了包含摄入、档案存储、数据管理、访问、保存计划和管理模块在内的功能模块,每一个模块处理的内容和过程并不相同,需要的标准也不相同。摄入过程的标准涉及数据准备和资料准备、数据和支持资料的摄入、提供者和Archive的交互等方面。目前摄入领域的标准化实践主要是Producer-Archive Interface Methodology Abstract Standard标准,是数字信息资源长期保存系统特有的标准。存储过程中的标准规范主要解决数字信息资源长期保存系统中有关保存的相关过程、方法、技术等方面的问题,主要包括内容对象标准、数据编码标准、数字迁移标准、安全管理标准、存储介质标准、存储管理标准、SIP信息包标准等,如目前国际标准化组织正与CCSDS信息包和注册工作组制定基于XML的SIPs(submission information packages)标准,这将是数字信息资源长期保存系统的又一个特有标准。访问过程中的标准用于规范长期保存资源访问过程中的检索、传输、资源发现和访问控制的相关行为。国际标准化组织与RLG合作,准备提出适合数字信息资源长期保存系统本身特点的认证、授权标准。数字信息资源长期保存系统的管理可以分为数据管理和系统管理。数据管理模块包括定义和描述获取信息以支持OAIS的描述性元数据和OAIS内部系统操作的管理性元数据。记录管理标准提供执行管理记录战略、过程和实践的指南,AS ISO 15489系列标准是记录管理标准中的典型,主要说明记录管理的责任、战略、控制、存储、评估等内容。

根据信息对象内容和功能的不同,OAIS将数字保存系统中的信息对象分为四种类型,即内容信息对象、保存描述信息对象、打包信息对象和描述信息对象。OAIS对提交给它的信息包、它所存储的信息包以及它分发给其他消费的信息包进行了区分,相应地,OAIS将对应的信息包分别叫做提交信息包、存档信息包和分发信息包。同时,为了有效地支持信息对象和信息包的分类,不同信息间的转换还需要配套相应的分类标准和转换标准,但目前还没有统一的信息模型分类和转换标准。(www.xing528.com)

OAIS定义了有效的长期保存和访问信息对象所需的过程,但它并没有具体说明实施过程,而是提供了一个框架,通过描述保存环境所需的基本功能和信息类型,以指导具体实现。2012年该标准推出了修订版(ISO 14721:2012),另一个补充标准是生产者—档案接口方法抽象标准(PAIMAS)(ISO 20652:2006),它描述了提交和转移一个数字对象的协调合作工作流

数据溯源是OAIS模型定义的长期保存描述信息的重要组成部分,确保元数据在将来可追溯。数据溯源包括变更情况描述、过程性的活动描述等。数据溯源是近年来语义网研究领域的一大热点,PROV数据溯源模型是由W3C定义的有关数据溯源的一系列标准,其中4个已经成为W3C的推荐标准。PROV包含用OWL2表示的PROV-O本体模型及词表,PROV基于RDF编码,定义了可对溯源的声明进行推理的推理规则。通过对数据来源的表示和推理,判定数据的可靠性和可信性。PROV包含本体词表、逻辑层和证明层,试图作为可信Web的基础标准。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈