首页 理论教育 图情大数据:数据互操作规范

图情大数据:数据互操作规范

时间:2023-08-08 理论教育 版权反馈
【摘要】:由于不同的领域往往存在不同的数据编码格式和元数据格式,当在这些异源异构数据之间进行数据检索、传输和交换时,就存在互操作问题。图情领域的数据互操作规范包括系统间的互操作、数字对象的统一标识和统一调度、不同编码格式的数字内容之间的互操作,也包括不同元数据标准和格式之间的互操作。在数据互操作规范中,除了元数据标准和格式层面的映射之外,一个重要的规范就是支持“语义互操作”的关联数据。

图情大数据:数据互操作规范

由于不同的领域(甚至同一领域)往往存在不同的数据编码格式和元数据格式,当在这些异源异构数据之间进行数据检索、传输和交换时,就存在互操作问题。图情领域的数据互操作规范包括系统间的互操作、数字对象的统一标识和统一调度、不同编码格式的数字内容之间的互操作,也包括不同元数据标准和格式之间的互操作。系统间的互操作协议主要包括Z39.50、目录服务协议(LDAP、X.500等)、Web Services相关标准等,还有长期保存在业界内的一些专有的标准,如OAI-ORE、OAI-PMH、SWORD等。数字对象的统一标识有各种统一资源标识符规范,如URN、URI、IRI、DOI、PURL,数字对象的统一调度有Handle系统等,而元数据之间的互操作主要是通过在不同的元数据格式之间建立映射来实现的。

中国国家数字图书馆“数字图书馆标准规范体系建设”项目强调:在数字图书馆应用服务系统的建设中,要建立统一描述机制,支持统一的资源命名规则和唯一标识;建立开放的、可互操作的数字资源组织与管理标准规范;建立可互操作的数字对象调度机制等。此外,还应充分利用现有的其他相关标准规范。CSDL为了支持分布环境信息系统的互操作,在研究数字图书馆标准规范发展趋势的基础上,根据CSDL建设的实际环境,提出了CSDL实施开放描述和标准应用指南,指导和约束CSDL各个具体系统的建设,支持CSDL与其他数字信息系统的互操作。从构建开放描述环境出发,提出开放系统设计和实施的技术要求、数字内容、数字对象、资源组织、资源服务的开放描述需求,并对支持开放描述的支持措施提出了指导性的意见。(www.xing528.com)

在数据互操作规范中,除了元数据标准和格式层面的映射之外,一个重要的规范就是支持“语义互操作”的关联数据。基于领域概念体系(知识本体)而非文献来组织知识,用“主-谓-宾”这种普适的RDF数据模型表示和检索知识,借助大量发展成熟的数据校验和知识挖掘工具支持知识的维护和更新,允许用户访问文献中的部分数据而非整个文献。另一方面,关联数据已在图书馆界得到了广泛而深入的应用,形成了一整套基于元数据和知识本体、RDF数据转换、存储和查询、数据可视化的实现技术、方法和流程,可以很好地满足语义互操作的需求。知识本体是领域知识经抽象后形成的可共享、可重用的概念模型,通常表现为一套体系化的术语词表及相互之间关系的形式化描述,以一定的机器语言编码后可被机器识别并处理的代码体系。知识本体是语义万维网技术的基石之一,为数据赋予语义,是数据中所含知识的容器。典型的图书馆关联数据本体模型有美国国会图书馆的BIBFRAME和欧洲数字图书馆(Europeana Data Model,EDM)。OCLC采用2011年 由Google、Yahoo、Yandex等三个搜索引擎巨头发起并设计的Schema.org作为本体模型和词汇来源,基于Schema.org开发了一个图书馆扩展词汇集,即SchemaBibEx,增加了16个资源类型和其他反映馆藏等信息的属性,用来配合Schema.org,使之能更好地满足图书馆的元数据实践需求。关联数据的第三原则要求数据为RDF格式。RDF数据抽象模型及其各种序列化格式如RDF/XML、Turtle、JSON-LD等,是W3C的推荐标准规范,是跨平台的、开放的、可被各种程序语言处理的标准数据格式。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈