首页 理论教育 元数据简介,元数据概念、作用和分类

元数据简介,元数据概念、作用和分类

时间:2023-02-18 理论教育 版权反馈
【摘要】:⑤元数据,通常被定义为数据之数据。②描述型元数据,用来描述与标识信息资源的元数据,一般为手工制作。除上述分类方法外,根据划分标准的不同,元数据还有其他的分类方式。④复用元素,该元数据集从其他元数据集中复用的元素,有可能需要对其语义范围和编码规则进行修订。⑤元数据独立于数据对象存在,例如MARC。

元数据简介,元数据概念、作用和分类

2.3.1 元数据简介[14]

元数据作为一个统一概念的提出首先是起因于对网络资源管理的需要。互联网信息的爆炸式增长,使人们难以快速准确地找到自己所需要的信息,因此计算机科学领域研究人员提出了元数据,试图模仿图书馆对图书进行管理的方式,对网页资源进行编目,以便对网络资源进行管理。

1.元数据概念

关于元数据至今并没有一个统一的定义,最为普遍的说法是:元数据是关于数据的数据(data about data)。这一定义虽然简洁,但却不能完全概括、揭示元数据的内涵。一些研究者将这个解释进行了扩展和深化,提出了关于元数据的多种说法,具有代表性的是:

①元数据是关于数据的结构化数据。

②元数据是用于描述数据内容(what)、覆盖范围(where when)、质量、管理方式、所有者(who)、提供方式(how)的数据,是数据与数据用户之间的桥梁

③元数据是与对象相关的数据,使其潜在的用户不必预先具备对这些对象的存在或特征的完整认识。

④元数据是对信息包裹的编码描述,元数据的目的在于提供一个中间级别的描述,使人们据此就可以做出选择,确定其想要浏览或检索的信息包,而无需检索大量不相关的信息。

⑤元数据,通常被定义为数据之数据。它包含用于描述信息对象的内容和位置的数据元素集,促进了网络环境中信息对象的发现和检索。

2.元数据的作用

元数据的作用主要体现在以下几方面:

①描述,元数据最基本的功能就在于对信息对象的内容描述,从而为信息对象的存取与利用奠定必要基础。

定位,元数据包含有信息对象位置方面的信息,可以通过它确定信息对象的位置所在,促进信息对象的发现和检索。

③发现,元数据提供发现的基础。在著录过程中,将信息对象的重要特征抽出并加以组织,赋予语义,建立关系,使得检索结果更加精确,有利于用户发现真正需要的资源。

④评价,元数据可提供信息对象的基本属性,便于用户在无需浏览信息对象本身的情况下,对信息对象有基本的了解和认识,对信息对象的价值进行评估,作为是否利用、如何利用的参考。

⑤选择,根据元数据所提供的描述信息,参照相应的评价标准,结合现实的使用环境,便于用户做出取舍的决定,选择适合使用的信息对象。

此外,元数据的作用还体现在保存、管理、整合、控制、代理多个方面,同时,还是下一代万维网——语义万维网(Semantic Web)的基石。通过表达语义的元数据,以及表达结构、关系和逻辑的XML/ XMLS/RDF/RDFS/OWL形式化描述,计算机能够对数据所负载的语义进行理解和处理,从而赋予互联网惊人智慧和能力。

3.元数据的分类

1998年美国Getty信息研究所针对元数据开展了专项研究,在相关的研究成果中,将元数据按照功能划分为管理型元数据、描述型元数据、保存型元数据、技术型元数据和使用型元数据5种类型。

①管理型元数据,用于管理与控制信息资源的元数据,如采购信息、版权及复制记录、馆藏信息、权利控制信息(密级)、数字化选择标准、版本控制。

②描述型元数据,用来描述与标识信息资源的元数据,一般为手工制作。如目录记录、专门索引、资源之间的超链接、用户注解。

③保存型元数据,与信息资源的保存管理相关的元数据,如资源物理状态的描述文档、关于保存资源的物理或数字版本的文档(如数据的更新、迁移)。

④技术型元数据,与系统功能相关的元数据或元数据行为模式,如硬件及软件文档、数字化信息(如格式、压缩比、缩放比)、系统反应次数的追踪、许可及安全数据(如密码、加密密钥)。

⑤使用型元数据,与信息资源利用的等级和类型相关的元数据,如展览记录、用户使用记录、内容再利用及多版本信息。

除上述分类方法外,根据划分标准的不同,元数据还有其他的分类方式。比如美国国会图书馆在资源库核心元数据表中将元数据划分为描述型元数据、管理型元数据、结构型元数据3种类型。其中描述型元数据是用于数字对象的发现;管理型元数据是用于管理和保存资源库中的对象;结构型元数据主要是用于资源库中数字对象的存储和显示。这种分类方法也为我国一些数字图书馆项目的元数据方案所采用。

4.元数据的结构

元数据格式是通过多层次的结构予以完整定义的,包括内容结构、句法结构和语义结构。其中,内容结构是对元数据的构成元素及其定义标准进行描述,句法结构是定义元数据整体结构以及如何描述这种结构,语义结构是定义元数据元素的具体描述方法。

(1)内容结构

内容结构定义了元数据的构成要素,主要包括:

①描述性元素,对数据对象的基本内容特征进行描述的元素,例如题名、作者。

②技术性元素,对数据对象制作、传递、使用或保存过程中的技术条件或参数进行描述的元素,例如扫描分辨率、压缩方法、使用软件。

③管理性元素,对数据对象及元数据本身的管理进行描述的元素,例如有效期限、使用权限。

④复用元素,该元数据集从其他元数据集中复用的元素,有可能需要对其语义范围和编码规则进行修订。

同时,在内容结构的定义中,需要进一步规定元素的选取使用规则,例如是否必备、是否重复、子元素组成。

(2)句法结构

句法结构定义了元数据的格式结构及其描述方式:

①元素的分区、分层、分段组织结构,例如MARC分成头标区、目次区和数据段区,EAD分为头标段、前面事项段和档案描述段,CEDARS分为保存描述信息和内容信息。(www.xing528.com)

②元素结构描述,一般用XML DTD,XML Schema,RDF或SGMLDTD来定义。

③元素复用方式,可以通过命名域来链接相关DTD,ontology或内容规范。

句法结构还可定义元数据与被描述数据对象的捆绑方式,包括:

④元数据与数据对象捆绑在一起,例如元数据在HTML HEAD中标记,作为数据对象的一部分。

⑤元数据独立于数据对象存在,例如MARC。

⑥元数据作为单独数据存在但以一定形式与数据对象链接,例如通过

<rdf:Resource about='url'>来链接。

(3)语义结构

语义结构定义了元素语义的具体描述方法,包括三个层次:

①元素定义。所谓元素定义是对元素本身有关属性进行明确定义,一般采用国际标准1501117-93,通过10个属性来界定元素: Name,元素名称;Identifier,元素标识;Version,版本(采用该元素的元数据版本);Registration Authority,登记机构;Language,语言(元素本身的语言);Definition,定义;Obligation,使用约束;Datatype,数据类型;Maximum Occurrence,最多出现次数;Comment,注释。在很多元数据集中,其元素的某些属性取值完全一致,例如Dublin core在版本、登记机构、语言、使用约束、最多出现次数属性上取值一致。在实际元数据记录中,常通过XML Namespace链接定义文件。

②元素内容编码规则定义。内容编码规则是确定在描述元素内容时应该采用的编码规则,具体可以是特定标准,或是最佳实践,或是自定义的描述要求。为了准确使用元数据,应该在定义元素时定义相应的编码规则,例如Dublin core建议日期内容编码采用ISO 8601。

③元素语义概念关系。元素本身的语义实际上已经在元素定义中予以了描述,但这些元素并不是孤立存在的,而且这些元素(就其名称而言)可能在不同的领域有不同的含义,例如title在文献领域是文献标题,在社交领域则是人名职衔。因此,需要把元素放在一个概念体系中来说明它的上下文关系,说明它与其他概念的关系。具体可利用RDF/RDFS技术来定义元素概念的类属关系,通过XML Namespace技术将元素与相应的语义定义、语义网络和语义本体(ontolgoies)链接起来,从而支持对元素语义及语义关系的进一步解析。这种链接还可支持元数据互操作和元数据挖掘过程。

5.元数据格式

随着近年来元数据研究与应用的不断深入,目前已经有多种元数据格式存在,分别用于数字图书馆各类资源的著录和标引。比如专著及论文类的普通电子文本、多媒体信息资源等。为了满足不同类型信息资源对元数据格式的不同需要,元数据格式标准也呈现出多元化发展的态势。下面主要介绍图书馆界常用元数据格式Dublin Core和MARC,以及国际上比较有影响的几种专门对象元数据标准。

(1)Dublin Core

都柏林核心元数据(Dublin Core,DC),最初是为网络资源的描述与发现而建立的元数据标准。它起源于1995年在美国俄亥俄州都柏林市举办的元数据讲习班,是由OCLC发起,DCMI组织负责维护的。经过多年的大力推广与国际合作,都柏林核心元数据集已发展成为一种跨领域的信息资源描述标准,此处的信息资源被定义为“任何具有标识的东西”。目前,都柏林核心元数据应用的资源类型已没有根本性的限制,成为一种基本元数据标准。

(2)MARC

机读目录(Machine-Readable Catalogue,MARC)是在计算机条件下描述、存储、交换、控制和检索书目数据的标准,是图书馆界广泛采用的元数据格式。MARC数据结构严密,是文献描述著录的主要手段。在标准的MARC格式支持下,各个著录数据系统可有效实现数据共享、联合编目和联合目录应用,为大规模网络化编目和目录数据共享提供坚实基础。我国国家图书馆即是采用CNMARC和MARC21来处理中文文献和西文文献。

(3)文献资料元数据TEIHeader

文本编码创始项目(Text Encoding Initiative,TEI)是1987年在计算与人文协会(ACH)、计算机语言协会(ACL)、文学与语言计算协会(ALLC)的支持下确立的国际项目,目标是减少现存编码的多样性,提供一个通用的支持复杂结构的编码方案。TEI的使用现已扩大到各个学科领域,成为电子文本交换的国际编码标准。

TEI包括元数据(meatdata)和内容(content)两大部分,使用SGML(XML)作为编码语言,具有平台独立、应用灵活和可扩展的特点,支持对各种类型特征的电子文本进行编码。一个TEI文件通常包括四部分:TEIHeader,front,body,back。其中TEIHedaer规定了对电子文本内容的描述,而其他三部分分别用TEI标签格式记载文本前言、正文、附录的实际内容。

(4)档案资料元数据EAD和EAC

①档案编码描述格式(Encdode Archival Description,EAD),是美国档案界开发的一种元数据编码标准,最初起源于1993年加州大学伯克利分校图书馆的伯克利检索工具计划。EAD已在世界范围内得到了广泛应用,目前由美国档案学会和国会图书馆网络发展与MARC标准办公室负责维护。

EAD是以SGML/XML作为编码语言,是为适应档案馆和原稿库的需要而开发的一种资源描述方式。EAD的产生目的是为档案描述的机读方式提供标准,使图书馆收藏的档案和原稿能提供统一的网络存取。一般情况下,图书馆的MARC记录只提供简要的描述和存取,而EAD则可提供详细的描述和存取,并且这两种描述方式可以相互补充,在书目数据库中,利用MARC记录为藏品提供的简要描述可指向基于EAD的详细描述。

②EAC也是档案界开发的一个基于XML的元数据标准,是EAD的扩展和补充。EAC是用来描述档案资料产生和使用环境的。这里的环境是指作为档案资料的作者、用户或主题的人、组织或家族的识别信息。EAC除可以用于档案领域外,还可以用于图书馆和博物馆,个人传记、组织历史以及家谱数据库中。

(5)艺术作品元数据CDWA和VRA Core

①艺术作品描述目录(Categories of the Description of Work of Art,CDWA)是由艺术信息处理工作组(AITF)定义的。CDWA力图建立艺术作品及其可视资源和文献资源的描述标准,主要在博物馆界使用。CDWA有27个核心元素,核心元素下又包含一层或多层子元素。

②可视资源协会(Visual Resource Association,VRA)核心元数据(VRA Core)是美国可视资源协会为了规范描述可视文化作品及其图像资源而制定颁布的元数据标准。VRA Core 3.0版定义了17个核心元素,有些核心元素下又包含有子元素。

与CDWA相比较,由于VRA描述的视觉资源反映的主体是艺术品类,所以在对著录对象的属性分析和元素子元素定义上与CDWA有很多相似之处。但是VRA是专门描述视觉资源的,因此元素比CDWA少了描述非视觉资源的部分,同时元素也更为简单。

(6)学习对象元数据IEE LOM

学习对象元数据(IEEE Learning Object Meatdata,IEE LOM)是由IEEE学习技术标准委员会(TLSC)开发的,用以完整、充分地描述一个学习对象特征的元数据,已经于2002年6月成为IEEE的正式标准。LOM标准定义了学习对象元数据的语法和语义,目的在于使用最小属性集完成对学习对象的管理、检索和评估,并且便于将来对其属性进行扩展,是一个基本元数据方案。IEEE LOM是目前影响最大的学习对象元数据模型,已经应用在美国、欧洲的多个与教育相关的项目中,很多商业机构也积极参与了这个标准的制定,并且已经在其产品中应用了LOM。LOM工作组与DCMI的合作正在增加,两个组织已于2001年12月发布了谅解备忘录,DC-Education已采用了LOM的3个元素,LOM在某些方面也使用了DC的成果。例如,它的Relation关系类元数据就采用了DC的关系类型,LOM工作组已经制定出了简单DC和LOM的对应表。

(7)政府信息元数据GILS

政府信息定位服务(Government Information Locator Service,GILS)是一种支持公众搜寻、获取和使用政府公开信息资源的分布式信息资源利用体系。美国将GILS作为联邦政府信息处理标准颁发,并将其作为政府信息基础设施的核心部分进行建设。同时,加拿大、澳大利亚以及一些民间组织也利用GILS来建立或推动政府信息的广泛利用和共享。各政府机构利用GILS规定的标准描述所拥有的信息资源,建立相应的资源目录和检索系统(GILS定位器或GILS服务器);如果信息资源本身是数字资源,则在资源目录和实际资源间建立链接;公众可以通过互联网直接检索这些目录数据,并通过链接获得有关的数字资源。GILS服务器遵循Z39.50协议检索数据。

(8)地理信息元数据FGDC

联邦地理数据委员会(Federal Geographic Data Committee,FGDC)制定了数字地理元数据内容标准内容,其目的是为确定一组描述数字地理空间数据的术语集合及其定义,为地理空间信息的开放性描述、交换和处理奠定基础。FGDC元数据标准没有规定记录格式或编码规则,而是说明了元数据的内容。因此即使元数据符合标准,记录看起来也可能是不一样的。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈