首页 理论教育 数据质量的不同维度:解析一下

数据质量的不同维度:解析一下

时间:2023-06-23 理论教育 版权反馈
【摘要】:用户在进行数据质量评估和管理时,需要区分数据质量维度。目前,可供使用的质量维度有20多个,在这些质量维度中,出现频率较高的维度分别是:准确性、完整性、一致性、可获得性和及时性。定义3:数据库记录中的各种“字段”中所包含的值的正确性。运用查询工具来确定电话号码字段中是否有学生家庭的座机号码,以及是否用符合标准的格式[(区号)+号码,号码长度为7位或者8位数字]来表示有效的电话号码。

数据质量的不同维度:解析一下

当人们购买钻石的时候,它的价格是由5C标准(carat、clarity、color、cut、confidence)来确定,即通过查看钻石的克拉、颜色、纯净度、切割工艺,以及珠宝商的品牌价值以确认钻石的品质。而数据质量维度(data quality dimensions)就是数据质量的评估标准,它衡量数据在某一方面的性质,例如,精确性、完整性、重复性、存取性、关联性、一致性、及时性等。不同的机构、企业和用户对数据质量维度的标准不尽相同,最好根据实际的业务流程和用户需求来选择合适数据质量维度。每一数据质量维度需要不同的度量工具、技术和流程。这就导致了完成评估所需要的时间、金钱和人力资源会呈现出差异。用户在进行数据质量评估和管理时,需要区分数据质量维度。

目前,可供使用的质量维度有20多个,在这些质量维度中,出现频率较高的维度分别是:准确性、完整性、一致性、可获得性和及时性。这些维度多次在各种质量标准中出现,反映了数据质量特性和用户需求。下面分别描述它们的含义和用途。

1)准确性(accuracy)

准确性的定义并不唯一,下面介绍一些常用的定义。

定义1:数据是准确的,当数据存储在数据库中对应于真实世界的值[62]

例如,某一用户希望在淘宝网申请账户,网站要求验证用户的身份证号码。如果用户提供的证件号码与实际号码一致,那该号码存储在数据库中的值就是正确的。

定义2:准确性是指数据的正确性、可靠性和可鉴别的程度[17]

定义3:数据库记录中的各种“字段”中所包含的值的正确性。此外,从形式化的角度定义准确性是指:一个数值v,与真实值v'之间的相似程度[63]

准确性需要一个权威性的参考数据源,将数据与参考源比较。比较方式可以采用调查或者检验的形式,例如,判断性别的取值只可能是男或女两个值。假设一个学生数据库的管理员正在检查学生记录的质量。运用查询工具来确定电话号码字段中是否有学生家庭的座机号码,以及是否用符合标准的格式[(区号)+号码,号码长度为7位或者8位数字]来表示有效的电话号码。

2)完整性(completeness)

与准确性类似,完整性也有许多定义。这里给出常见的3种定义。

定义1:完整性是指数据有足够的广度,深度和范围的程度[62]

定义2:在一次数据收集中所包含的值的程度。

定义3:信息具有一个实体描述的所有必需的部分。

在关系型数据库领域中,完整性往往与空值(null)有联系。表3-3解释了完整性与空值的关系。空值是指值缺失或者不知道具体的值。

3)一致性(consistency)(www.xing528.com)

数据一致性通常指关联数据之间的逻辑关系是否正确和完整。在数据库领域[64],它通常是指在不同地方存储和使用的同一数据应当是等价的事实。等价用于描述存储在不同地方(数据库、数据仓库、hadoop)的数据概念上相等的程度。它表示数据有相等的值和相同的含义,或本质上相同,同步是使数据相等的过程。以关系数据库理论为例,完整性(integrity)约束就是用来保证数据间逻辑关系是否正确和完整的一种语义规则。

由于相同数据经常被存储在数据库或者数据仓库的不同位置,所以一致性非常重要。数据的任何使用应基于具有相同含义的哪些数据。对于相同主题的报告经常会有不同的结果,这使得管理者很难做出有效的决策

4)可访问性(accessibility)

可访问性的定义包括:

定义1:指用户可以获得数据的物理条件,包括:数据在哪里,如何订购,交易时间,明确的定价政策,便利的营销条件(版权等),可用性的微观或宏观数据,各种格式(纸质,文件,光盘,互联网等)等[65]

定义2:用户需要的数据是公开的、可以方便地获取或者允许授权用户进行下载和使用。可访问性与数据开放紧密联系在一起。数据开放程度越高,获得的数据种类就越多,可访问性的程度也就越高[24]

5)及时性(timeliness)

有些数据值会随时间而变化,比如,每天股票的成交金额,而且现实世界真实目标发生变化的时间与数据库中表示它的数据更新以及使其应用的时间总有一个延时。因此,及时性也称为时效性,是一个与时间相关的维度。下面介绍不同学者给出的定义。

定义1:时效性是指在现实世界状态的一个改变和信息系统状态之间结果变化的时延。

定义2:时效性定义为数据在完成任务或者由于数据从产生到获取再到利用,可能会有一个很显著的时间差[66]

特别是,数据被手工获取并被数字化存储再到被理解、获取和访问,这个过程的时间差更加明显。

定义3:时效性是数据来源的平均期限。

定义4:时效性是一个任务中数据充分更新的程度。

除了以上列举的五个数据质量维度外,还有一些质量维度也比较常用,它们包括:可信度、相关性、适应性、可审计性、可读性、唯一性和授权。这些质量维度的定义不再赘述,如果需要了解,可查阅其他相关资料。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈