首页 理论教育 如何有效实现数据治理?

如何有效实现数据治理?

时间:2023-06-27 理论教育 版权反馈
【摘要】:数据治理是一个长治久安、持续优化的过程。通常认为,数据治理至少应当包括以下内容:元数据管理、数据标准管理、数据质量管理、数据安全管理等。元数据管理是指通过计划、实施和控制活动,以实现轻松访问高质量的、整合的元数据。

如何有效实现数据治理?

我国最早意识到数据治理重要性的是金融行业。由于对数据的依赖很强,金融业一直非常重视数据平台的建设,在经过几代数据平台的验证中,发现忽视数据治理是平台建设的主要限制因素。而且随着投资和建设投入的增加,人们对数据治理重要性的认识也越来越深刻。从2008年开始,人民银行银监会在全国银行业推行了统一的数据标准,控制行业的数据质量。

数据治理是一个长治久安、持续优化的过程。数据治理不仅需要完善的保障机制,还需要理解具体的治理内容,比如我们的数据该怎么进行规范,元数据又该怎么来管理,每个过程需要哪些系统或者工具来进行配合等。这些问题都是数据治理过程中最实际的问题,也是最复杂的问题。通常认为,数据治理至少应当包括以下内容:元数据管理、数据标准管理、数据质量管理、数据安全管理等。这些工作是任何一家拥有海量数据的政府机构或企业都无法绕开的。

图9 大数据治理的内容

(一)元数据管理

1.什么是元数据

元数据是描述数据的数据,数据反映了真实世界交易、事件、过程和结果,而元数据则反映了数据的描述、格式和关系等。简单来说,只要能够用来描述某个数据的,都可以认为是元数据。这里举两个类似的例子,如果将图书馆中的一本书当作数据,那么所有用来形容这本书的数据如书名、书的作者、书的所属类别等,都是这本书的元数据;如果将一部电影当作数据,那么我们在该电影海报上看到的所有信息,如电影名、导演、演员、制片人、电影类型等,都可以认为是这部电影的元数据。对于企业而言,元数据是和企业所使用的物理数据、业务流程、数据结构等相关的信息,描述了数据(如数据库、数据模型)、概念(如业务流程、应用系统、技术架构)以及它们之间的关系。

2.元数据管理

理解了元数据的概念后,我们发现元数据很多、很杂乱,不知道怎么用,此时就需要做元数据的管理。元数据管理是指通过计划、实施和控制活动,以实现轻松访问高质量的、整合的元数据。

我们还是继续用前面提到的例子,对图书的元数据进行管理,这其实跟图书馆的目录卡片类似,通过目录卡片可以清楚查询到图书馆保存了哪些书、在图书馆的什么位置,目录卡片上面的信息就是图书的元数据,假如没有目录卡片,我们在图书馆里查找书籍就像大海捞针一样困难。

在政府机构或企业的大数据产业体系中,数据量大且纷繁复杂,通过元数据管理,可以帮助技术人员非常方便地找到他们所关心的数据,并通过对元数据的分析,获取数据的内容、理解数据的特点、追踪数据的来源,从而提高对数据资源的识别、查询、评估和追踪的效率,最终实现对数据资源的高效管理。

元数据管理的具体任务可以从以下六个角度进行概括,即“向前看”:“我”是谁加工出来的;“向后看”:“我”又支持了谁的加工;“看历史”:过去的“我”长什么样子;“看本体”:“我”的定义和格式是什么;“向上看”:“我”的父节点是谁;“向下看”:“我”的子节点是谁。

(二)数据标准管理

数据标准是指保障数据的内外部使用和交换的一致性和准确性的约束规范,包括基础标准和指标标准(或称应用标准)。良好的数据标准体系有助于数据的共享、交互和应用,可以减少不同系统间数据转换的工作。

数据标准管理也就是在数据治理组织架构推动和指导下,遵循协商一致的数据标准规范,借助标准化管控流程得以实施数据标准化的整个过程。国家、地区、行业和企业都有相应的数据标准。在实践过程中需要结合当前业务实际情况对数据集进行规范化,包括格式、编码规则、字典值等内容。通过数据标准的管理,可以提升数据合法性、合规性,进一步提升数据质量。

知识拓展:数据治理的国际标准和国家标准

在国际上,数据治理较为权威的标准由国际数据管理协会(DAMA)制定,它是一个非营利、厂商中立的全球技术和业务专业人士联合会,其编制的《DAMA 数据管理知识体系指南》已成为国际大数据管理领域的事实标准。在国内,由工信部下属中国电子技术标准化研究院牵头制定,建设银行、国家电网等领先实践产业机构参与验证的国家标准《数据管理能力成熟度评估模型》(GB/T 36073—2018)于2018年正式实施。该项国家标准是数据标准体系的基础组成部分,提出的标准参考模型可用于指导企业和其他机构开展数据治理的工作方向;成熟度模型还能用于较为客观地评价某一地区、企业的数据治理水平,指导大数据建设工作的可持续发展。与DAMA国际数据管理标准相比,国家标准继承了主流的数据管理思想,在框架的理论水平上保持了国际领先的水准;同时在标准制定的过程中充分吸收了我国近20年银行金融电子化和工业数字化的转型实践经验,在我国现阶段的基本国情下具有更为广泛的参考意义。

(三)数据质量管理

数据质量管理是从产生数据的源头开始,在数据采集、存储、共享、维护、应用、消亡等生命周期内,对数据准确性、合规性、一致性、重复性、及时性、完备性等质量指标进行检测,通过数据清洗等一系列加工管理活动,建立数据资源原始库、资源库、主题库,解决数据质量问题,形成数据质量闭环管理,持续提升数据质量。(www.xing528.com)

图10 数据质量管理指标

(四)数据安全管理

由于大数据蕴藏巨大价值,并采用集中化的方式进行存储,容易成为网络攻击的重点对象。如何对储存海量数据的系统进行有效管理,构建“进不来+看不见+拿不走+能追溯”的数据安全管理体系,是整个数据治理活动的重中之重。由于安全方面内容在后面会设有专门的篇章介绍,这里就不再赘述。

(五)数据运维管理

数据运维管理是指通过采集数据接入、处理、组织和服务等各项任务的状态信息,利用可视化或报表等方式客观展示系统整体情况,对异常状态进行预警和处置,实现对各项任务的实时监控和管理,保证大数据业务应用的安全性、快速响应及扩展能力。它与数据业务是逻辑隔离关系,具体工作包括集群容量规划、扩容及性能优化、日常维护、故障处理等。

与传统系统运维相比,大数据运维管理针对的是大数据平台,而不是传统数据库,数据的处理框架更为多样化和复杂化,故障和问题的定位也更难界定。因此,做好大数据运维管理工作,需要充分利用资源调度系统,通过科学合理分析系统的容量数据,构建完善的资源调度制度,实现数据资产在应用间的动态分配和多用户协同使用,这也是大数据时代下数据运维管理的关键。基于此,我省有必要加快研究建设实体化的数据资源调度中心,统一高效调度全省数据,为打通信息孤岛、破解数据共享开放瓶颈提供支撑。

案例13:北京地铁核心机房监测及运维管理项目

北京市地铁运营有限公司是大型国有独资企业,目前管理着各类PC服务器、小型机、存储设备、网络设备等。由于设备数量越来越多,应用愈加多样化,为此,该公司建立了核心机房监测及运维管理系统,该系统由机房环境监控子系统、网络监测子系统、运维子系统、移动APP子系统和网管控制台五部分构成,融合了网络管理、主机系统管理、应用服务管理、业务管理等多种IT因素的统一监控管理平台功能。通过集中化、统一化的监控与管理,使得北京地铁核心机房的监测和运维变得更加简单、高效、透明,不仅运维效率大大提升,而且保障了地铁运行的稳定性、安全性。

知识拓展:数据架构

数据架构是数据的基础设施,对未来大数据发展具有重要的理论意义和实践价值。所谓架构,又称体系结构,是包括一组部件以及部件之间的联系,或是一组系统以及系统之间的联系。主要用于建筑、计算机、信息系统等领域的结构描述和构成。信息系统和数据系统的架构包括硬件架构、软件架构和数据架构三个方面。

数据架构处于硬件架构和软件架构之间,从数据管理和提供服务两方面为业务需求提供支持。过去的信息系统应用通过数据库或数据仓库就足以管理数据和提供服务,服务范围小、功能单一。为了应对更加复杂、综合、跨域、协同、开放、生态的应用需求,需要解决数据共享和数据安全等根本问题,例如,数据确权、数据共享、数据安全、数据应用、数据利益等。数据架构就是要用软件来定义数据,位于云计算硬件架构之上,为面向数据的软件架构提供数据管理和应用服务支持。

图11 信息系统架构的构成

数据架构的研究和应用迫在眉睫。数据架构依托云计算和云存储,对数据资源进行汇聚、管理,为的是支撑软件的开发,应对各类复杂应用对数据的需求。

我们需要考虑数据平台的数据共享和数据安全问题,通过遵循数据规律,使用数据架构来解决上述问题。

数据架构通过数据加密来确定数据权属和保护数据,通过数据注册建立数据大平台,通过共享协同机制实现碎片化应用程序的增长。由此,在数据保护和数据所有者利益保护的前提下,可以实现肥沃的数据土壤上生长着茂盛的应用森林,从而建立起数据安全应用的生态系统

图12 数据架构基本原理

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈