6.2.4.1 大数据整合原则
由于数据种类和来源复杂,既包括结构化数据,又包括半结构化和非结构化数据,既有来自水务行业采集的数据,又有相关领域交换的数据以及社会领域获取的数据,因此需要对来自不同数据源、不同时间、不同地点的数据,选择合适的集成方式和数据转换工具进行数据的集成和整合,形成统一规范标准的数据体系,便于数据的共享和服务。在进行数据集成和整合时,需要遵循集成性、完整性、一致性和访问安全性原则。
(1)集成性。各种原先孤立的业务信息系统数据经过整合、集成后,应该达到查询一个综合信息不必再到各个业务系统进行分别查询和人工处理,只要在数据中心中就可以直接访问到,即整合、集成后的数据是各异构业务数据的有机集成和关联存储(整合、发掘出各业务数据间的内在关联关系),而不是简单、孤立地堆放在一个数据库系统中。
(2)完整性。完整性包括数据完整性和约束完整性两方面。数据完整性是指完整提取数据本身,一般来说较容易达到。约束完整性是指数据与数据之间的关联关系,是唯一表示数据间逻辑的特征。保证约束的完整性是良好的数据发布和交换的前提,可以方便数据处理过程,提高效率。
(3)一致性。不同业务信息资源之间存在着语义上的区别,这些语义上的不同会引起各种不完整甚至错误信息的产生。语义冲突会带来数据集成结果的冗余,干扰数据处理、发布和交换。整合和集成后的数据应按照一定的数据转换模式和业务规则进行统一数据结构和字段语义编码转换。
(4)访问安全性。各业务数据系统有着各自的用户权限管理模式,访问和安全管理很不方便,不能集中、统一管理,所以既要保证能访问异构数据源中的数据,又要保障原有数据的权限不被侵犯,实现对原有数据源访问权限的隔离和控制,就需要设计基于整合、集成后的大数据存储的统一的用户安全治理模式来解决此问题。
6.2.4.2 综合数据库
按照数据整合的基本原则,依据数据资源的分类,充分利用现有的网络资源和信息资源,通过收集各水务工程和业务信息,整合已建系统和数据、补充和完善信息资源,建立水务数据资源集中和分布式存储相结合、统一管理的数据库,建设全市水务系统信息共享和业务协同的支撑平台和水务业务一体化管理。综合数据库是水务数据大集中而形成的集成信息服务应用环境,它是各种水务业务应用服务的核心,是数据计算、网络存储的中心。
充分利用已建的网络设备和系统设备,新增(建)数据存储、数据共享与发布、数据备份/恢复等,为水务信息汇集、存储、处理和服务提供环境。
图6.3 监测数据库示意图
通过收集、整合现有各应用系统数据库数据以及相关领域交换的数据和社会领域获取的数据,结合大数据存储技术,利用实时数据库、并行数据库和数据仓库、分布式文件系统、分布式数据库相结合的方式,建设统一管理的综合数据库,主要包括监测数据库、水务基础数据库、水务业务数据库、多媒体数据库、空间数据库,如图6.3~图6.7所示。通过建立水务元数据库和水务信息资源目录,形成统一的水务数据资源;通过整合、补充和完善,建立统一的水务数据资源目录体系和交换体系,形成持续稳定的数据汇集、管理、维护运行机制,为全市水务系统和各级政府部门信息共享和业务协同提供公共核心支撑平台。
图6.4 水务基础数据库示意图
图6.5 水务业务数据库示意图
图6.6 多媒体数据库示意图
图6.7 空间数据库示意图(www.xing528.com)
综合数据库建设中,智慧水务中的海量数据可以利用分布式文件系统来存储,如利用Hadoop的HDFS等存储系统,然而这些系统虽然可以存储大数据,但很难满足水务系统的实时性要求。因此,必须对系统中的大数据根据智慧水务建设所需的性能和分析要求进行分类存储:对性能要求非常高的实时数据采用实时数据库系统存储;对核心业务数据使用传统的并行数据库和数据仓库系统存储;对大量的历史和半结构化、非结构化数据采用分布式文件系统和NoSQL数据库系统存储,如可以用于对空间数据的管理和多媒体数据的管理。
综合数据库的运行,要实现安全策略的统一部署,IT基础设施、业务协同应用和数据统一运维管理。通过采用一致结构的、基于标准服务的服务平台技术,实现各应用系统数据之间的互联、互通和互操作,以及数据的安全、共享与集成;需要交换共享通过发布信息、提供访问接口、调用接口、建立共享与交换目录。
6.2.4.3 数据仓库
智慧水务构建数据仓库,借助数据挖掘技术支撑业务分析、决策制定等具体工作。
在分析监测、基础、业务、多媒体、空间五大数据库的数据关联性及通用专业模型应用开发可行性的基础上,通过数据集成和抽取方式,建设智慧水务数据仓库,开展深度挖掘与分析应用。数据仓库中的数据是在综合库中进行数据抽取、清理的基础上经过系统加工、汇总和整理得到的,目的是供决策分析使用,所涉及的数据操作主要是数据查询,而修改和删除操作很少,通常只需定期加载、刷新。数据仓库架构如图6.8所示。
图6.8 数据仓库架构
6.2.4.4 元数据库
元数据(metadata)是关于数据的数据,它用来描述具体的资源对象,以便能对资源对象进行定位、检索和管理。元数据通过对信息资源对象进行结构化的描述,能够集成整合各类复杂繁多的信息,帮助最终用户理解信息的内容、质量等。通过建立元数据支撑海量信息的组织、检索和发现,实现数据仓库的快捷构建和规范管理,使用户能够通过多种检索方式发现所需信息资源,达到信息资源互通互联、充分共享的目标。
智慧水务元数据分表、字段、记录三级,各级包含的内容如下。
(1)数据表。表中文名称、表英文名称、表包含的字段、包含字段的业务解释、字段类型、字段量纲、信息来源[测站、交换库、下属单位、其他委(办、局)、应用系统、前置机、数据表]、信息去向(单位、前置机、数据表)、表的简要说明。
(2)字段。字段名称、字段中文解释、字段类型、字段长度、字段精度、归属表。
(3)记录。记录编号、记录内容、记录类别、记录中每列数据的来源[测站、交换库、下属单位、其他委(办、局)、应用系统、前置机、数据表、用户]、记录中每列数据的去向(单位、前置机、数据表、用户)、记录保存期限、记录保密等级。
水务元数据库是用来保存水务信息资源元数据的数据库,是实现部门内外数据共享的重要保障,其内部存储的元数据的元素和格式必须符合水务元数据三级规范,需要对单条记录到数据表的分层描述。大连市智慧水务元数据库设计采用关系数据库表与XML文件结合的方式,并结合传统的数据字典对元素定义、类型、域值、别名、规则、频率等进行说明,需要实现的主要功能包括元数据信息抽取、元数据存储、元数据标准检查、元数据输出。
6.2.4.5 大数据存储平台
大数据存储平台包括3种:存储海量非结构化数据的分布式文件系统、存储海量无模式的半结构化数据的NoSQL数据库、存储海量结构化数据的分布式并行数据库系统。
(1)存储海量非结构化数据的分布式文件系统。经比较可选用具有代表性的如GFS和开源的HDFS(hadoop distributed file system)等。HFDS对应用程序的数据提供高吞吐量,适用于那些大数据集应用程序。HDFS是主/从结构,由一个名字节点和多个数据节点组成。HDFS将大规模数据分割为多个64MByte的数据块,存储多个数据节点组成的分布式集群中。随着数据规模的不断增长,HDFS只需要在集群中增加更多的数据节点即可,具有很强的可扩展性;同时每个数据块会在不同的节点中存储3个副本,具有高容错性;数据的分布式存储可以提供高吞吐量的数据访问能力,在海量数据批处理方面有很强的性能表现。
(2)存储海量无模式的半结构化数据的NoSQL数据库。传统关系型数据库在处理数据密集型应用方面显得力不从心,主要表现在灵活性差、扩展性差、性能差等方面。NoSQL数据库作为对关系型数据库系统的补充,能够极大地适应云计算的需求。当前主要有4种类型NoSQL数据库,包括键值(key-value)存储数据库、列存储数据库、文档型数据库、图形数据库。根据智慧水务建设的要求,选择符合业务特点的NoSQL数据库类型。
(3)存储海量结构化数据的分布式并行数据库系统。现在发展的并行数据库都支持标准SQL,主要采用Shara-nothing结构,将关系表在节点间横向划分,并且利用优化器来对执行过程进行调度和管理,其目标是高性能和高可用性。其中,具有代表性的是Greeplum数据库,它是基于PostgreSQL开发的一款海量并行处理结构的、无共享的分布式并行数据库系统。采用Master/Slave架构,Mater只存储元数据,真正的用户数据被散列存储在多台Slave服务器上,并且所有的数据都在其他Slave节点上存有副本,从而提高系统可用性。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。