首页 理论教育 能源大数据存储技术的分析介绍

能源大数据存储技术的分析介绍

时间:2023-06-23 理论教育 版权反馈
【摘要】:虽然目前能源数据质量本身不高,准确性、及时性均有所欠缺,但是也对数据管理技术提出了更高的要求。在能源大数据的环境下,目前最实用的是分布式数据库与分布式文件系统。

能源大数据存储技术的分析介绍

当前能源数据的管理技术主要包括:关系型和非关系型数据库技术,数据融合和集成技术,提取、转换和装载(extract transfer load,ETL)技术,能源数据统一公共模型等技术。虽然目前能源数据质量本身不高,准确性、及时性均有所欠缺,但是也对数据管理技术提出了更高的要求。

8.3.3.1 传统存储技术在能源行业中发展现状

在能源行业发展的早期,由于能源系统较小,对系统要求不高,数据信息量较少,且计算机网络技术还很不发达,采用单机或前置机-后台机方式对数据信息进行更改一般会引起程序的更改,极其不便。后来,随着自动化管理系统日趋庞大和复杂、功能不断完善,加之计算机网络技术快速发展,调度自动化、能量管理系统及信息管理系统等在能源行业中得到愈来愈广泛的应用。但是由于能源系统的复杂性,能源管理系统和自动化系统等均需对大量数据和信息进行综合处理,同时对数据信息的可靠性、一致性和共享性提出了更高的要求,因而促使能源行业必须以数据库管理系统作为支持。数据库系统功能的强弱直接影响到整个能源系统功能的实现,成为建设能源系统管理和自动化系统的关键

在能源行业的不断建设与发展中,能源设备状态信息数据量开始剧增,海量的数据存储和大规模数据分析使得传统数据库越来越难以适应能源企业信息化建设的需求。分析了传统能源调度数据库系统在决策分析应用等方面的不足,提出了在现有数据库系统的基础上建立数据仓库的思想。数据仓库以改进后的数据库技术作为存储数据和管理资源的基本手段,以统计分析技术作为分析数据和提取信息的有效方法,通过人工智能神经网络、知识推理等数据挖掘方法来发现数据背后隐藏的规律,实现从数据到信息再到知识的过程,从而为能源行业提供各种层次的支持。

随着信息化建设的进一步发展,能源行业对存储技术提出了更高的要求,在软件层需要解决新产生的结构化、半结构化、非结构化数据,并兼顾对遗留数据的管理,进而保证数据的可用性和正确性。在硬件层需要合理的利用底层的物理设备特性,满足上层应用对存储性能和可靠性的要求。传统的数据存储技术已无法满足现在能源数据特点,不适应时代发展需求。在能源大数据的环境下,目前最实用的是分布式数据库分布式文件系统

8.3.3.2 分布式数据库

8.3.3.2.1 分布式数据库简介

1)分布式数据库特性

分布式数据库是指利用高速计算机网络将物理上分散的多个数据存储单元连接起来组成一个逻辑上统一的数据库。分布式数据库是由20世纪70年代产生,经过80年代的成长阶段,到了90年代已实现商品化,在21世纪得到大规模应用。其基本思想是将原来集中式数据库中的数据分散存储到多个通过网络连接的数据存储节点上,以获取更大的存储容量和更高的并发访问量。相对于中心数据库,分布式数据库具有以下特点:

(1)降低了传送代价:因为大多数的对数据库的访问操作都是针对局部数据库的,而不是对其他位置的数据库访问。

(2)数据独立性:除了数据的逻辑独立性和物理独立性之外,还有数据分布的透明性。即用户不用关心数据的逻辑分布、物理分布,在用户的应用程序中,如同操作一个集中式数据库一样。

(3)集中和结点自治相结合:每个局部结点都有一个完全的数据库系统,各个局部结点的DBMS(数据库管理系统)可独立的管理局部数据库,同时又服从集中控制机制,支持全局的应用。

(4)支持全局数据库的一致性和可恢复性:由于全局应用涉及多个局部结点上的数据,有全局事务的提交和回滚。

(5)位置透明性:用户和应用程序无需知道所使用的数据存储位置。简化了应用程序的复杂性,即使存储数据的位置发生改变,应用程序也无需改变。

(6)复制透明性:在分布式系统中,为了提高系统的性能和可用性,可把一个场地的数据复制到其他场地存放。应用程序执行时,如果使用复制到本地的数据,可以在本地数据库基础上运行,避免通过网络传输数据,提高了系统的运行和查询效率。但是,对于有复制数据的更新操作,涉及对所有复制数据库的更新。所谓复制透明性,是指用户不用关系数据库在网络中各个结点的复制情况,被复制数据的更新都由系统自动完成。

(7)易于扩展性:在大多数网络环境中,单个数据库服务器最终无法满足需求。如果服务器软件能支持透明的水平扩展,可以通过增加多个服务器或处理器(多处理器计算机)来进一步分布数据和分担处理任务。

2)分布式数据库系统结构

1986年C.J.DATE提出了全功能分布式数据库系统的12条准则和目标如下:

(1)局部结点自治性:网络中的每个结点是独立的DBMS,有高度的自治性。

(2)不依赖中心结点:每个结点有全局字典管理、查询处理、并发和恢复功能。

(3)可连续操作性:增加或撤消结点、动态地建立和消除片段,不中止服务。

(4)具有位置独立性:位置独立性(或称位置透明性),是指用户不必知道数据的物理存储地,可工作得像数据全部存储于局部场地一样。允许数据在不同的场地之间迁移,而不影响应用程序的执行和用户的操作。一般来说,位置独立性需要有分布式数据命名模式和数据字典子系统的支持。

(5)分片独立性:大部分操作是局部的。分片独立性(或称分片透明性),分布式系统如果将给定的关系分成若干块或片段,每个片段存储在不同的结点上,可提高系统的处理性能。因为,利用分片将数据存储在最频繁使用它的位置上,使大部分操作是局部操作,减少网络的信息流量。如果系统支持分片独立性,用户工作起来就像数据全然不是分片的一样。

(6)数据复制独立性:指对给定的关系或片段在不同场地有多个存储副本。数据复制独立性,是指将给定的关系(或片段)可在物理级用许多不同存储副本或复制品存储在许多不同场地上。支持数据复制的系统应当支持复制独立性,即数据复制透明性,使用户工作就像它全然没有存储副本一样地工作。这样,当增加或减少副本时,不影响终端用户和应用程序的操作。

(7)支持分布式查询处理:有三类查询:局部查询、远程查询和全局查询。在分布式数据库系统中有三类查询:局部查询、远程查询和全局查询。局部查询和远程查询仅涉及单个结点的数据(本地的或远程的),这种查询优化技术采用的是集中工作数据库的查询优化技术。但是,全局查询涉及多个结点上的数据,其查询处理和优化技术要复杂得多。

(8)支持分布式事务管理,包括恢复控制和并发控制。支持分布事务管理包括两个主要方面:恢复控制和并发控制,两者在分布式系统中都不同于集中式数据库系统。在分布式系统中,单个事务会涉及多个场地上的代码执行,会涉及多个场地上的更新。可以说每个事务是由多个“代理”组成,每个代理代表在给定场地上对给定事务上的执行进程,属于同一个事务的两个代理之间不能发生死锁。在分布式系统中必须保证事务的所有代理,或者全部一致提交,或者全部一致撤消。

(9)具有硬件独立性:是希望在不同硬件系统上运行同样的DBMS软件。使不同的计算机成为对等的合作者参与支持分布式的工作。

(10)具有操作系统独立性:是希望在不同的操作系统上运行同样的DBMS软件。

(11)具有网络独立性:如果系统能够支持多个不同的场地,每个场地有不同的硬件和不同的操作系统,则要求该系统能支持各种不同的通信网络。(www.xing528.com)

(12)具有DBMS独立性:可异构型分布。具有DBMS独立性,实现对异构型分布式系统的支持。理想的分布式系统应该提供DBMS的独立性。

根据我国制定的《分布式数据库系统标准》,分布式数据库系统抽象为4层的结构模式,这种结构模式得到了国内外的支持和认同。4层模式划分为全局外层、全局概念层、局部概念层和局部内层,在各层间还有相应的层间映射。这种4层模式适用于同构型分布式数据库系统,也适用于异构型分布式数据库系统,如图8-11所示。

图8-11 分布式数据库架构

全局外层:定义全局用户视图,是分布式数据库的全局用户对分布式数据库的最高层抽象。全局用户使用视图时,不必关心数据的分片和具体的物理分配细节。

全局概念层:定义全局概念视图,是分布式数据库的整体抽象,包含了全部数据特征和逻辑结构。像集中式数据库中的概念模式一样,是对数据库全体的描述。全局概念模式在经过分片模式和分配模式映射到局部模式。分片模式是描述全局数据的逻辑划分视图,即全局数据逻辑结构根据某种条件的划分,将全局数据逻辑结构划分为局部数据逻辑结构,每一个逻辑划分成一个分片,在关系数据库中,一个关系中的一个子关系称该关系的一个分片。分配模式是描述局部数据逻辑的局部物理结构,即划分后的分片的物理分配视图。

局部概念层:定义局部概念视图,是全局概念模式的子集。全局概念模式经逻辑划分后,被分配到各局部场地上,局部概念模式用于描述局部场地上的局部数据逻辑结构。当全局数据模型与局部数据模型不同时,还涉及数据模型转换等内容。

局部内层:定义局部物理视图,是对物理数据库的描述,类似集中数据库的内层。

分布式数据库的四层结构及模式定义描述了分布式数据库是一组用网络连接的局部数据库的逻辑集合。它将数据库分为全局数据库和局部数据库。全局数据库到局部数据库由映射(1∶N)模式描述。全局数据库是虚拟的,有全局概念层描述。局部数据库是全局数据库的内层,由局部概念层和局部内层描述。全局用户只关心全局外层定义的数据库用户视图,其内部数据模型的转换、场地分配节等由系统自动实现。

基于分布式数据库的架构,分布式数据库的优点为:具有灵活的体系结构;适应分布式的管理和控制机构;经济性能优越;系统的可靠性高、可用性好;局部应用的响应速度快;可扩展性好,易于集成现有系统。其缺点为:系统开销大,主要花在通信部分;复杂的存取结构,原来在集中式系统中有效存取数据的技术,在分成式系统中都不再适用;数据的安全生和保密性较难处理。

8.3.3.2.2 分布式数据库在能源系统中的应用

电网调度自动化系统兴起于20世纪60年代,是以计算机为基础的新型电网控制技术,已成为保证电力系统安全、稳定、经济运行的支柱和实现其管理现代化的基础,在维持电网正常运行、加强用电管理、提供事故处理和决策依据等方面,经过近40年的发展,电网调度自动化系统由最初的集中式电力系统监视控制和数据采集系统(Supervisory Control And Data Acquisition System,SCADA)演变为分布式SCADA/EMS/DMS(监视控制和数据采集系统/能量管理系统/数据库管理系统)。SCADA系统是电力系统自动化的实时数据源,为EMS提供大量的实时数据。同时在调度员DTS(模拟培训系统)、管理信息系统(Manage Information System,MIS)等系统中都需要用到电网实时数据,如果没有电网实时数据信息,所有其他系统都将无法运行。所以SCADA系统如何与其他非实时系统(DTS、企业MIS系统、地理信息系统、水调度自动化系统、调度生产自动化系统以及办公自动化系统等)进行集成至关重要。

作为一个面向电力系统调度一体化的实时数据库,它除了应符合作为数据库的一般要求外,还需要满足电力系统的应用要求。因此,实时数据库应具备以下重要特点:

(1)数据访问快速,能满足系统的实时性要求;

(2)具备完备的数据处理和管理功能,有效的恢复和重载机制;

(3)满足电力系统网络分析的要求,确保数据的实时性和一致性;

(4)高效的数据分布性能,支持数据的分布存储和访问;

(5)多任务的并发处理机制;

(6)支持多个工程的数据库并存机制,数据库间的数据方便切换,以提高工程管理效率;

(7)支持数据库的镜像功能机制,满足不同应用间的数据快速切换;

(8)提供数据库访问的规范接口,具有良好的数据安全性;

(9)开放性好,提供与其他系统数据交换机制。

综上所述,电力系统的数据库应用技术有其特殊的行业特点,电力系统中SCADA实时要求以及传统的MIS的数据可用性问题,都要求其底层数据库技术的改进。分布式数据库可完成将数据转换为信息、并及时提供给电力系统管理阶层用户以实现决策支持的任务。

8.3.3.2.3 分布式文件系统在能源行业中的应用

现代电力行业的发展已经迎来了历史上前所未有的考验与机遇。输配电、发电、信息化、数字化技术的进步与计算机在电力系统中的合理使用加快了电力行业的信息化建设,但同时也加剧了电力业务中数据资源的爆炸性增长。目前,电力业务中的数据已经完全达到了海量数据的范畴,传统的集中式存储系统与存储设计已经难以解决数据增长所带来的存储压力问题,更是难以满足业务处理响应时间的需求。分布式文件系统对海量数据的存储提供了新的方案。

电力业务中的分布式文件系统所处的网络环境更为稳健,系统来自外部攻击的可能性更小,不需要在系统节点上提供太多不必要的安全保障措施,从而极大缓解了系统压力。然而,由于电力公司分布范围广泛,而且各个节点性能差距也比较大,数据存储在不同的节点上面,对系统提供的服务质量也会产生比较大的差异。另外,机器的宕机或者离线,都会造成数据丢失或者服务能力下降,因此分布式存储系统的首要目标就是要保证数据的可靠性。在满足可靠性与基本功能的基础上,电力业务中的分布式文件系统还应该满足以下两个基本内容:

(1)系统数据转发。由于国家电力公司内各部门或者不同区域单位存在因为工作进展对比而进行的数据互传,所以需要分布式存储系统能保证完成数据转发,从而满足用户需求。

(2)系统定位存储。由于电力业务被划分为省/地/县三级机构,而且各级机构大都仅关心本单位所辖区域的数据信息,所以在电力业务的海量数据存储系统中,其不同区域内计量点在进行数据存储时,应该具备本地化或者近地化存储。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈