首页 理论教育 实现大数据架构的优化方案

实现大数据架构的优化方案

时间:2023-06-23 理论教育 版权反馈
【摘要】:由大数据架构的分析和应用可知,技术和应用的落地是相辅相成的。图11-12展示了一种典型基于Hadoop的大数据架构实现。大数据的技术架构与具体实现的技术平台和框架息息相关,不同的技术平台决定了不同的技术架构和实现。3)大数据应用架构大数据应用是其价值的最终体现,当前大数据应用主要集中在业务创新、决策预测和服务能力提升等方面。

实现大数据架构的优化方案

1)不同视角下的架构分析

当前,无论是电信电力、石化、金融、社保、房地产、医疗、政务、交通、物流、征信体系等传统行业,还是互联网等新兴行业,都积累了大量数据,如何在相关技术的支撑下,结合数据交易和共享、数据应用接口、数据应用工具等需求,建立并实现大数据架构,是当前研究的重要方向。

大数据架构的研究和实现主要是在领域分析和建模的基础上,从技术和应用两个角度来考虑,具体来说,分为技术架构和应用架构两个视角。

技术架构是指系统的技术实现、系统部署和技术环境等。在企业系统和软件的设计开发过程中,一般根据企业的未来业务发展需求、技术水平、研发人员、资金投入等方面来选择适合的技术,确定系统的开发语言、开发平台及数据库等,从而构建适合企业发展要求的技术架构。

应用架构是从应用的视角看,大数据架构主要关注大数据交易和共享应用、基于开放平台的数据应用(API)和基于大数据的工具应用(APP)。

由大数据架构的分析和应用可知,技术和应用的落地是相辅相成的。在具体架构的落地过程中,可结合具体应用需求和服务模式,构建功能模块和业务流程,并结合具体的开发框架、开发平台和开发语言,从而实现架构的落地。图11-12展示了一种典型基于Hadoop的大数据架构实现。

图11-12 基于Hadoop大数据架构的实现示例

2)大数据技术架构

大数据技术作为信息化时代的一项新兴技术,技术体系处在快速发展阶段,涉及数据的处理、管理、应用等多个方面。具体来说,技术架构是从技术视角研究和分析大数据的获取、管理、分布式处理和应用等。大数据的技术架构与具体实现的技术平台和框架息息相关,不同的技术平台决定了不同的技术架构和实现。一般的大数据技术架构参考模型如图11-13所示。

图11-13 大数据技术架构

由图11-13可知,大数据技术架构主要包含大数据获取技术层、分布式数据处理技术层和大数据管理技术层,以及大数据应用和服务技术层。

(1)大数据获取技术。

目前,大数据获取的研究主要集中在数据采集、整合和清洗三个方面。数据采集技术实现数据源的获取,然后通过整合和清理技术保证数据质量。数据采集技术主要是通过分布式爬取、分布式高速高可靠性数据采集、高速全网数据映像技术,从网站上获取数据信息。

数据整合技术是在数据采集和实体识别的基础上,实现数据到信息的高质量整合。需要建立多源多模态信息集成模型、异构数据智能转换模型、异构数据集成的智能模式抽取和模式匹配算法、自动的容错映射和转换模型及算法、整合信息的正确性验证方法、整合信息的可用性评估方法等。

数据清洗技术一般根据正确性条件和数据约束规则,清除不合理和错误的数据,对重要的信息进行修复,保证数据的完整性。需要建立数据正确性语义模型、关联模型和数据约束规则、数据错误模型和错误识别学习框架、针对不同错误类型的自动检测和修复算法、错误检测与修复结果的评估模型和评估方法等。

(2)分布式数据处理技术。

分布式计算是随着分布式系统的发展而兴起的,其核心是将任务分解成许多小的部分,分配给多台计算机进行处理,通过并行工作的机制,达到节约整体计算时间,提高计算效率的目的。目前,主流的分布式计算系统有Hadoop、Spark和Storm。Hadoop常用于离线的复杂的大数据处理,Spark常用于离线的快速的大数据处理,而Storm常用于在线的实时的大数据处理。

大数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。目前,大数据的挖掘技术也是一个新型的研究课题,国内外研究者从网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术展开,重点突破基于对象的数据连接、相似性连接、可视化分析、预测性分析、语义引擎等大数据融合技术,以及用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。(www.xing528.com)

(3)大数据管理技术。

大数据管理技术主要集中在大数据存储、大数据协同和安全隐私等方面。

大数据存储技术主要有三个方面。第一,采用MPP架构的新型数据库集群,通过列存储、粗粒度索引等多项大数据处理技术和高效的分布式计算模式,实现大数据存储。其次,围绕Hadoop衍生出相关的大数据技术,应对传统关系型数据库较难处理的数据和场景,通过扩展和封装Hadoop来实现对大数据存储、分析的支撑。第三,基于集成的服务器、存储设备、操作系统、数据库管理系统,实现具有良好的稳定性、扩展性的大数据一体机

数据中心的协同管理技术是大数据研究的另一个重要方向。通过分布式工作流引擎实现工作流调度、负载均衡,,整合多个数据中心的存储和计算资源,从而为构建大数据服务平台提供支撑。

大数据隐私性技术的研究,主要集中于新型数据发布技术,尝试在尽可能少损失数据信息的同时最大化地隐藏用户隐私。但是,数据信息量和隐私之间是有矛盾的,因此尚未出现非常好的解决办法。

(4)大数据应用和服务技术。

大数据应用和服务技术主要包含分析应用技术和可视化技术。

大数据分析应用主要是面向业务的分析应用。在分布式海量数据分析和挖掘的基础上,大数据分析应用技术以业务需求为驱动,面向不同类型的业务需求开展专题数据分析,为用户提供高可用、高易用的数据分析服务。

可视化通过交互式视觉表现的方式来帮助人们探索和理解复杂的数据。大数据的可视化技术主要集中在文本可视化技术、网络(图)可视化技术、时空数据可视化技术、多维数据可视化和交互可视化等。在技术方面,主要关注原位交互分析(in situ interactive analysis)、数据表示、不确定性量化和面向领域的可视化工具库。

3)大数据应用架构

大数据应用是其价值的最终体现,当前大数据应用主要集中在业务创新、决策预测和服务能力提升等方面。从大数据应用的具体过程来看,基于数据的业务系统方案优化、实施执行、运营维护和创新应用是当前的热点和重点。

大数据应用架构描述了主流的大数据应用系统和模式所具备的功能,以及这些功能之间的关系,主要体现在围绕数据共享和交易、基于开放平台的数据应用和基于大数据工具应用,以及为支撑相关应用所必需的数据仓库、数据分析和挖掘、大数据可视化技术等方面。应用视角下的大数据参考架构如图11-14所示。

大数据应用架构以大数据资源存储基础设施、数据仓库、大数据分析与挖掘等为基础,结合大数据可视化技术,实现大数据交易和共享、基于开放平台的大数据应用和基于大数据的工具应用。

图11-14 大数据应用架构参考模型

大数据交易和共享,让数据资源能够流通和变现,实现大数据的基础价值。大数据共享和交易应用是在大数据采集、存储管理的基础上,通过直接的大数据共享和交易、基于数据仓库的大数据共享和交易、基于数据分析挖掘的大数据共享和交易三种方式和流程实现。

基于开放平台的大数据应用以大数据服务接口为载体,使数据服务的获取更加便捷,主要为应用开发者提供特定数据应用服务,包括应用接入、数据发布、数据定制等。数据开发者在数据源采集的基础上,基于数据仓库和数据分析挖掘,获得各个层次应用的数据结果。

大数据工具应用是主要集中在智慧决策、精准营销、业务创新等产品工具方面,是大数据价值体现的重要方面。结合具体的应用需要,用户可以结合相关产品和工具的研发,对外提供相应的服务。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈