首页 理论教育 数据集成在大数据方案中的重要性和挑战

数据集成在大数据方案中的重要性和挑战

时间:2023-06-28 理论教育 版权反馈
【摘要】:在大数据领域中,数据集成技术也是实现大数据方案的关键组件。大数据集成架构如图2-4所示,图中的箭头表示了各种各样数据结构之间进行数据传输和整合的数据集成方案。图2-4大数据集成架构数据转换是数据集成中最复杂和最困难的问题,所要解决的是如何将数据转换为统一的格式。图2-9将数据处理移动到数据端目前,数据集成已被推至信息化战略规划的首要位置。

数据集成在大数据方案中的重要性和挑战

在大数据领域中,数据集成技术也是实现大数据方案的关键组件。大数据集成是将大量不同类型的数据原封不动地保存在原地,而将处理过程适当地分配给这些数据。这是一个并行处理的过程,当在这些分布式数据上执行请求后,需要整合并返回结果。大数据集成是基于数据集成技术演化而来的,但其方案和传统的数据集成有着巨大的差别。大数据集成架构如图2-4所示,图中的箭头表示了各种各样数据结构之间进行数据传输和整合的数据集成方案。

大数据集成狭义上讲是指如何合并规整数据,广义上讲数据的存储、移动、处理等与数据管理有关的活动都称为数据集成。大数据集成一般需要将处理过程分布到源数据上进行并行处理,并仅对结果进行集成。因为,如果预先对数据进行合并会消耗大量的处理时间和存储空间。集成结构化、半结构化和非结构化的数据时需要在数据之间建立共同的信息联系,这些信息可以表示为数据库中的主数据或者键值,非结构化数据中的元数据标签或者其他内嵌内容。

数据集成时应解决的问题包括数据转换、数据的迁移、组织内部的数据移动、从非结构化数据中抽取信息和将数据处理移动到数据端。

图2-4 大数据集成架构

(1)数据转换是数据集成中最复杂和最困难的问题,所要解决的是如何将数据转换为统一的格式。需要注意的是要理解整合前的数据和整合后的数据结构。将数据转换为通用格式,如图2-5所示。

图2-5 将数据转换为通用格式

(2)数据的迁移是将一个系统迁移到另一个新的系统。在组织内部,当一个应用被新的所替换时,就需要将旧系统中的数据迁移到新的应用中,如图2-6所示。

图2-6 数据的迁移(www.xing528.com)

(3)组织内部的数据移动是多个应用系统需要在多个来自其他应用系统的数据发生更新时被实时通知,如图2-7所示。

图2-7 组织内部的数据移动

(4)从非结构化数据中提取信息。当前数据集成的主要任务是将结构化的、半结构化或非结构化的数据进行集成。存储在数据库外部的数据,如文档、电子邮件、网站、社会化媒体、音频及视频文件,可以通过客户、产品、雇员或者其他主数据引用进行搜索。主数据引用作为元数据标签附加到非结构化数据上,在此基础上就可以实现与其他数据源和其他类型数据的集成,如图2-8所示。

图2-8 从非结构化数据中提取信息

(5)将数据处理移动到数据端。将数据处理过程分布到数据所处的多个不同的位置,这样可以避免冗余,如图2-9所示。

图2-9 将数据处理移动到数据端

目前,数据集成已被推至信息化战略规划的首要位置。要实现数据集成的应用,不光要考虑集成的数据范围,还要从长远发展角度考虑数据集成的架构、能力和技术等方面内容。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈