首页 理论教育 大数据整合:提高数据价值的关键

大数据整合:提高数据价值的关键

时间:2023-06-23 理论教育 版权反馈
【摘要】:大数据整合包括批量数据的整合和实时数据的整合。在大数据时代,这三种数据整合方式仍然适用。2)实时数据的整合大数据的一个重要特点是速度。

大数据整合:提高数据价值的关键

大数据整合包括批量数据的整合和实时数据的整合。

1)批量数据的整合

传统的数据整合一般采用ETL方式,即抽取(elect)、转换(transfer)、加载(load)。随着数据量的加大,以及数据平台自身数据处理技术的发展,目前较为通用的方式为ELT方式,即抽取、加载、转换。

(1)数据抽取:在进行数据抽取和加载之前,需要定义数据源系统与数据平台之间的接口,形成数据平台的接入模型文档。从源系统中抽取数据一般分为两种模式:抽取模式和供数模式。从技术实现角度来讲,抽取模式是较优的,即由数据平台通过一定的工具来抽取源系统的数据。但是从项目角度来讲,建议采用源系统供数模式,因为抽取数据对源系统的影响,如果都由数据平台项目来负责,有可能会对数据平台项目带来重大的风险,最终导致数据平台项目失败。

(2)数据加载:随着大数据并行技术出现,数据库的计算能力大大加强,一般都采用先加载后转换的方式。在数据加载过程中,应该对源数据和目标数据进行数据比对,以确保抽取加载过程中的数据一致性,同时设置一些基本的数据校验规则,对于不符合数据校验规则的数据,应该退回源系统,由源系统修正后重新供出。通过这样的方式,能够有效地保证加载后的数据质量。在完成数据加载后,系统能够自动生成数据加载报告,报告本次加载的情况,并说明加载过程中的源系统的数据质量问题。在数据加载的过程中,还需要注意数据版本管理。

(3)数据转换:分为简单映射、数据转换、计算补齐、规范化四种类型。简单映射就是在源和目标系统之间一致地定义和格式化每个字段,只需在源和目标之间进行映射,就能把源系统的特定字段复制到目标表的特定字段。数据转换,即将源系统的值转换为目标系统中的值,最典型的案例就是代码值转换。计算补齐,在源数据丢失或者缺失的情况下,通过其他数据的计算,经过某种业务规则或者数据质量规则的公式,推算出缺失的值,进行数据的补齐工作。规范化,当数据平台从多个数据系统中采集数据的时候,会涉及多个系统的数据,不同系统对于数据会有不同的定义,需要将这些数据的定义整合到统一的定义之下,遵照统一的规范。

(4)数据整合:在数据整合到数据平台之后,需要根据应用目标进行数据的整合,将数据关联起来并提供统一的服务。传统的数据仓库的数据整合方式主要有建立基于不同数据域的实体表和维表;建立统一计算层;生成面向客户、面向产品、面向员工的宽表,用于数据挖掘。在大数据时代,这三种数据整合方式仍然适用。通过不同的方式将数据关联起来,通过数据的整合为数据统计、分析和挖掘提供服务。(www.xing528.com)

2)实时数据的整合

大数据的一个重要特点是速度。在大数据时代,数据应用者对于数据的时效性也提出了新的要求,如企业的管理者希望能够实时地通过数据看到企业的经营状况;销售人员希望能够实时地了解客户的动态,从而发现商机快速跟进;电子商务网站也需要能够快速地识别客户在网上的行为,实时地做出产品的推荐。实时数据的整合要比批处理数据的整合复杂一些,抽取、加载、转换等常用步骤依然存在,只是它们以一种实时的方式进行数据处理。

(1)实时数据的抽取:在实时数据抽取过程中,必须实现业务处理和数据抽取的松耦合。业务系统的主要职责是进行业务的处理,数据采集的过程不能影响业务处理的过程。实时数据抽取一般不采用业务过程中同步将数据发送到数据平台的方式,因为一旦采用同步发送失败或超时,就会影响到业务系统本身的性能。建议采用下述两种方式:定时的小批量的面向数据采集;实时业务的异步数据发送。

(2)实时数据的加载:在实时数据加载过程中,需要对数据完整性和质量进行检查。对于不符合条件的数据,需要记录在差异表中,最终将差异数据反馈给源系统,进行数据核对。实时数据加载一般采用的流式计算技术,快速地将小数据量、高频次的数据加载到数据平台上。

(3)实时数据的转换:实时数据转换与实时加载程序一般为并行的程序,对于实时加载完的数据,通过轮询或者触发的方式,进行数据转换处理。

(4)实时数据的整合:主要是根据实时的数据,进行数据的累计和指标的计算。对于多维分析和数据挖掘应用所需的数据,建议仍然由批量计算进行处理。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈