首页 理论教育 如何清洗和加工海量数据的方法与技巧

如何清洗和加工海量数据的方法与技巧

时间:2023-05-30 理论教育 版权反馈
【摘要】:对于海量数据,数据来源往往比较复杂,需要在数据分析工作前进行“清洗数据”或者“加工数据”。缺失数据还常常出现于问卷调查中。数据转换是将原始数据变为目标数据的关键环节。拆分数据是一种数据转换形式。格式变换是指规范化数据格式,是另一种数据转换形式。另外,数据离散化、新建变量、转换变量、数据聚集、维规约、属性值规约、数据压缩、数据抽样,这些都是数据转换的具体形式。

如何清洗和加工海量数据的方法与技巧

数据的本源是电子商务过程,是真实业务的映射,大量数据采集与汇总过程中难免出现数据的缺失、冗余、不一致等问题。对于海量数据,数据来源往往比较复杂,需要在数据分析工作前进行“清洗数据”或者“加工数据”。

清洗数据主要指将多余重复的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或者删除。例如:在一张数据表中出现了“学生姓名”“学生姓”“学生名”3个属性,而“学生姓名”实质是“学生姓”和“学生名”两个属性的叠加,因此从单纯的数据的角度来看,可以把“学生姓名”这一重复数据属性去掉。

在收集、传递数据过程中因为考虑不仔细,没有充分估计到今后可能使用的数据,致使存在数据缺失的情况。缺失数据还常常出现于问卷调查中。被调查者经常无意识地遗漏一些题目,或者对于一些不容易回答的题目采用回避的策略。还有可能数据量太大,录入人员只录入了当时认为相对重要的数据而没有保证所有数据的完整录入,或者在录入过程中遗漏了某些数值。

错误数据是指那些不正确的数据。例如:在调查大学生网购消费行为情况时,可能出于对品牌的偏见或者碍于面子,被调查者无法对自己网购消费行为给予客观、真实的描述,产生与正常情况明显的偏差,或者不经思索随机选择,致使错误发生。(www.xing528.com)

数据加工主要指提取分布在不同业务系统中,或者不同数据表中的数据,根据数据分析项目的需要进行数据清洗,再进行信息提取、计算、分组、转换等处理。提取工作是在对数据仓库的主题和数据本身内容理解的基础上,选择主题所涉及的相关数据,提取保留原数据表中某些字段的部分信息,组合成一个新字段。有时候数据表中的字段不能从数据源表字段中直接提取,但可以通过计算实现。例如:数据源中有网络广告展示次数(Impression)与点击率(Click)的相关数据,就可以通过简单的计算得到点击率(CTR)的值。

对信息进行分组是数据加工的常见形式。数据分析不仅要对数据总体的数量特征和数量关系进行分析,还要深入数量总体的内部进行分组分析。分组就是根据原始数据的特征,按照一定的指标,把数据分析对象划分为不同的部分和类型,使数据更利于揭示其内在的联系和规律性。

数据转换是将原始数据变为目标数据的关键环节。拆分数据是一种数据转换形式。它是依据业务需求对数据项进行分解。例如把地址信息拆分为城市、街道、邮编。格式变换是指规范化数据格式,是另一种数据转换形式。例如定义时间、数值、字符等数据加载格式。另外,数据离散化、新建变量、转换变量、数据聚集、维规约、属性值规约、数据压缩、数据抽样,这些都是数据转换的具体形式。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈