大数据预处理技术主要是指完成对已接收数据的辨析、抽取、清洗、填补、平滑、合并、规格化及检查一致性等操作。
因获取的数据可能具有多种结构和类型,数据抽取的主要目的是将这些复杂的数据转化为单一的或者便于处理的结构,以达到快速分析处理的目的。
通常数据预处理包含三个部分:数据清理、数据集成和变换及数据规约。
(一)数据清理
数据清理主要包含遗漏值处理(缺少感兴趣的属性)、噪声数据处理(数据中存在错误或偏离期望值的数据)和不一致数据处理。
遗漏数据可用全局常量、属性均值、可能值填充或者直接忽略该数据等方法处理。
噪声数据可用分箱(对原始数据进行分组,然后对每一组内的数据进行平滑处理)、聚类、计算机人工检查和回归等方法去除噪声。
对于不一致数据则可进行手动更正。
(二)数据集成和变换
数据集成是指把多个数据源中的数据整合并存储到一个一致的数据库中。(www.xing528.com)
这一过程中需要着重解决三个问题:模式匹配、数据冗余、数据值冲突检测与处理。
由于来自多个数据集合的数据在命名上存在差异,因此等价的实体常具有不同的名称。对来自多个实体的不同数据进行匹配是处理数据集成的首要问题。
数据冗余可能来源于数据属性命名的不一致,可以利用皮尔逊积矩来衡量数值属性,对于离散数据可以利用卡方检验来检测两个属性之间的关联。
数据值冲突问题主要表现为,来源不同的统一实体具有不同的数据值。
数据变换主要过程有平滑、聚集、数据泛化、规范化及属性构造等。
(三)数据规约
数据规约主要包括数据方聚集、维规约、数据压缩、数值规约和概念分层等。
使用数据规约技术可以实现数据集的规约表示,使得数据集变小的同时仍然近于保持原数据的完整性。
在规约后的数据集上进行挖掘,依然能够得到与使用原数据集时近乎相同的分析结果。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。