首页 理论教育 优化噪声数据处理方法

优化噪声数据处理方法

时间:2023-06-27 理论教育 版权反馈
【摘要】:常见的噪声数据的处理方法:分箱、回归、聚类以及计算机和人工检查结合。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。统一区间:设定区间范围为1 000元人民币,分箱后如下。找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。二维码3-3离群点(异常值)处理

优化噪声数据处理方法

噪声(Noise)是被测变量中的随机误差方差,包括错误的值或偏离期望的孤立点值。我们可以使用基本的数据统计描述技术(如盒图或散点图)和数据可视化方法来识别可能代表噪声的离群点。常见的噪声数据的处理方法:分箱、回归、聚类以及计算机和人工检查结合。

1.分箱

分箱方法是一种简单常用的预处理方法,通过考察数据的“近邻”(周围的值)来光滑有序的数据值。这些有序的值被分布到一些“桶”或“箱”中,得到最终处理结果。 “分箱”,实际上是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。分箱的方法有4种:统一权重法、统一区间法、最小熵法和用户自定义区间法。

(1)统一权重法也称等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。

(2)统一区间法也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。

(3)用户自定义区间。用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。

案例分析2:客户收入属性income排序后的值(人民币元):800、1 000、1 200、1 500、1 500、1 800、2 000、2 300、2 500、2 800、3 000、3 500、4 000、4 500、4 800、5 000,分箱的方式如下。

统一权重:设定权重(箱子深度)为4,分箱后如下。

统一区间:设定区间范围(箱子宽度)为1 000元人民币,分箱后如下。(www.xing528.com)

用户自定义区间:如将客户收入划分为1 000元以下、1 000~2 000元、2 000~3 000元、3 000~4 000元和4 000元以上几组,分箱后的结果如下。

(4)数据平滑方法。数据平滑方法又可以细分为:平均值平滑、按边界值平滑和按中值平滑。按平均值平滑是对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。按边界值平滑是用距离较小的边界值替代箱中所有数据。按中值平滑是取箱子的中值,用来替代箱子中的所有数据。

2.回归

回归可以用一个函数拟合数据来光滑数据,试图发现变量之间的变化模式,即通过建立数学模型来预测下一个数值。回归主要分为线性回归和非线性回归。线性回归涉及找出拟合两个属性(或变量)的“最佳”直线,使得一个属性可以用来预测另一个。多元线性回归是线性回归的扩充,其中涉及的属性多于两个,并且数据拟合到一个多维曲面。

3.聚类

物理的或抽象对象的集合分组为由类似的对象组成的多个类。找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。直观地,落在簇集合之外的值被视为孤立点。

孤立点的检测可以通过聚类来检测,聚类是将类似的值组织成群或“簇”。

二维码3-3 离群点(异常值)处理

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈