优化噪声数据处理方法

时间：2023-06-27 理论教育版权反馈

【摘要】：常见的噪声数据的处理方法:分箱、回归、聚类以及计算机和人工检查结合。在采用分箱技术时，需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。统一区间:设定区间范围为1 000元人民币，分箱后如下。找出并清除那些落在簇之外的值(孤立点)，这些孤立点被视为噪声。二维码3－3离群点(异常值)处理

优化噪声数据处理方法

噪声(Noise)是被测变量中的随机误差或方差，包括错误的值或偏离期望的孤立点值。我们可以使用基本的数据统计描述技术(如盒图或散点图)和数据可视化方法来识别可能代表噪声的离群点。常见的噪声数据的处理方法:分箱、回归、聚类以及计算机和人工检查结合。

1.分箱

分箱方法是一种简单常用的预处理方法，通过考察数据的“近邻”(周围的值)来光滑有序的数据值。这些有序的值被分布到一些“桶”或“箱”中，得到最终处理结果。　“分箱”，实际上是按照属性值划分的子区间，如果一个属性值处于某个子区间范围内，就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中，考察每个箱子中的数据，采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时，需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。分箱的方法有4种:统一权重法、统一区间法、最小熵法和用户自定义区间法。

(1)统一权重法也称等深分箱法，将数据集按记录行数分箱，每箱具有相同的记录数，每箱记录数称为箱子的深度。这是最简单的一种分箱方法。

(2)统一区间法也称等宽分箱法，使数据集在整个属性值的区间上平均分布，即每个箱的区间范围是一个常量，称为箱子宽度。

(3)用户自定义区间。用户可以根据需要自定义区间，当用户明确希望观察某些区间范围内的数据分布时，使用这种方法可以方便地帮助用户达到目的。

案例分析2:客户收入属性income排序后的值(人民币元):800、1 000、1 200、1 500、1 500、1 800、2 000、2 300、2 500、2 800、3 000、3 500、4 000、4 500、4 800、5 000，分箱的方式如下。

统一权重:设定权重(箱子深度)为4，分箱后如下。

统一区间:设定区间范围(箱子宽度)为1 000元人民币，分箱后如下。(www.xing528.com)

用户自定义区间:如将客户收入划分为1 000元以下、1 000～2 000元、2 000～3 000元、3 000～4 000元和4 000元以上几组，分箱后的结果如下。

(4)数据平滑方法。数据平滑方法又可以细分为:平均值平滑、按边界值平滑和按中值平滑。按平均值平滑是对同一箱值中的数据求平均值，用平均值替代该箱子中的所有数据。按边界值平滑是用距离较小的边界值替代箱中所有数据。按中值平滑是取箱子的中值，用来替代箱子中的所有数据。

2.回归

回归可以用一个函数拟合数据来光滑数据，试图发现变量之间的变化模式，即通过建立数学模型来预测下一个数值。回归主要分为线性回归和非线性回归。线性回归涉及找出拟合两个属性(或变量)的“最佳”直线，使得一个属性可以用来预测另一个。多元线性回归是线性回归的扩充，其中涉及的属性多于两个，并且数据拟合到一个多维曲面。

3.聚类

将物理的或抽象对象的集合分组为由类似的对象组成的多个类。找出并清除那些落在簇之外的值(孤立点)，这些孤立点被视为噪声。直观地，落在簇集合之外的值被视为孤立点。

孤立点的检测可以通过聚类来检测，聚类是将类似的值组织成群或“簇”。

二维码3－3　离群点(异常值)处理

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

研究成果

注意事项

解决方案

计算方法

发展趋势

中国古代

社会主义

心理健康

控制系统

建筑工程

经济发展

传统文化

民事诉讼

中国传统

程序设计

轨道交通

解决方法

工程施工

研究结果

建设工程

文史资料

持续发展

计算机网

使用方法

优化噪声数据处理方法

相关推荐

优化噪声数据处理方法

有关数据科学技术与应用的文章

相关推荐