首页 理论教育 基于统计学的异常分析方法探究

基于统计学的异常分析方法探究

时间:2023-06-24 理论教育 版权反馈
【摘要】:为解决上述问题,研究者提出了基于深度的异常分析方法,根据算法,每一个数据被映射到一个k维数据空间上的点,并且每个点被赋予一个特定定义的“深度”。根据不同的深度,数据被划分成不同层次,异常往往存在于较“浅”的层次中,而存在于较“深”层次中的可能性较小。

基于统计学的异常分析方法探究

自20世纪80年代以来,异常分析问题就在统计学领域里得到了研究。通常,用户用某个统计分布(如正态分布、泊松分布等),对数据点进行建模,然后用不一致检验(discordancy test)来确定异常。因此使用基于统计的异常分析方法要求预先得到关于数据集合参数的知识,如分布模型(如假设的数据分布)、分布参数(如平均值和方差)、预期的异常数目和异常数据类型等,但在许多情况下,数据分布可能是未知的,而且现实数据也往往不符合任何一种理想状态的数学分布,特别地,即使在低维(一维或二维)时的数据分布已知,在高维情况下,估计数据点的分布却是极其困难的。

为解决上述问题,研究者提出了基于深度(depth-based outlier detection)的异常分析方法,根据算法,每一个数据被映射到一个k维数据空间上的点,并且每个点被赋予一个特定定义的“深度”。根据不同的深度,数据被划分成不同层次,异常往往存在于较“浅”的层次中,而存在于较“深”层次中的可能性较小。理论上,基于深度的方法可以适用于具有较大值的k,但由于该算法要求计算k维数据空间的凸闭包,复杂度,实际上,仅仅当k=2或3时,算法性能可以忍受,而当k≥4时,基于深度的算法并不是很有效。(www.xing528.com)

为解决上述问题,研究者提出了基于深度(depth-based outlier detection)的异常分析方法,根据算法,每一个数据被映射到一个k维数据空间上的点,并且每个点被赋予一个特定定义的“深度”。根据不同的深度,数据被划分成不同层次,异常往往存在于较“浅”的层次中,而存在于较“深”层次中的可能性较小。理论上,基于深度的方法可以适用于具有较大值的k,但由于该算法要求计算k维数据空间的凸闭包,复杂度为,实际上,仅仅当k=2或3时,算法性能可以忍受,而当k≥4时,基于深度的算法并不是很有效。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈