首页 理论教育 数据挖掘技术与应用:非线性变换

数据挖掘技术与应用:非线性变换

时间:2023-06-21 理论教育 版权反馈
【摘要】:图8.1 给出了直升机运输双摆均质梁的示意图。由于负载是均质梁,将会在空间运动中出现扭转的动力学现象,故扭转角是γ。观察可得,Box-Cox变换要求输入是严格正定的。直升机旋翼的输入会改变姿态角θv、φv,从而向前向后飞行、侧飞或者悬停。因此,对特征的分布进行可视化有利于我们选取合适的非变换方法。直升机质心为零势能面,其势能是:钩子的动能是:图2-5非线性变换方法在不同数据分布下的表现

数据挖掘技术与应用:非线性变换

此处的非线性变换指的是:分位数变换和幂变换。分位数变换和幂变换都是基于特征值的单调变换,从而能保持每个特征值的顺序[5]

分位数变换基于公式G-1(F(x)),是将所有特征映射到相同的期望分布中,其中F是特征的累积分布函数,G-1是理想输出分布G的量化函数。此公式基于以下两个事实:首先,若x是具有连续累积的分布函数F的随机变量,且F(x)在[0,1]上均匀分布;其次,如果U是在[0,1]上均匀分布的随机变量,则G-1(U)具有分布G。分位数变换能抑制离群点的影响,但其同样扭曲了单个特征内部和特征之间的距离与相关性。

幂转换方法则是参数化变换方法的一种,其目的是将任意分布的数据映射到与高斯分布接近。

1.映射到标准分布

映射到标准分布的实现代码如下(特征的数值被映射到[0-1]之间):

2.映射到高斯分布

将数据通过幂转换映射到高斯分布有利于稳定方差和最小化偏度。其幂变换的实现方式包括Yeo-Johnson变换和Box-Cox变换,变换方法如下。

Yeo-Johnson变换的公式为(www.xing528.com)

Box-Cox变换的公式为

观察可得,Box-Cox变换要求输入是严格正定的。在这两种幂变换方法中,都具有一个参数λ,该参数是基于最大似然估计得到的。下面的实现代码是将一个对数正态分布经Box-Cox变换后成为正态分布的例子。

实现代码如下:

不同的分布经Box-Cox分布变换或Yeo-Johnson分布变换后的结果,如图2-5所示。注意,原数据分布不同时,有些变换方法并不起作用。因此,对特征的分布进行可视化有利于我们选取合适的非变换方法。

图2-5 非线性变换方法在不同数据分布下的表现

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈