首页 理论教育 熵与复杂性理论:深入探讨

熵与复杂性理论:深入探讨

时间:2023-06-28 理论教育 版权反馈
【摘要】:K-S熵,也称Kolmogorov熵,最早由Kolmogorov于1958年提出,是对信息熵概念的进一步精确化,用来刻画系统的复杂性[174]。尽管K-S熵在判断真正的动力学系统时比较有效,但K-S熵是数学意义的,在应用于一般的模型时其结论常易引起混淆。由于实测的信号往往都带有一定的噪声,因而K-S熵将趋于无穷大。然而,上述的样本熵、模糊熵和排列熵等刻画的都是时间序列在单一尺度上的复杂性程度或规则性程度。但是,熵值的增加并不意味着动力学复杂性增加。

熵与复杂性理论:深入探讨

信息熵由香农最早提出,也称香农(Shannon)熵,如果某事件具有n种独立可能状态,X1,X2,…,Xn,且每一结果出现的概率为,那么事件所具有的不确定性程度,也就是信息熵,定义为。信息熵概念的建立,为测度信息建立了一个统一的科学计量方法,奠定了信息论的基础。

K-S熵,也称Kolmogorov熵,最早由Kolmogorov于1958年提出,是对信息熵概念的进一步精确化,用来刻画系统的复杂性[174]。在随机运动系统中,K-S熵是无界的;在规则运动系统中,K-S熵为零;在混沌运动系统中,K-S熵大于零,K-S熵越大,信息的损失速率越大,系统的混沌程度越大,即系统越复杂。尽管K-S熵在判断真正的动力学系统时比较有效,但K-S熵是数学意义的,在应用于一般的模型时其结论常易引起混淆。由于实测的信号往往都带有一定的噪声,因而K-S熵将趋于无穷大。但是,任何实测的带噪信号的熵只能是有限的,理想白噪声是不存在的,这就出现了矛盾。因此无法根据K-S熵的计算结果对系统的性质作出正确判断,而且K-S熵的计算要求所分析的数据无限长或足够长,而在实际计算中K-S熵很难直接计算得到[173]

1991年,Pincus提出了一种新的衡量系统复杂性程度的方法——近似熵(Approximate Entropy,ApEn)[175,176]。ApEn的构造方法类似于K-S熵,其定义基于:如果描述两个系统的重构空间具有不同的联合概率分布,那么在一个固定划分内,其边缘概率密度分布也可能是不同的,而边缘概率密度分布可通过条件概率得出。据此,Pincus定义ApEn为相似向量在由m维增加至m+l维时继续保持其相似性的条件概率,以描述一个时间序列在其演化过程中出现新的模式的概率大小,进而度量该时间序列的复杂性。近似熵的概念自提出后,很快被用于各种带噪短数据信号的分析处理,在生命科学研究领域,近似熵已广泛应用于心率变异、心电信号、脑电信号及肌电信号等各种生理和临床信号的分析[175-183]。与K-S熵等非线性动力学参数相比,近似熵具有以下优点:①只需较短的数据就能得出比较稳健的估计值;②有较好的抗噪和抗干扰能力,特别是对偶尔产生的瞬态强干扰有较好的承受能力;③对确定性信号和随机信号都适用,也可以用于由随机成分和确定性成分组成的混合信号,当两者混合比例不同时,混合信号近似熵值也不同。

尽管近似熵优于很多常用的非线性动力学参数,但统计值是一个有偏的估计值,原因在于ApEn的计算中计入了自身模板的匹配。为了避免由计入向量的自身匹配而引起的有偏性,Richman和Moorman于2000年提出了另一个改进的系统复杂度度量方法,称之为样本熵(sample entropy,SampEn)[183]。SampEn与ApEn的一个最重要区别之处在于不计及向量的自身匹配,与ApEn相比,SampEn不仅对数据长度的依赖性更小,同时还拥有更好的相对一致性。与Lyapunov指数、K-S熵、关联维数等其他非线性动力学方法相比,样本熵具有所需的数据短、抗噪和抗干扰能力强、在参数大取值范围内一致性好等特点[184]

无论是在近似熵还是在样本熵的定义中,两个向量的相似性都是基于单位阶跃函数而定义的,单位阶跃函数具备二态分类器的性质,若输入样本满足一定特性,则被判定属于一给定类,否则属于另一类。而在现实世界中,各个类别之间的边缘往往较模糊,很难确定输入样本是否完全属于其中一类。陈伟婷等通过对样本熵进行改进,提出了模糊熵的概念[173,185-186]。模糊熵和样本熵都是衡量时间序列复杂度和维数变化时产生新模式的概率的大小的方法。序列产生新模式的概率越大,则序列的复杂度越大,熵值越大。模糊熵不仅具备了样本熵的特点:独立于数据长度(计算所需数据短)和保持相对一致性,而且还有更优越于样本熵之处:①样本熵中两个向量的相似度定义是基于单位阶跃函数,突变性较大,熵值缺乏连续性,对阈值取值非常敏感,阈值的微弱变化就可能导致样本熵值的突变。而模糊熵用指数函数模糊化相似性度量公式,使得模糊熵值随参数变化而连续平滑变化。②在近似熵和样本熵的定义中,向量的相似性由数据的绝对值差决定,当采用数据存在轻微波动或基线漂移时,则不能得到正确的分析结果。模糊熵则通过均值运算,除去了基线漂移的影响,且向量的相似性不再由绝对幅值差确定,而由指数函数确定的模糊函数形状决定,从而将相似性度量模糊化[173,187]。(www.xing528.com)

排列熵(permutation entropy,PE)是由Bandt和Pompe提出的一种检测时间序列随机性和动力学突变行为的方法,具有计算简单快速,抗噪能力强,且得到较稳定的系统特征值所需时间序列短以及适合在线监测等优点,在肌电和脑电信号分析、心率异常检测、癫痫脑电图分析和机械故障检测等方面都取得了良好的应用效果[125-127,153,188-192]

然而,上述的样本熵、模糊熵和排列熵等刻画的都是时间序列在单一尺度上的复杂性程度或规则性程度。但是研究表明,时间序列的复杂性和熵值的大小并没有绝对的对应关系,传统的基于熵的算法衡量时间序列的规律性(有序性),随着无序程度的增加熵值也增加,且当序列是完全随机系统时到达最大值。但是,熵值的增加并不意味着动力学复杂性增加。例如,一个随机化后的时间序列熵值要比原时间序列熵值高,尽管产生数据替代的过程破坏了原始序列的相关性,降低了原时间序列的信息,1/f噪声的熵值比白噪声小,但这并不意味着白噪声比1/f噪声复杂,有些时间序列不仅在单一尺度上包含了系统丰富的信息,而且在其他多个尺度上也包含系统重要的隐藏信息。因此,只考虑单一尺度上的熵值是完全不够的,有必要考虑时间序列在其他尺度上的信息[193-197]

基于上述考虑,Costa等在样本熵的基础上,引入尺度因子,提出了多尺度熵(multi-scale entropy,MSE)的概念[193,194,196],MSE定义为时间序列在不同尺度因子下的样本熵。MSE曲线反映了时间序列在嵌入维数m变化时产生新模式的能力。一般地,如果一个序列的熵值在大部分尺度上都比另一个序列的熵值高,那么就认为前者比后者复杂性更高[197]。针对多尺度熵的定义中样本熵计算存在的缺陷,同时结合模糊熵的优势,本书作者发展了多尺度模糊熵(multi-scale fuzzy entropy,MFE)的概念。类似地,Aziz等在排列熵的基础上进一步发展了多尺度排列熵(multi-scale permutation entropy,MPE)的概念,用于衡量时间序列在不同尺度下的随机性和动力学突变行为,并通过分析生理信号将其与MSE进行了对比,结果表明:相对于MSE,MPE具有更好的鲁棒性。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈