首页 理论教育 熵:与香农不同的探究视角

熵:与香农不同的探究视角

时间:2023-06-26 理论教育 版权反馈
【摘要】:,xN}为有限集合,当xi等概率分布时,其熵达到最大,最大值为上面的讨论中,熵的概念是以离散随机变量来说明的。实际上,连续随机变量也有熵的概念。并且注意到,任何分布的随机变量都有这个公共的正无穷大量。定义9-1 对于连续随机变量X,假设其概率密度函数为f,则该随机变量的熵为因为绝对熵总是有个正无穷大量,和离散情况一样,从而可以认为总是正数;但是,相对熵把正无穷大量去掉后就不一定了。

熵:与香农不同的探究视角

熵(Entropy)是信息论一个非常重要的概念,通常信息论的教材中会定义信息的不确定性、平均不确定性,或者规定一些合理的性质,然后通过泛函技巧导出熵的表达式,本章给大家介绍一个更直观的组合解释。

性质9-1 假设信息符号集合是{x1x2,…,xN},其各自以概率{p1p2,…,pN}出现。一个长度包含T个信息符号的序列,当T→∞时,共有多少种不同的序列呢?答案是

其中,978-7-111-42053-8-Chapter06-2.jpg表示二项式系数,即从n个符号中取m个的不同取法个数。

证明T→∞,根据大数定理(参见附录B概率基础)知,xi在序列中出现的频率趋近于其概率,即出现的次数无限趋近于Tpi。那么信息序列的不同个数等于一个简单的组合问题:从T个符号位置中,选Tp1个位置放上x1,再从剩下的位置中选Tp2个放上x2,依次类推。显然,这样的个数为

接下来用到如下引理,其具体推导见附件D。

引理9-1 对于固定的ab≥0,T→∞,成立

根据引理9-1化简K可得如下重要定理,具体证明见附录D。

定理9-1 要用二进制比特序列给所有K个序列编号,那么平均一个信息符号xi至少需要HX)比特才能把这些序列用不同的二进制比特序列表示区分开,该HX)被定义为香农熵,则

三言两语

一般把这个熵理解为平均不确定性,通俗点讲就是那么多无限长的序列,在没有给你任何信息时,不确定将要发送的是哪个序列的序列个数。把这个序列个数再平摊到序列中每一个符号(取对数后)就是Hx)。从这个意义上来说,这里的熵一定是正数。

当然,是正数这点从熵的表达式也可以知道,因为所有的0≤pi<1,则log2pi<0,从而所有项-pilog2pi≥0,且其中至少一个是大于0的。

一般教材中还先定义一个事件的信息量,即一个以概率p出现的事件,它携带的信息量为-logkp。当底数k=2时,信息量的单位为比特,本书里主要采用k=2,并且如果对数表达式里底数k没有明确,一般都可以当k=2来理解。信息量这个概念如果不升华到熵,即平均信息量,它单独出现是没有什么太大意义的。

三言两语

另外,可以想象关于平均不确定性,分布越均匀,从而任何一个事件出现的可能性差不多,平均不确定性就高,也即熵越大。反之,如果可能的事件里有一个出现概率特别高的,剩下的出现概率都很小,那么不确定性就低,熵就小;此种情况下,即使不给出信息,也会猜想可能是概率最大的那个

这个理论上其实是因为上面那一串二项式系数(Binomial Coefficient)相乘等价于一个组合数学上的多项式系数(Multinomial Coefficient),它和二项式系数一样,先升后降,在中间时达到最大,即二项式系数

M从0上升时,先是逐渐递增,在接近N/2时,达到最大值,然后又逐渐下降。多项式系数(www.xing528.com)

其中,∑iMi=N。类似地,当Mi都趋近于N/k时达到最大,从而当上面概率分布pi几乎相等时,熵趋近于最大值。

现在给些例子,在给定条件下,看看哪些分布的熵最大。

例9-1 集合{x1x2,…,xN}为有限集合,当xi等概率分布时,其熵达到最大,最大值为

上面的讨论中,熵的概念是以离散随机变量来说明的。实际上,连续随机变量也有熵的概念。

对于连续随机变量X,假设其概率密度函数为fx),则对于每个X=x,其概率为

从而应用式(9-3)所示的离散情况熵的概念可得到

上式即为直接应用离散情况得到的熵的表达式。式中有一个正无穷大量-logdx,这种形式的熵被称为连续随机变量的绝对熵。并且注意到,任何分布的随机变量都有这个公共的正无穷大量。因此,一般应用的时候,更多的是用如下定义的相对熵。在本书其他讨论中,若无特别说明,连续随机变量的熵都是指相对熵。

定义9-1 对于连续随机变量X,假设其概率密度函数为fx),则该随机变量的熵为

因为绝对熵总是有个正无穷大量,和离散情况一样,从而可以认为总是正数;但是,相对熵把正无穷大量去掉后就不一定了。

对于连续随机变量,给定条件下,哪些分布的熵最大呢?下面给个例子。

例9-2 当随机变量X取值集合为实数域RR时,所有均值为μ方差限制为σ2的分布中,高斯分布

X978-7-111-42053-8-Chapter06-12.jpgμσ2

的熵达到最大,此时最大熵为

注意最大熵与均值无关,因为不确定性刻画所有取值的可能性的分布规律,与取值的数值无关。另外,显然当2πeσ2<1,即方差978-7-111-42053-8-Chapter06-14.jpg时,计算出来的相对熵为负数。

最后,熵的概念还可以推广到随机向量的形式,即多个随机变量的联合熵,比如推广到两个随机变量,则有

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈