信源是产生各类信息的实体。信源给出的符号是不确定的,可用随机变量及其统计特性描述,虽说信息是抽象的,但信源是具体的。例如,人们交谈,人的发声系统就是语声信源;人们看书、读报,被光照的书和报纸本身就是文字信源;常见的信源还有图像信源、数字信源等。产生离散信息的信源称为离散信源,离散信源只能产生有限种符号,因此离散信源消息可以看成是一种有限个状态的随机序列。设一个离散信源X(x1,x2,…,xN),其概率分布为{p1,p2,…,pN},满足离散信源类型分为无记忆信源和有记忆信源两类,其中无记忆信源是指信源的当前输出与以前的输出是无关的;有记忆信源是指信源的当前输出与以前的m个输出是相关的。考虑无记忆信源X,某个信源符号xk,如果它出现的概率是pk,则其自信息量为
直观理解是,一个概率小的符号出现将带来更大的信息量。式中对数的底确定了测量信息的单位,若以2为底,即单位为比特(bit)。由N个符号集X构成的离散信源的每个符号的平均自信息量为
式中:H(X)——信源熵(零阶熵),单位是“比特/符号”。
【例7-1】 设X={a,b,c,d},p(a)=p(b)=p(c)=p(d)=1/4,则各信源符号的自信息量为
信源熵为
编码方法:a,b,c,d用码字00,01,10,11来编码,每个符号用2个bit,此时平均码长也是2 bit。
【例7-2】 设X={a,b,c,d},p(a)=1/2,p(b)=1/4,p(c)=1/8,p(d)=1/8,则各信源符号的自信息量为
信源熵为
此时,有如下两种编码方法。
(1)a,b,c,d分别用码字00,01,10,11来编码。
平均码长为
此时,平均码长大于信源熵。
(2)a,b,c,d分别用码字0,10,110,111来编码。(www.xing528.com)
平均码长为
此时,平均码长等于信源熵。
【例7-3】 设X={a,b,c,d},p(a)=0.45,p(b)=0.25,p(c)=0.18,p(d)=0.12,则各信源符号的自信息量为
信源熵为
用【例7-2】的第2种编码方法,平均码长1.85大于信源熵。
根据以上3个例子可得4点启示。
(1)信源的平均码长Iavg≥H(X),也就是说熵是无失真编码的下界。
(2)如果所有I(xk)都是整数,且I(xi)=I(xj)则可以使平均码长等于熵。
(3)对非等概率分布的信源,采用不等长编码时,其平均码长小于等长编码的平均码长。
(4)当信源中各符号的出现概率相等时,信源熵值达到最大,这就是“最大离散熵定理”。
将离散信源熵扩展至图像的熵,以灰度级为[0,L-1]的图像为例,可以通过直方图得到各灰度级概率ps(sk)(k=0,…,L-1),此时图像的熵为
一幅图像的熵是该图像的平均信息量,即图像中各灰度级比特数的统计平均值。假设各灰度级间相互独立,那么图像的熵是无失真压缩的下界。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。