信源的分类依据信源特性而定,一般按照信源发出的消息在时间上和幅度上的分布情况把信源分为离散信源和连续信源。
1)离散信源:信源发出的消息在时间上和幅度上都是离散的(两者要同时满足),消息符号的取值是有限的或可数的,且两两不相容。如文字、数据和电报等,可以认为是一个随机变量或随机序列。
2)连续信源:信源发出的消息不仅在幅度上是连续的,在时间上或平面上也可能是连续的。如语音信号,热噪声信号,遥测系统中的电压、温度、压力等的连续数据。这些数据的取值是连续的,但又是随机的,可以认为是一个随机过程。
离散信源又可以细分为离散无记忆信源和离散有记忆信源。
1)离散无记忆信源:信源所发出的各个符号之间相互独立,发出的符号序列中的各个符号之间没有统计关联性,各个符号的出现概率是它自身的先验概率。
2)离散有记忆信源:信源所发出的各个符号之间不相互独立,各个符号出现的概率是有关联的。
也可以根据信源发出一个消息所用符号的多少,将离散信源分为离散单符号信源和离散序列信源。
1)离散单符号信源:信源每次只发出一个符号代表一个消息。
2)离散序列信源:信源每次发出一组含有2个以上符号组成的符号序列代表一个消息。
将以上两种离散信源的分类结合,主要有下面3种离散信源:
1)离散无记忆单符号信源。
2)离散无记忆序列信源。
3)离散有记忆序列信源。
当有记忆信源的相关性涉及前面所有符号时,随着序列的增加相关性的符号也会增加。当序列可能达到无限长时,记忆的长度也是无限的,这显然不利于研究。因此,为了简化问题,一类有限记忆、定长记忆、记忆是邻近的离散信源被提出,即马尔可夫信源。马尔可夫信源的特点是某一个符号出现的概率只与前面一个或有限个符号有关,而不依赖于更前面的那些符号。
为了描述概率特征与时间起点(推移)是否有关系,在信息论中有平稳这一概念。平稳信源发出的符号序列的概率分布(概率、条件概率)与时间起点(推移)无关。
综上,可以将离散信源的分类表示为图2.1所示。
图2.1 离散信源的分类
1.离散无记忆单符号信源
【例2.1】
掷一次骰子的结果必然是1~6点中的某一个面朝上。掷骰子的实验可以用离散型随机变量X来描述该信源的输出消息,其概率空间为
在社会实践中,存在着很多这样的信源,如掷硬币、书信文字、程序代码、电报符号、阿拉伯数字码等。这些信源输出的都是单个符号(或代码)的消息,它们的符号集的取值是有限的或可数的。如果每次信源只输出一个符号,则可以用一维离散型随机变量X来描述这些信源的输出。这样的离散信源称为离散无记忆单符号信源,其数学模型就是离散型的概率空间,由式(2.1)描述。
当信源给定时,其相应的概率空间就已给定;反之,如果概率空间给定,就表示相应的信源已给定。所以,概率空间能表征离散信源的统计特性。
式(2.1)表示离散信源可能输出的消息(符号)数是有限的(共有r个:a1,a2,…,ar),而且每次必定选取其中一个消息输出,满足完备集条件。这是最基本的离散信源。
2.离散无记忆序列信源
【例2.2】(续例2.1)
掷3次骰子,记录每一次的结果为ai1、ai2、ai3,其中,每一次实验的取值为1、2、3、4、5、6。将符号序列αi=(ai1,ai2,ai3)看作是一个由3个分量组成的新信源符号。所有可能的符号序列共有63=216种,并组成一个符号序列的离散信源。该实验可以用3维的离散型随机序列X=(X1,X2,X3)来描述输出的消息,其每个符号序列的概率为
例2.2所描述的信源以离散单符号信源连续输出的N个符号为基础,组成一个符号序列来表示新信源的消息,这是一种符号序列的离散信源,称为离散序列信源,也称为N次扩展信源。这种信源需要用N维离散型随机序列X=(X1,X2,…,XN)来描述,其中N为有限正整数或可数的无限值。该N维随机序列又称为随机矢量。
离散序列信源,即N次扩展信源X=(X1,X2,…,XN)中,每一分量(也是随机变量)Xi(i=1,2,…,N)的值域是符号集A:{a1,a2,…,ar},构成了一个新的信源概率空间
其中,αi是N维随机序列的一个取值,αi=(ai1,ai2,…,aiN)(i1,i2,…,iN=1,2,…,r)。有时也用x=(x1,x2,…,xN)(x1,x2,…,xN∈A)表示扩展信源的输出。
在一般的N次扩展信源中,如果随机序列X=(X1,X2,…,XN)中的各分量之间相互独立,即信源发出的符号序列中的各个符号之间没有统计关联性,符号的出现概率是它自身的先验概率,则称这种信源为离散无记忆序列信源,或称为离散无记忆信源的N次扩展信源。对于离散无记忆序列信源还可以根据概率分布是否与时间起点(推移)有关,进一步分为平稳信源和非平稳信源。
对于离散无记忆序列信源,其N维随机序列X=(X1,X2,…,XN)的联合概率分布满足
P(x)=P(x1x2…xN)=P1(x1)P2(x2)…PN(xN) (2.4)若该信源还是平稳的,根据平稳随机序列的统计特性可知,Xi(i=1,2,…,N)的一维概率分布都相同,即Xi的概率分布与P的下标无关,则得
P(x)=P(x1x2…xN)=P(x1)P(x2)…P(xN) (2.5)
或
P(x=αi)=P(ai1ai2…aiN)=P(ai1)P(ai2)…P(aiN) (2.6)
在工程中可以认为各种消息(数据、文档等)经过高效的信源编码(压缩编码)后输出的数据近似为离散无记忆信源,如果再对数据进行分组处理,得到的序列数据构成的信源就是离散无记忆序列信源。(www.xing528.com)
在通信系统中,一般认为经过信源编码器输出的数据中,各数据符号之间没有统计相关性,即无记忆性。
注:本书约定,概率函数P(x)(或概率密度函数p(x))的值仅与随机事件x有关,与该事件的发生时刻无关,即随机变量是平稳的;概率函数Pi(x)(或概率密度函数pi(x))的值不仅与随机事件x有关,且与该事件的发生时刻i有关,即随机变量是不平稳的。
3.离散有记忆序列信源
在多数实际情况中,信源输出的消息往往是由一系列符号序列组成的。例如,中文自然语言以文字作为信源,中文信源的样本空间A是所有汉字与标点符号的集合。由这些汉字和标点符号组成的序列即构成中文句子和文章。因此,从时间上看,中文信源输出的消息是时间上离散的符号序列,其中每个符号的出现是不确定的、随机的,由此构成了不同的中文消息。
又如,对于离散化的平面灰度图像信源来说,从X-Y平面空间上看,每幅画面是一系列空间离散的灰度值符号(像素点),而空间每一点的符号取值是随机的,由此形成了不同的图像消息。
上述这类信源输出的消息是按一定概率选取的符号序列,所以可以把这种信源输出的消息看作时间或空间上离散的一系列随机变量,即随机序列。这类信源的输出与前面的符号序列的离散信源类似,但不同点是在时间或空间上离散的一系列随机变量是有关联的。因为不是任意的中文与标点符号的序列都是有意义的语句和文章,也不是任意的X-Y平面空间上灰度值符号都能组成有意义的画面。
这种输出的符号序列之间有关联性的信源称为离散有记忆序列信源或称为离散有记忆信源的N次扩展信源。该信源的概率空间由式(2.3)描述,但N维随机序列X=(X1,X2,…,XN)的联合概率分布满足
在一般情况下,式中的条件概率不但与条件有关,还与时间推移有关。
下面再给出两个离散有记忆信源的例子。
【例2.3】
布袋中有100个球,其中有70个红球和30个白球。每次取出1个球记下颜色后不放回布袋,接着取另1个球。在取下1个球时布袋中的红球和白球的概率已与取前1个球时不同,此时的概率分布与已取出球的颜色有关。试计算取到不同颜色的球的概率。
解“取到红球”事件记为a1,“取到白球”事件记为a2。计算如下:
1)第1次取球时,取球事件的概率为
P(a1)=70/100,P(a2)=30/100
2)若取第1个球为红色时,取第2个球的概率为
若取第1个球为白色时,取第2个球的概率为
3)若取第1球和第2球都为红时,取第3球的概率为
若取第1球为红、第2球为白,或第1球为白、第2球为红时,取第3球的概率为
若取第1球和第2球都为白时,取第3球的概率为
【例2.4】
汉语是一个离散有记忆序列信源。如图2.2所示,出现第一个汉字“我”之后,出现“们”“国”“的”“要”“看”“有”等汉字的概率上升,而出现“鱼”“河”“地”“率”“般”“个”等汉字的概率下降。即如果假设P(们)=0.01,P(鱼)=0.01,则出现“我”之后,“们”和“鱼”出现的概率有可能变为P(们我)=0.05,P(鱼我)=0.001。
图2.2 例2.4的信源输出示意图
4.马尔可夫信源
表述有记忆信源要比表述无记忆信源困难得多。在实际中信源发出的符号往往只与靠近的前若干个符号的记忆关系较强,而与更前面的符号的记忆关系较弱。因此,在分析时可以限制随机序列的记忆长度。当记忆长度为m+1时,信源每次发出符号只与前面m个符号有关,与更前面的符号无关,则称这种有记忆信源为m阶马尔可夫信源,此时描述信源符号之间记忆关系的条件概率为
如果上述条件概率又与时间起点i无关,那么信源输出的符号序列可以看作时齐马尔可夫链,则此时信源称为时齐马尔可夫信源。
注:马尔可夫信源输出消息的长度没有限制,可以认为输出序列为x1,x2,…,xi,xi+1,…。其中,xi(i=1,2,…)表示第i时刻信源输出的随机事件,xi的取值为信源符号集,下标i表示时刻。
5.连续信源
连续信源输出的消息不仅在幅度上是连续的,在时间上或平面上也可能是连续的,即所谓的模拟信号。连续信源的信源概率空间由式(2.2)描述。
如果连续信源输出的消息不仅幅度上连续,而且在时间或平面上也是连续的,则称为随机波形信源(或波形信源)。波形信源可以用随机过程{x(t)}描述。
分析一般的随机波形信源比较复杂和困难,而常见的随机波形信源输出的消息是时间上或频率上为有限的随机过程。因此,可以根据取样定理对随机过程进行取样,把随机过程用一系列时间(或频率)域上离散的取样值来表示,每个取样值都是连续型随机变量,通常称每个这样的取样值为一个自由度。这样,就可以把随机过程转换成时间(或频率)上离散的随机序列来处理。如果随机过程是平稳的随机过程,则取样后可以转换成平稳的随机序列,这样,随机波形信源可以转换成连续平稳信源来处理。
若再对每一个取样值(连续变化的)经过量化,就可以将连续的取值转换成有限的或可数的离散取值,也就可以把连续信源转换成离散信源来处理。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。