算术编码：一种高效的非分组编码方法

时间：2026-01-23 理论教育小可爱版权反馈

【摘要】：自1979年J.Rissanen和G.G.Langdon的论文“Arithmetic Coding”中提出了算术编码的系统方法之后，算术编码进入到实用阶段。本小节要介绍的算术编码是一种非分组码。类似地，对于字符串α，码区间分割是根据式或式来进行的，其编码原理是一样的。

算术编码是20世纪80年代发展起来的一种高效无损编码方法。自1979年J.Rissanen和G.G.Langdon的论文“Arithmetic Coding（算术编码）”中提出了算术编码的系统方法之后，算术编码进入到实用阶段。如今，无论是计算机数据交换还是文本存储，以及视、音频数据压缩编码等，都应用了算术编码技术。

前面讨论的无失真编码建立在信源符号与码字一一对应的基础上。这种编码方法通常称为块码或分组码，此时信源符号一般应是多元的，且不考虑信源符号之间的相关性。如果要对最常见的二元序列进行编码，则需采用游程编码或合并信源符号等方法，把二元序列转换成多值符号，转换后这些多值符号之间的相关性也是不予考虑的。这就使信源编码的匹配原则不能充分满足，编码效率一般不高。

为了克服这种局限性，就需要跳出分组码的范畴。本小节要介绍的算术编码是一种非分组码。在算术编码中信源符号和码字不存在一一对应关系，它是一种从整个符号序列出发采用递推形式进行编码的方法。

算术编码的基本思路是从整个符号序列出发，计算信源序列的概率和累积概率，并用这些概率值将[0，1）区间分成互不重叠的小段，每段的长度等于某一信源序列的概率。再在段内取一个二进制小数，其长度可以与该序列的概率匹配，达到高效率编码的目的。这种方法与Shannon编码法有些类似，只是它们考虑的信源对象有所不同。Shannon码针对单个信源符号，而算术码针对信源符号序列。

1.累积概率的计算

先给出信源符号的累积概率。设信源为

定义各符号的累积概率为

那么由式（4.44）可得Q₀=0，Q₁=p₀，Q₂=p₀+p₁=Q₁+p₁，…，Q_r-1=Q_r-2+p_r-2。

以r+1个点：0=Q₀，Q₁，Q₂，…，Q_r-1，1可以完整地分割区间[0，1），如图4.10所示。由图可见，r个互不重叠的区间[Q₀，Q₁），[Q₁，Q₂），…，[Q_r-1，1）的长度分别等于r个信源符号a₀，a₁，…，a_r-1的概率p₀，p1，…，p_r-1。如果将区间[Q_i-1，Q_i）与信源符号a_i-1建立一一对应关系，则用区间[Q_i-1，Q_i）内任意一点的取值就可以作为该区间对应的信源符号a_i-1的代码。只要该代码的长度与信源符号的概率相匹配，就可以得到高效率的信源编码。

图4.10 信源符号与对应的概率区间

再给出信源符号序列的累积概率。设信源X输出的N长序列为α=α₁α₂…α_N（α_i∈X），则总共有r^N种可能的序列。由于考虑的是整个符号序列，因而整页纸上的信息也许就是一个序列，所以序列长度N一般都很大。在实际中很难得到对应信源序列的概率和累积概率，一般从已知的信源符号概率P=（p₀，p₁，…，p_r-1）递推得到。

为了简单起见，先从独立二元序列开始讨论，再推广到一般情况。

设二元序列α=011。根据信源符号累积概率的定义，把它看作一个信源符号，则长度为3的二元序列一共有8个，按自然二进制数排列为000、001、010、011、100、101、110、111，相当于α₀，α₁，…，α₇。比如α=011对应α₃，其累积概率为

Q（α）=P（000）+P（001）+P（010）（4.45）

现在设想扩展序列长为4，则总序列数为16个。其中由α=011扩展的两个符号为0110或0111，也按自然二进制数排序，在0110前有6个序列，在0111前有7个序列，则可以计算累积概率如下：

由于二元信源的累积概率为Q₀=0，Q₁=p₀，且有P（αr）=P（α）p_r，结合上面两式可得统一公式：

可以证明对于多元序列，有一般的递推关系：

其中，α为一个多元序列；a_k为扩展字符；p_k为字符a_k的发生概率。

2.码区间分割与代码

从累积概率定义式（4.44）可以看到，计算得到的各个Q_i值实际上已完成了在半开区间[0，1）上的码区间分割，每个Q_i值就是分割线，而每个小区间的长度就是相对应的信源符号发生概率。因此，小区间内任一点的坐标值都可以代表该信源符号。特别地，坐标值的二进制数表示就可以当作相应的信源符号的码字。类似地，对于字符串α，码区间分割是根据式（4.46）或式（4.47）来进行的，其编码原理是一样的。下面讨论具体的编码过程。

首先讨论码长选择。根据出现概率大编短码、出现概率小编长码的原则，计算