首页 理论教育 ABS编码结构设计优化方案

ABS编码结构设计优化方案

时间:2023-06-18 理论教育 版权反馈
【摘要】:下面以立体声为例,给出基于ABS的空间音频编码器局部结构,如图5-11所示。图5-12简化的单声道信号合成此外,如PS和MPEG Surround等下混声道编码采用AAC的空间音频编码器,由于通用编码需要生成反量化谱线以便进行时域帧间预测、时域噪音整形TNS等操作,那么反量化的MDCT谱线可以直接从编码器中获得,而无需额外的操作。

ABS编码结构设计优化方案

根据5.3.1小节的分析,空间参数声源分离所采用的频带划分技术需要从心理声学和信号特性两方面综合考虑:第一,CB/ERB的中心频率依赖于信号的频谱分布,当确定了信号一系列分量的中心频率后,相应的带宽可以根据CB/ERB的经验公式得到,并作为空间参数提取的最小粒度,避免固定频率边界与声源边界的不一致造成的声源分离度的降低;第二,若相邻的若干频段都对应于一个主要声源,那么这些相邻的频带可以合并为一个空间参数提取的单元,避免多次对同一声源进行空间参数提取。

由此对于不同的时间片TS,频率划分应随信号动态变化。为了获取这个动态的频带划分,直接的方法是分析原始多声道信号的频谱特性。然而,解码端无法获取原始信号,仅能获取熵编码后的信号。这对于现有的空间参数编码结构来说,需要编码端传输动态时频划分的信息,也就是说,除非编码器将频率划分作为边信息传送到解码器,否则解码器无法知道参数提取单元的频率范围。

假定根据心理声学和信号特性将频带划分成nb个参数提取单元,那么传送提取单元的划分信息的比特率R part可以近似用下式表示:

式中:Ts是时间片的长度;N是谱线的数量。以32kHz采样的信号为例,采用2048点FFT,分为24个参数提取单元,即有Ts=64ms,N=1024,nb=24,由上式计算得到比特率为

值得注意的是,上述例子表明传送边信息所需的码率与当前PS等空间音频编码系统中典型的1.5~7.7kbps的空间参数码率相比,其所占比例过大。也就是说,为提高编码质量而传送空间参数提取单元的划分信息则会带来明显的参数码率增加。虽然动态时频划分可以提高空间音频编码音质,但是现有空间音频编码方案都没有采用动态频率,主要是边信息传递会造成参数码率的显著增加,甚至有可能超过空间参数码率本身。因此,在现有空间参数编码结构中,只有当动态划分的收益显著大于空间参数边信息的增加时,动态频率划分的应用才有意义。为采用动态频率划分技术提高编码音质,降低边信息传递带来的码率增加是解决问题的关键

我们设想,如果参数提取单元的划分基于编解码都可以准确得到信号,并且编解码器都采用相同的参数提取单元划分方法,那么此时动态频率划分的边信息就不是必须的,这样不仅能够采用动态频率划分提升音质,又不额外增加参数码率传输频率划分的信息。注意空间音频编解码的两个流程:

(1)在解码流程中,首先得到下混声道解码信号,然后根据空间参数信息,合成多声道输出。那么,解码端可以利用的信号就只有下混声道的解码信号,并作为动态划分的对象。

(2)在编码流程中,与下混声道对应的是输入多声道信号的下混信号,这个下混信号需要经过通用编码,加入量化噪音。只有编码端嵌入解码流程,才能获得与解码端相同的动态划分信息。

语音信号处理中,在编码端加入解码操作的方法称为合成分析法(Analysis-By-Synthesis,ABS),这里借鉴ABS方法来去除动态划分的边信息。下面以立体声为例,给出基于ABS的空间音频编码器局部结构,如图5-11所示。

图中嵌入一个完整的下混声道解码器,即下混后的单声道信号经过单声道解码器得到与解码端一致的时域单声道信号,再经过分析滤波器组变换到提取空间参数的变换域;然后根据信号特性进行动态频率划分,得到空间参数提取基本单元的频率边界;最后根据输入左右声道的变换域信号,在每个单元提取一组空间信息。

图5-11 空间参数立体声编码器的合成分析结构(编码端)

显然,图5-11所示的结构会带来两大问题:第一,以下混信号解码后的信号为对象进行的频率划分,能否替代空间音频编码中的声源分离;第二,完整解码器的嵌入必然带来编码复杂度的增加,而与我们的移动应用中的低复杂度需求相悖。下面针对这两个问题进行分析说明。(www.xing528.com)

1.下混信号指导频率划分的合理性

从原则上说,参数提取单元频率边界的确定应该以输入的原始信号为分析对象,然而事实上下混信号在多数情况下都能保留原始信号的频谱特征,其原因有两个方面:

(1)现在的录音技术要求多声道/立体声录音的信号要有单声道兼容性,即平均信号不能明显削弱或增强任何的频谱成分,也就是对于任何频点不存在持续的反相或同相;

(2)在空间参数编码中,为避免不符合单声道兼容的多声道和立体声信号下混带来的某些频谱成分的明显削弱和增强,采用分频带加权下混的方式进行处理。

以立体声信号的下混为例,对于第b个频域空间参数提取单元,其频率范围记为k=kb,kb+1,…,kb+1-1,按式(5.4)下混:

式中:Mk、Lk和Rk分别是下混声道、输入左声道和输入右声道的第k条谱线;gb是第b个频域参数提取单元的增益加权因子,满足能量均衡的条件:即保证下混信号以提取单元为单位的能量等于输入信号的平均能量。

因此,从声源录音的基本要求开始,到下混处理中保持下混信号的频谱成分,都可以说明以下混信号为指导的频率划分是具有合理性的。

2.复杂度增加的问题分析

在基于合成分析的空间音频编码结构中,引入了一个完整的下混声道解码器,显然明显地增加了编码的计算复杂度。事实上在很多情况下,编码端得到下混声道解码信号并不需要嵌入一个完整的解码器。

当前主流的音频编码器都属于变换编码,它们所采用的变换都具有类似FFT的频率分析性质,例如在AAC和MP3中的修正离散余弦变换MDCT。因此,动态参数提取单元频率边界的确定可以依据通用编码器变换域的下混信号,而这个信号通常可以通过反量化谱线量化因子得到,如图5-12所示。

图5-12 简化的单声道信号合成

此外,如PS和MPEG Surround等下混声道编码采用AAC的空间音频编码器,由于通用编码需要生成反量化谱线以便进行时域帧间预测、时域噪音整形TNS等操作,那么反量化的MDCT谱线可以直接从编码器中获得,而无需额外的操作。因此,合成分析结构可以充分利用下混声道中的相关信息,使得无附加边信息的动态空间参数提取单元频率范围的确定成为可能,提供了码率下降和空间音频编码音质上升的空间。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈