首页 理论教育 去除冗余信息的技术优化方案

去除冗余信息的技术优化方案

时间:2023-06-18 理论教育 版权反馈
【摘要】:针对上述问题,2002年C.Faller和F.Baumgarte等人利用空间心理声学中的空间线索展开了声道间冗余信息去除技术的研究,提出基于双耳线索的空间参数音频编码方法[46]。

去除冗余信息的技术优化方案

1992年J.D.Johnston提出和差立体声[40](M/S立体声,Sum-Difference Stereo),利用立体声声道间的相关性,去除立体声道间的冗余信息,相比各声道独立编码方法下降10%左右的码率。1993年Fuchs提出自适应声道间预测[41](Adaptive Inter-Channel Prediction,AICP),通过有限冲击响应滤波器进行声道预测,如果声道间有足够大的相关性,预测信号与实际信号的差将显著小于实际信号本身,就会带来编码收益。2001年,Kuo、Shyh-shiaw等人进一步指出[42],立体声声道间的正相关性主要集中在信号的低频段,全带采用的AICP会引起高频能量或能量峰的增加,带来负面影响。考虑到AICP的复杂性和编码收益的不确定性,MPEG-2/4的AAC都没有采用这种技术。但是在第三代移动通信(The 3rd Generation Partnership Project,3GPP)的超宽带自适应多速率音频编码器[43](Adaptive Multi-RateWideband Plus,AMR-WB+)中,考虑到立体声语音信号的强相关性,以及低码率下较大的容许误差,AMR-WB+编码器采用在线性预测残差域使用和声道信号预测差声道信号,引入预测滤波能量平滑因子,使用预测能量增益系数等方法共同改进了AICP技术。

1994年J.Herre等人提出强度立体声[44](Intensity Stereo,IS),又称为动态串扰(Dynamic Crosstalk)或声道耦合(Channel Coupling)。强度立体声基于著名的听觉二分理论[45](Duplex Theory):人类听觉系统在1.5kHz以下对时间差ITD敏感,在1.5kHz以上对强度差ILD敏感。依据这一理论,IS技术在高频段以比例因子带为单位记录了一个声道高频段的频谱细节,另一声道高频段信息通过复制频谱并与能量增益系数相乘获得。由于省去了一个声道高频段的频谱细节数据,强度立体声IS技术有20%~40%的显著码率收益。与和差立体声MS技术不同,强度立体声不是无损处理,解码端是无法完全重建原始立体声信号。由于人类听觉系统对于低频段的时间结构或者说相位敏感,频谱声道间复制不宜在低频段使用。因此,一般强度立体声技术都被限制用在2kHz以上的主观冗余去除。

针对上述问题,2002年C.Faller和F.Baumgarte等人利用空间心理声学中的空间线索展开了声道间冗余信息去除技术的研究,提出基于双耳线索的空间参数音频编码方法[46](Binaural Cue Coding,BCC)。该方法选取了表征声源位置信息的耳间时间差参数ITD和耳间强度差ILD,此时重建的音频信号存在着立体声声像宽度变窄和空间声像不稳定的问题[47];2003年E.Schuijers等人在BCC中增加了耳间相关度参数IC,用于解决立体声声像变窄的问题[48],增强双耳对两个在时间和强度上没有区别的声道的分辨能力,在很大程度上此时的研究集中在对空间听觉特征参数的提取,即研究从信号中提取哪些反映声场空间信息的参数,并逐渐形成了以反映声像方位和声像宽度的双耳线索参数为代表的空间听觉特征参数的提取技术,此后研究重点转向对上述双耳线索的冗余信息去除,提高参数编码效率

2004年J.Breebaart等人提出声道间相位差参数(Interchannel Phase Difference,IPD)代替ITD来描述声道间时延的方法,避免了ITD参数计算过程对误差敏感的问题[49]。由于IPD是一个相对值,无法单独使用并指导解码器解码得到正确的输出信号,因此该方法中又引入了全局相位差(Overall Phase Difference,OPD),并定义为原始信号中的一个声道与下混声道之间的相位差值。采用IPD参数代替ITD参数时而引入的OPD参数,使得待编码的参数数量增加,引起参数码率的上升。为解决这一问题,2006年J.Lapierre提出通过IPD、IC和ILD三个参数联合估算OPD参数的方法,在降低计算复杂度、减少参数码率的同时未导致明显的音质下降[50]。作为近年来低码率音频编码领域中重要的创新技术,空间音频编码技术在众多科研人员的努力下正逐步走出实验室,进入实用推广阶段。为此,空间音频编码技术除了尽力去除信号中空间参数冗余信息,降低空间参数码率外,还需要考虑重建音质、系统延时及复杂度等对实用推广的影响因素。(www.xing528.com)

2006年武汉大学胡瑞敏教授提出了一种空间参数立体声编解码方法,该方法利用空间参数的频率感知差异特性,分频段选取空间参数,并依据受限码率,找到码率和音质的平衡点,完成空间信息提取[51];2007年Jeroen Breebaart改变传统基于卷积生成双耳线索的虚拟环绕技术,根据空间统计特性,通过参数与头相关传输函数的匹配技术生成双耳线索,在单声道混合声源信号基础上重建空间听音场景,完成系统复杂度与声源数目无关的高音质编码[52];2008年Kyungryeol Koo等人提出可变子带分析和修正的两步结构来提取空间参数,实现了少量码率增加条件下的主观音质提升[53]。此时的空间音频编码技术重心在于对参数码率、系统复杂度和编码音质三者利弊的权衡和取舍。

如上所述,为有效去除声道间的冗余信息,降低空间参数的码率,当前的空间参数提取技术要么以音质为代价,要么以复杂度为代价来实现高效编码。值得注意的是,传统的音频压缩技术在利用时频分析和熵编码等工具去除客观冗余的同时,都根据人耳听觉感知特性分配量化噪音,去除主观冗余[54,55]。然而,当前空间音频编码研究中未见对双耳线索感知特性的系统分析和理论模型,缺乏去除双耳线索主观冗余的理论方法和有效工具,亟待新的理论方法指导。为此,本文展开了双耳线索特征分析与表示的研究工作,并引发了对信源输出信息有效表示的探索研究。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈