首页 理论教育 数字音频处理技术及标准

数字音频处理技术及标准

时间:2023-12-02 理论教育 版权反馈
【摘要】:数字化技术在音频的编辑、合成、效果处理、存储、传输和网络化,以及在价格等方面,有极大的优势。数字音频工作站是一种集中多种音频处理工具的、以计算机软硬件平台为主的数字音频制作系统,它可代替多轨录音机、调音台、效果器以及合成器等设备,是计算机技术和数字音频技术相结合的产物。

数字音频处理技术及标准

3.2.1 数字音频处理技术及标准

在数字媒体中,数字音频是携带信息的重要媒体。音频信号可分为两类:语音信号和非语音信号。非语音信号又可分为音乐和杂音。非语音信号的特点是不具有复杂的语音和语法信息,信息量低,识别简单。语音是语言载体。语言是人类社会特有的一种信息系统,是社会交流工具的符号。

随着数字新媒体技术与内容的发展,数字音频处理技术受到高度重视,其不仅作为单一媒体形式,同时也与其他媒体(如图文、视频等)构成的多媒体形式,对提升和丰富数字新媒体内容起着举足轻重的作用,并得到了广泛的应用。例如,影视作品的配音、配乐,游戏的音响效果,虚拟现实中的声音模拟,数字出版的有声输出,语音识别,声音操控,等等。

数字音频采用全新的概念和技术。对于模拟信号,从录音工作室到实况转播室,必须及时传送连续产生的幅度变化。链路上的每个电路和存储介质都要产生失真和噪声,这大量损失了模拟信号的质量。对于数字信号,先把原始的模拟信号转换为二进制数据,进行处理、存储和传送,回放时从二进制数据转换为模拟信号,只有转换过程损失质量。且数字电路的设计和制造成本低、可靠性高,用计算机进行数据处理能够产生更丰富、更有吸引力的效果。

1.数字音频的概念与文件格式

(1)音频的数字化

自然界和人类能感知的声音信息都是模拟的,因此把数字技术引入音频处理领域必须进行数字化过程来传送、存储和再现原始声音,即采用取样、量化和编码来对音频信号进行模/数(A/D)转换,经过数字系统的处理、存储和传送之后,又必须把这些数据通过再生电路进行数/模(D/A)转换,输出模拟音频,如图3-2所示。

img13

图3-2 音频的数字化组成框图

正常人耳听觉的可听频率范围约为20 Hz—20 kHz,根据不同的应用,应在取样频率与音质之间作相应在选择,常用的取样频率有8、11.02、16、22.05、37.8、44.1和48 kHz等。量化有线性量化、非线性量化和矢量量化等方法。采用量化方法不同,量化后的数据量也不同,可以说量化也是一种压缩数据的方法。把量化后的信号变换成代码的过程称为编码,其反过程称为解码。脉冲编码调制(PCM)是使用最为广泛的音频数字化方法。

数字化技术在音频的编辑、合成、效果处理、存储、传输和网络化,以及在价格等方面,有极大的优势。但是,在半导体和数字技术高速发展的今天,在专业音频领域,为了得到温暖的模拟音质,仍旧需要采用电子管器件和模拟技术,如电子管话筒、电子管前置放大器和压缩器,以及功率放大器等。为了与数字化音频系统配合使用,不少最新的音频专业电子管产品带有了数字接口。因此,数字化时代的音频技术应该是模拟音频技术与数字技术有机的结合,取长补短,用数字化技术去追求模拟的音质,用数字化手段来弥补传统音频设备的不足。比如,目前世上公认音质最好的调音台AMEK 9098和SSL 9000J系列等,就采用模拟信号流,数字化的控制系统,同时配置了模数转换接口。

随着计算机技术介入音频领域,音频工作站的发展已越来越成熟,人们已称它为虚拟录音棚。数字音频工作站是一种集中多种音频处理工具的、以计算机软硬件平台为主的数字音频制作系统,它可代替多轨录音机、调音台、效果器以及合成器等设备,是计算机技术和数字音频技术相结合的产物。虚拟音频制作系统中,包括了录音机、调音台、周边信号发生器、非线性编辑和数据库等。这种虚拟系统不仅有价格的优势,而且功能齐全,符合数字化、网络化发展的要求,其音频的质量可与一些高级传统音频设备抗衡,其价格与传统设备相比,则更有优势。近年来,虚拟音频制作系统对界面的外控操作上,正逐步向传统设备的操作概念发展,还与传统调音台有机结合。除Protools音频工作站已有了Pro Controls外控操作台外,索尼公司已将DMX-100调音台与Pyramix虚拟音频制作系统结合,DMX-100调音台的48路数字音频通道可通过MADI模数/数模转换器与Pyramix连接,Pyramix可通过DMX-100的24个电动马达推子实现外部自动化控制。另外SSL 9000J系列高级模拟数控台也可与Pyramix虚拟音频制作系统配合使用,音频信号可通过PCM/MADI转换器或DSD转换器与Pyramix连接,SSL 9000J系列调音台上的控制键钮和推子可通过索尼422协议与Pyramix连接。

数字时代音频的发展,从音质上讲,数字与模拟的追求是一致的;从数字技术在音频领域的应用来看,它仍然依托着传统的模拟设备而向前发展。

img14

图3-3 5.1声道三维音频系统示意图

(2)立体声与三维音频技术

人们在发声现场聆听到的声音除了具有强度感、声调感外,还有空间感,即人们不仅可以感觉到声音的大小和音调,还可以区别出各个音源的方位,以及通过声音的反射特性(混响和回声等)感受到现场的环境结构。人类对声音方向的判别是一个极为复杂的过程,不但涉及声波物理因素,且与人类心理因素有着很大的关系。

如果要再现声音的空间感,使听者能够识别现场中各个音源的实际方位,达到身临其境的感觉,必须使用特殊的拾音方式,并同时使用并列的多个音频记录、传输和再现通道(声道),这种音频系统称为立体声系统。最简单的立体声系统是双声道立体声系统,但只能再现一维的空间感,也称为线声源。如要再现二维或三维的立体声场,必须使用更多声道的系统,如DVD的声音重放可使用5.1声道系统,其摆放位置如图3-3所示。从图中可以看到,位于听者前方左右两边各有两个音箱(前左、前右)为主音箱,与双声道立体声系统的L、R音箱相同;后左、后右两个音箱悬挂于聆听者后上方,四个音箱形成围绕聆听者四周的空间声场,构成所谓的空间3D立体声;中置音箱(前中)的主要作用是提供背景声。一些更高级的系统配置,还要一只专门播放100 Hz超低音的音箱(俗称低音炮),至少需要6个音箱。7.1系统使用更多的音箱,而数字电影新标准更是扩展到16个声道。目前常见的有DVD播放系统(AC-3、DTS)、数字电视节目(AC-3、AAC)以及数字电影放映系统。

(3)计算机音乐

计算机音乐是信息技术与音乐艺术发展相结合的产物,属于交叉学科,其技术涉及音乐理论、音乐创作、MIDI制作技术、电子乐器演奏、计算机应用、电子学、音响学、数字录音技术等多个专业。计算机音乐是指通过计算机控制MIDI乐器完成音乐作品的创作与制作。从音乐制作的角度来看,它是以计算机为控制中心、以MIDI技术为控制语言、以音序器和合成器等电子乐器为音频终端的数字音频系统,也就是常说的计算机音乐制作系统。

最早的计算机音乐可以说是电子音乐,它是使用电子元件制造出来的。利用振荡电路产生不同波形,经过放大后形成声音,不同的波形变化产生不同的音色,所以它当时还停留在对声音的创造与变化的实验阶段。从作品的创作来看,使用计算机音乐制作系统,一名音乐制作人可以独立操作一套设备完成作曲、配器、演奏、录音合成的全过程,大大缩短了音乐创作的周期和成本花费。因此,它改变了传统的音乐创作方式,使更多的音乐作品得以最终实现。

(4)数字音频文件格式

数字音频文件格式用来在计算机或数字设备平台中存储和播放音频数据。每种不同扩展名的声音文件都对应着不同的文件格式。有的文件格式只能在一种平台中使用,而有的却能够在各种平台之间兼容。除了音频数据外,有些文件格式还包括控制信息和格式介绍(诸如取样率、比特字长、声道数量和压缩方式)。常用的文件格式有WAV、MP3、AIFF、RA、WMA、MIDI文件等。

WAV波形文件是Windows所使用的标准数字音频文件,符合RIFF文件规范,扩展名为.wav,记录了对实际声音进行取样的数据,广泛支持Windows平台及其应用程序。WAV格式支持系列波形编码和其他压缩算法,支持多种音频位数、取样频率和声道,是计算机上最为流行的声音文件格式,但其文件较大,多用于存储简短的声音片断。

CD是当今世界上音质最好的音频格式之一,以取样频率44.1 kHz,16位量化位数,存储立体声,可完全再生原始声音。CD光盘可以在CD唱机中播放,也能用计算机上的各种播放软件来重放。

MP1/MP2/MP3文件是MPEG音频文件格式,根据压缩质量和编码复杂程度的不同可分3层MPEG AudioLayer l/2/3,分别对应扩展名为.mp1、.mp2和.mp3这3种声音文件,其中.mp3使用最为广泛,特别是利用互联网进行传送。

AIFF(音频交换文件格式)首先应用在Macintosh平台及其应用程序中,扩展名为.aif,也可用于其他类型的计算机平台。其格式包括交织信道数量信息、取样率和原音频数据。(www.xing528.com)

VQF是YAMAHA公司购买NTT公司的技术开发出来的一种接近CD的音质的音频压缩格式。在相同的情况下压缩后的VQF文件量比MP3小30%—50%,更利于网上传送。但由于VQF是YAMAHA公司的专有格式,受到的支持相当有限,所以影响力不如MP3。

RA是RealNetworks公司开发的一种流式音频文件格式,主要有.ra(RealAudio)、.rm(RealMedia/RealAudioG2)和.rmx(RealAudio Secured)等3种,主要用于在低速率的广域网上实时传输音频信息。网络连接速率不同,客户端所获得的声音质量也不同。

WMA是微软的WindowsMediaAudio音频格式,扩展名为.wma,音质要强于MP3格式,压缩率可以达到1∶18。也支持流式音频技术,是RealAudio文件格式的强劲对手,适合在网络上在线播放,更方便的是Windows内置该播放器。

MIDI音频是计算机产生声音(特别是音乐)的一种方式,扩展名为.mid。MIDI文件记录的不是声音本身,而是将每个音符记录为数字。MIDI标准规定了各种音调的混音及发音,通过输出装置就可以将这些数字重新合成为音乐,比较节省空间。MIDI格式的主要限制是缺乏再生自然声音的能力,不能用于需要语音的场合。

2.数字音频压缩编码技术与标准

音频信号数字化之后所面临的一个问题是巨大的数据量,这为存储和传输带来了压力。例如,对于CD音质的数字音频,所用的采样频率为44.1 kHz,量化精度为16 bit;采用双声道立体声时,其数码率约为1.41Mbps;1秒的CD立体声信号需要约176.4 KB的存储空间。因此,为了降低传输或存储的费用,就必须对数字音频信号进行编码压缩。到目前为止,音频信号经压缩后的数码率降低到32—256 Kbps,语音低至8 Kbps以下,个别甚至到2 Kbps。

(1)音频压缩编码方法分类

对数字音频信息的压缩主要是依据音频信息自身的相关性以及人耳对音频信息的听觉冗余度。根据压缩后的音频能否完全重构出原始声音可以将音频压缩技术分为无损压缩及有损压缩两大类。音频数据压缩方法的分类,如图3-4所示。各种不同的压缩技术,其算法的复杂程度(包括时间复杂度和空间复杂度)、音频质量、算法压缩效率以及编解码延时等都有很大的不同。

img15

图3-4 音频编码压缩方法分类

音频信息在编码技术中通常分成两类来处理,分别是语音和音乐,各自采用的技术有差异。语音编码技术主要有三类:波形编码、参数编码以及混合编码,而音乐的编码技术主要有自适应变换编码(频域编码)、心理声学模型和统计编码等技术,其中,心理声学模型或称感知编码是目前的高质量音频标准音频压缩编码最有效的算法模型,在商用编码中得到了广泛应用,如MPEG Layer2、3和AAC标准及AC-3标准。现代声码器的一个重要的发展方向是把语音和音乐的编码融合起来。

(2)音频压缩编码标准

编码技术发展的一个重要方向就是综合现有的编码技术,制定统一的国际标准,使信息管理系统具有普遍的互操作性和兼容性

国际上对语音信号压缩编码标准多由ITU发表,相应的建议为G系列,如G.711、G.721、G.722、G.723、G.728等。在欧洲、北美、中国和日本的电话网络中通用的语音编码器是8位对数量化器(64 Kbps的比特率),采用的技术在1972年由CCITT(ITU-T的前身)标准化为G.711。在1983年,CCITT规定了在通用电话网络上应用的32 Kbps的语音编码标准G.721(标准修正为G.726)。目前,随着互联网网络及其应用的快速发展,ITU-T在2005年到2008年研究期内,将在主要负责研究和制定多媒体通信系统、终端标准的SG 16中,研究和制定可变速率的语音编码标准。有关数字蜂窝移动电话的语音编码标准在欧洲由TCH-HS负责制定,其为欧洲电信标准研究所(ETSI)的一部分。在北美,则由电信工业联盟(TIA)负责执行。此外,国际海事卫星协会(Inmarsat)是管理地球上同步通信卫星的组织,也制定了一系列的卫星电话应用标准。

在音频编码标准领域取得巨大成功的是国际标准组织和国际电工委员会(ISO/IEC)制定推荐的MPEG标准,即MPEG-1/-2/-4等。MPEG-1是世界上第一个高保真音频数据压缩标准,是针对最多两声道的音频而开发的,属于感知编码,规定了三个不同层次的编码方案。I、II层建立在MUSICAM(掩蔽模式通用子带集成编码和多路复用)编码算法基础之上,III层复杂度最高,综合了ASPEC(自适应频率感知熵)和OCF(频域最佳编码)算法,支持网络音乐传输(MP3文件)。

随着技术的不断进步,原有的立体声形式已不能满足观众对声音节目的欣赏要求,这使得具有更强定位能力和空间效果的三维音频编码技术得到蓬勃发展,其中最具代表的就是多声道环绕立体声编码技术。在已经存在的多声道音频编码标准中,杜比AC-3和MPEG AAC是两个最重要、应用最广泛的音频编码标准。AC-3编码系统是由杜比实验室开发的数字式多声道环绕立体声系统,美国的数字电视标准ATSC也选取了AC-3作为音频编码标准。而MPEG-2规定了两种音频压缩编码算法,一种称为MPEG-2后向兼容多声道音频编码标准(MPEG-2 BC);另一种称为高级音频编码标准(MPEG-2 AAC),与MPEG-1不兼容。MPEG-2 AAC标准是一种新的技术音频表述标准,支持每个声道在64 Kbps码率下相当高音质的多声道应用。它支持48个主声道,16个低频声道,16个多语言/解说词通道和16路数据流,也支持8—96 kHz范围内的取样频率。AAC增加了诸如对立体声的完美再现、比特率效果音扫描、多媒体控制、降噪平滑等MP3所不具备的特性,使得该压缩音频在解压后仍能完美地再现CD音质。欧洲的数字电视标准选取了MPEG-2 AAC作为音频压缩标准。

MPEG-4提供交互多媒体应用,具有高度的灵活性和可扩展性。与前两个音频标准不同,MPEG-4音频的设计并非面向单一应用,不再单纯追求高压缩比,而是力图尽量多地覆盖现存的音频应用并充分考虑到可扩展性需求。它把以前发展良好但相互分离的高质量音频编码、计算机音乐及合成语音等第一次合并在一起,在诸多领域内给予高度的灵活性。增加了许多新的关于合成内容及场景描述等领域的内容,增加了诸如可分级性、音调变化、可编辑性及延迟等新功能。MPEG-4包括三种音频:传统的音频编码标准(自然音频)、新颖的结构音频,以及自然和合成混合在一起的合成/自然混合编码(SNHC)。

AVS(先进音视频编码标准)是中国具有自主知识产权的数字音视频标准,包括系统、视频、音频等三个主要标准和一致性测试等支撑标准。作为一个开放标准,旨在为数字音视频设备与系统提供高效经济的编解码技术,服务于高分辨率数字广播、高密度激光数字存储媒体、无线宽带多媒体通信、数字电视等重大信息产业应用。AVS音频组主要的目标是制定具有国际先进水平的中国音频标准,使AVS音频的综合技术指标基本达到或超过MPEG AAC编码技术。

3.数字语音处理与语音识别技术

语音是人类交流和交换信息中最便捷的工具和最重要的媒体,因此,在数字新媒体内容与应用中有着极其重要的位置。语音领域的数字音频处理技术主要包括三方面的内容,即语音合成、语音识别和语音增强。特别是语音识别技术为人机交互提供了一个更友好的界面。

语音合成最基本的目的是让机器模仿人类的语言发音来传送信息。数字语音合成方法主要有波形编码语音合成、参数式分析语音合成和规则语音合成技术。文—语转换系统是语音合成技术的典型应用。

语音增强的目的就是从带噪声信号中提取尽可能纯净的原始语音。然而,由于干扰通常是随机的,从带噪声语音中提取完全纯净的语音几乎是不可能的。因此,语音增强主要是两方面的目的:一是改进语音质量,消除背景噪声,使听者乐于接收不觉疲劳;二是提高语音可懂度。这两方面目的往往不可兼得。语音增强不但与语音信号数字处理有关,且涉及人的听觉感知和语音学。

语音识别技术是集声学、语音学、语言学、计算机、信息处理人工智能等诸领域的一项综合技术,应用需求十分广阔,在近半个多世纪以来一直是人们研究的热点,其研究成果已广泛应用于数字新媒体的各个领域。

语音识别是一个模式识别匹配的过程,即从经预处理后的语音波形中提取语音信号特征,特征提取是模式识别的关键,然后与经过训练建立的模式库进行比对(模式匹配)按照相应的准则得出最佳的识别输出。

语音识别系统的分类标准很多。若按识别的词汇量多少,可以分为小、中、大词汇量三种,词表越大,识别越困难。按发音人语音识别系统可分为特定人、限定人和非特定人语音识别,非特定人的语音认识最困难。按照语音输入方式,语音识别的研究集中在对孤立词、连接词和连续音的识别,语音识别的目标是让计算机能理解自然语言,这是语音识别中最困难的课题,如听写机、翻译机、智能计算机中人机对话都需要连续语音识别。语音识别最终的目标是要实现大词汇量、非特定人和连续语音的识别,这样的系统才有可能完全听懂并理解人类的自然语言。对说话人的声纹进行识别,称为说话人识别。这是研究如何根据语言来辨别说话人的身份、确定说话人的姓名等。还可以从语音识别系统的实现细节的其他方面对语音识别系统进行分类,比如基于模板匹配的语音识别系统、基于概率统计模型的识别系统、基于人工神经网络的语音识别系统等;也可以根据语音识别系统所完成的任务来分,如语音命令系统、语音听写机系统、关键词确认系统等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈