首页 理论教育 多媒体音频处理技术在多媒体计算机技术中的应用

多媒体音频处理技术在多媒体计算机技术中的应用

时间:2023-10-20 理论教育 版权反馈
【摘要】:图4-7 声音波形描述一个随时间连续变化的模拟信号主要有三个基本要素,即基准线、周期、振幅。·音强即声音音量,它与声波的振动幅度有关,反映了声音的大小和强弱,振幅大则音量大。·振幅和周期均为常数的声音称为纯音,但语音、乐声、自然界中的大部分声音一般都不是纯声,大多是由不同频率和不同振幅的声波组合起来的一种复音。

多媒体音频处理技术在多媒体计算机技术中的应用

声音是人类的祖先最早用来表达思想感情和传送信息的媒体,也是多媒体技术的重要特征之一。PC微机自问世以来虽带有扬声器,但它只能实现一些简单的发声功能,且产生的声音十分单调,自从配备了光盘驱动器CD-ROM、声音卡等硬件以及相应的软件,才使得计算机真正具备了声音处理功能,实现了复杂的声音录放和合成,如音乐、解说和一些特殊的混合音效果等,使计算机的应用更趋完美。

计算机技术与图像技术、音响技术相结合,为计算机的应用开辟了一个图文并茂与声像结合的新世界。当人们进入多媒体领域,无论出于什么应用目的,为了使应用程序能充满活力,总希望在文本中配上有声的解说词,伴有相应的背景音乐或通过播放音乐来烘托气氛强调主题,并配有表示特殊情景的音响效果等。所有这些,都必须要用到声音,要涉及到音频处理技术,因此只有合理的使用声音,才能使多媒体应用系统变得更加生动逼真,丰富多彩。

§4.2.1 数字音频技术

1.声音的基本概念

(1)什么是声音

简单的来说,空气分子的振动在人的耳朵中所感觉到的就是声音。例如,每当我们说话、放音时,实际上是发出了一种声波,声波一旦进入人耳,就引起振动,耳膜振动导致产生声音的感觉。通常来说,声音是一种模拟振动波,是用连续波形表示的模拟信息。

声音的传播携带了某种信息,因此声音也是人类传播信息的一种主要媒体。人们通过声音,可以传递语言、交流思想或获得信息,通过声音可以欣赏美妙的音乐,也可通过声音来感受自然界的丰富多彩。一般的说,声音主要有如下几种类型:

①波形声音

从声音是振动波的角度而言,波形声音实际上已经包含了所有的声音形式,它可以成为理解声音的最一般形态。

②语音

人的说话声不仅是一种波形声音,更重要的是它还包含有丰富的语言的内涵,它可以经过抽象,提取其特定的成分,达到对其意义的理解,所以常把它作为一种特殊的媒体。

③音乐

人们所熟悉的音乐与语音相比形式更为规范一些,事实上音乐就是符号化了的声音,就是人们常说的乐曲,乐谱即是乐曲的规范表达形式。

声音是一个时间连续的信号,在其内部没有明显的间隔和结构特征可以用来帮助控制声音信号,它与图像信号不同的是,声音里不存在“静态帧”的概念,在播放视频图像时,得到了某一个画面,如果播放过程出现中断,则可一直保持显示这个静态画面,若时间不太长,观察者是根本注意不到的。而在声音里,若出现停顿,就会产生信息的突变甚至丢失,同时还可能出现声音和视频图像的不同步。这些都是声音信号比视频信号的频带宽度低数百倍所不能补偿的。声音信号有它自已的特点和处理方法。

(2)声音信号的基本特点

通常,声音是用一种模拟(连续)的波形来表示的,该波形描述振动波的形状,如图4-7所示。

图4-7 声音波形

描述一个随时间连续变化的模拟信号主要有三个基本要素,即基准线、周期、振幅。它们是测量一个模拟信号的基本物理量。

①基准线:提供一个测量模拟信号的基准点,所有模拟信号的测量值都是相对于基准点而言的。

②周期:是两个相邻信号波峰之间的时间间隔,而频率表示每秒种内波峰的数目或周期数量(单位Hz),它们之间互为倒数,即可表示为周期=1/频率,每秒一周期等于1Hz(1Hz=1周期/秒),每秒钟1000周期等于频i率为1kHz。

③振幅:波形顶峰(或低点)与基线的距离,表示了信号的强弱,振幅越大,则其信号强度也越大。

声音是模拟信号的一种,从人耳听觉的角度看,声音的质量特性主要体现在音调,音强,音色几个方面。

·音调与声音的频率有关,频率快则声音尖高,频率慢则声音显得低沉,就是人们所说的调子高调子低。而且声音的质量与其频率范围紧密相关,一般来说,频率范围越宽,声音的质量也就越高,对语音来说,常用可懂度,清晰度,自然度来衡量,对音乐来说,保真度,空间感,音响效果都是衡量它的指标。

声音按频率可化分为:次声(频率小于20Hz)、可听声(频率在20Hz与20kHz之间)、超声(频率大于20kHz)。

·音强即声音音量(又称为响度),它与声波的振动幅度有关,反映了声音的大小和强弱,振幅大则音量大。

·振幅和周期均为常数的声音称为纯音,但语音、乐声、自然界中的大部分声音一般都不是纯声,大多是由不同频率和不同振幅的声波组合起来的一种复音。

在复音中的最低频率称为该复音的基频(基音),是决定声音音调的基本因素,它通常为常数。复音中其它频率称之为谐音(泛音),基频和谐音组合起来,决定了特定声音的音色(音质),才有可能对不同的声音特征加以辨认。

2.音频信息的数字化

声音是模拟信号,只的数字化以后,声音信息才能象文字、图形信息那样在计算机中进行存储、检索、编辑、传输和各种处理。

(1)声音数字化的简单过程

计算机在获取声音信号时,要通过模数转换对声音进行采样,将模拟音频信号转换成数字音频信号,才能进行存储、处理等。因此必须对音频信号数字化。声音信息的数字化过程如图4-8所示。

图4-8 声音信息的数字化过程

①采样

为了进行声音信号的转换,就必须从固定的时间间隔对当前的声音波形幅度进行采样测量,此乃声音信息数字化的第一步。采样后得到的样本,其数值仍然是模拟量

②量化

声音信息数字化的第二步处理是量化,即把每一个样本值从模拟量转换成为数字量,该数字量用n个二进制数来表示。n越大,量化精度越高,反之量化降低。不论量化精度有多高量化过程必定会引入误差,由于量化误差的存在,当数字化的声音还原成模拟量的波形输出时必然会产生一定的噪声,这称为量化噪声。但是只要选择适当的量化精度,量化噪声就可以控制在人耳感觉不出的范围内。

③编码

计算机中所有的信息都是以二进制形式进行存储、传输和处理的,经过采样和量化后所得到的数字化声音信息还必须以二进制形式并按照一定的数据格式进行表示,这个过程称为编码,在不进行任何信息压缩时,每个样本值可以用8bit(一个字节)或16bit(两个字节)数来表示,若要进行信息压缩,则编码过程要复杂得多。

音频信号数字化不仅仅是因为计算机只能处理离散的数字信号,更重要的是,数字化音频信号具有极好的保真度,抗干扰能力强。这使得传统的模拟音响系统正逐渐被数字音响系统取代。

(2)数字音频信息的质量与存储量

可用三个因素来衡量一个数字声音波形的质量,即采样频率、量化位数、声道数。

①采样频率:确定时间间隔内所采集的样本数称为采样频率。

采样过程是按照同一频率将波形分成尺寸相同的部分,每一个部分取一个模拟声音值作为采样值。采样频率越高,即时间间隔分划越小,单位时间内获取的声音样本数就越多,数字化后的音频信号的音质就越高,但同时所需要的存储量也就越大。

标准的采样频率如表4-5所示。

②量化位数(采样精度):表示采样过程中取得的采样值的二进制位数称为量化位数(比特数)。

量化位数的多少决定了采样值的精度。如4位字长的量化可表示16个等级的采样值,即采样的样本值空间只有16个振幅值,最小样本值是最大样本值的1/16,8位字长的量化可表示256个等级的采样值,采样的样本值空间含有256个振幅值,最小样本值是最大样本值的1/256,由此可见,量化位数表示了样本振幅空间的等分数。对一个采样而言,使用的比特数越多,则得到的数字波形与原来的模拟波形越接近,同时需存储的信息量也越多,但数字音频的音质也就越好。表4-6表示不同采样频率和量化位数所耗用的磁盘空间。

表4-5 标准的采样频率

表 4-6

③声道数:是指一次采样所记录产生的声音波形的个数。

如果是单声道,则只产生一个声音波形,双声道产生二个声音波形(双声道立体声),立体声不仅音色和音质好,而且更能反映人们的听觉效果。但随着声道数的增加,将使存储容量成倍增长。计算公式为:

存储量(字节/秒)=(采样频率×每次采样位数×声道数)/8

(3)采样频率、量化位数、声道数对音质和磁盘容量的影响

采样频率、量化位数、声道数对声音的音质和占用的磁盘容量起着决定性的影响,当然还与一些硬件条件有关。通常要求声音音质要好且占有的存储空间又少,这是相互矛盾的。因此,对声音进行采样时,必须在高音质和尽可能减少磁盘空间占有量之间取得平衡。显然,用16位字长和44.1kHz采样频率可取得较高的音质,这也是目前的采样方法可达到的最优音质,该格式特别适合于对发声要求严格的语言应用或音乐应用环境,所花代价是占用的存储空间大;另一个极端是8位字长和采样频率为11.025kHz所产生的声音,其音质、占用的磁盘空间最小,但得到的声音其音质较差,这只能适用于要求不高的声音场合,对大多数实际应用是不合适的。一般情况下,用22.05kHz的采样频率和8位的字长即可达到通用音质,以及中等的磁盘空间消耗。

§4.2.2数字音频信息的编码

声音信号的编码必须考虑多方面的因素,如不同声音信号的特点、系统传输速率及存储容量的限制、声音恢复的质量要求、系统的实现代价和声音的应用场合等。

1.音频信号处理过程

在多媒体音频信号处理中,声音信号经过采样后,被编码成一定字长的二进制数字序列,以这种形式在计算机内传输和存储,经解码器可将二进制编码恢复成原来的声音信号播放。如图4-9所示。

图4-9 音频信号处理

音频数据压缩编码问题与图像数据压缩问题有着很大不同。图像数据表达的信息是二维空间的,它的变化规律难以把握,目前还缺乏好的可广泛应用的模型。音频数据表达的是一维的随时间变化函数,特别是语音的研究已有良好的声道模型,从这一点看声音数据的压缩显得容易些。另外数字图像的研究历史不长,其真正的实际应用还没有完全形成。而数字声音已有一定程度的普及,如激光唱盘和数字电话等,人们对其就有了更高层次的要求,做到低成本高性能。再者声音信号的处理过程是不能停止的,如果出现停止,将立即产生一个突变的信息丢失,通常表现为音量的失控,同时可能出现音频和视频的不同步。

音频信号能够被压缩编码,一是因为声音信号中存在着数据的冗余,再就是可利用人的听觉特性来降低编码率,还可利用声音的频率特征进行混合编码。

2.音频编码方法分类

数字化声音信息的编码方法在数字通信中有多种,以下是这些方法的分类。

波形编码的做法是先对声音波形进行采样,然后再进行量化、编码。为了减少声音信息的数据量,往往还采取相应的压缩措施。多媒体计算机中的波形声音信息大多采用PCM和ADPCM编码方法。声音编码的另一种做法是参数编码,它是从声音信号中提取特征参数,然后在声音播放(还原)时根据这些参数重建声音信号。这类方法实现的编码一般叫做声码器(Vcoder),它的压缩率很高,但重建的声音质量很难满足高标准的要求。

3.常用的音频编码方法

对于音频信号编码,用得多的是波形编码方法。波形编码方法适应要求重构的声音信号尽可能接近原来的采样声音的情况,它编码的对象是声音的波形,算法简单,易于实现,且对声音质量的恢复能保持原有声音的特点,因而被广泛地采用。但波形编码方法易受到量化噪声的干扰,进一步降低编码比特数(编码率)也比较困难。较常用的三种波形编码方法如下:

(1)脉冲编码调制(PCM),简称脉码调制,实际是直接对声音信号作A/D转换。由于这种编码方法简单,因此,它不需要复杂的信号处理技术就可以实现瞬时的数据压缩与还原,且信噪比高,因此激光唱盘记录声音的红皮书标准(CD-DA)就采用这种方法。多媒体计算机中的声音卡大都具有PCM编码/解码的功能。

PCM编码和解码的原理如图4-10所示。

图4-10 PCM 编码/解码原理

只要采样频率足够高,量化位数足够多,就能解码后恢复的声音信号有很好的质量。但这种对声音信号直接量化的方法需要很高的传输速率,且数据量很大。例如,激光唱盘CD-DA的声音数据,采样频率是44.1kHz,量化位数为16位,双通道立体声,则600M字节的光盘仅能在放1个小时的数据,编码速率达1.44M位/秒。

(2)差分脉冲编码调制(DPCM),为了降低采用PCM编码的数字化声音信息的数据量,一种改进的方法是差分DPCM(Differential Pulse Modulation)编码。它主要是利用信号的相关性对未来的样本进行预测,然后把样本值与预测值的“差”进行量化。由于“差”的幅度值远小于样本值,因此,所需要的量化电平就可以减少,从而使编码数据得以压缩。即通过只传输声音预测值和样本值的差值来降低音频数据的编码率。显然表示差值所需的比特数要低于表示原样本值所需的比特数。

(3)自适应差分编码调制(ADPCM),是在DPCM方法上的进一步改进,通过调整量化步长,对不同频段所设置的量化字长不同,使数据得到进一步的压缩。

在实际使用中,输入的声音信号远非平稳的,此时DPCM的信噪比大大下降。解决这个问题的方法是使DPCM中加入自适应的方法,使之构成自适应差分脉码调制(ADPCM)的方案有多种,一种是带有固定量化器的自适应预测器,另一种是带有自适应量化器的固定预测器,第三种是带有自适应量化器的自适应预测器。

由于ADPCM压缩方案编码方案信噪比高,数据压缩倍率可达2~5倍,因此,多媒体计算机所获得的数字化声音信息大都采用此种压缩方法。

三种方法的差别在于同样采样频率和采样精度的情况下,数宇化音频数据量不同,前者方法比后者要多。波形编码方法的编码率较其它类型的音频编码方法要高一些,但可以获得好的音质。随着相关处理技术的发展,如宽带通讯网络和大容量存储器的出现,它的实际应用能力将不断提高。

声音信号的另一种编码方法是模型参数编码方法。它通过建立起声音信号的产生模型(如语音发生模型),将声音信号用模型参数来表示,再对参数进行编码。这种方法的声音信号解码后,与原来的声音采样值不存在固定的对应关系,是通过合成各种声音元码来产生声音,因而合成的声音质量只能根椐实际效果,主观加以评定。(www.xing528.com)

§4.2.3 音乐的合成——MIDI

1.MIDI概念

在多媒体计算机中,生成音乐或声响效果的途径除了数字波形声音方法之外,更常用的方法是MIDI。MIDI是英文Musical Instrument Digital Interface的缩写,可直译为音乐乐器数字接口。概括地说,MIDI是一种技术规范,它是为把电子音乐设备连到计算机所需的电缆和端口定义的一种标准,以及控制计算机和具有MIDI接口的设备之间进行信息交换的一整套规则,包括电子乐器之间传送数据的通信协议。它于1988年正式成为数字式音乐的一个国际标准,使得不同厂家生产的电子音乐合成器可以互相发送和接收彼此的音乐数据。

把一个带有MIDI接口的设备连到计算机上,就可以记录该设备产生的声音,实际上是一系列的弹奏指令。使用专门的软件,就可以把多种乐器产生的声音进行组合编辑,产生一段乐章。其播放的效果类似于管弦乐队,也可把MIDI音乐用作为伴随多媒体的背景音乐。因此,通俗地讲,MIDI就是实现把电子设备与计算机系统连在一起的接口。

MIDI声音与数字化波形声音完全不同,它不是把音乐的波形进行采样、量化和编码,而是将电子音乐器键盘的弹奏过程记录下来。例如按了哪一个键,力有多大,时间有多长等,这实际上就是乐谱的一种数字式描述,这种描述称之为MIDI消息(MIDI Message)。当需要再次播放这支曲时,只需要从相应的MIDI文件中读出MIDI消息,生成所需要的乐器声音波形,经放大后再由扬声器输出。多媒体计算机中MIDI声音的处理过程,如图4-11所示。

通过MIDI接口记录的MIDI信息,实际上是一段音乐的描述。当一套MIDI信息通过一个音乐合成器芯片播放时,该芯片的合成器解释这些符号并产生音乐。因此,要能播放MIDI信息;就必须使用带有合成器的声音卡。

图4-11 MIDI声音处理过程

2.MIDI声音的特点

与波形与波形声音信息相比,MIDI声音有许多优点,如它对存储量的需求比波形声音小得多。半小时的立体声音乐使用CD-DA格式的数字声音存储时,约需要300MB的存储量,而用MIDI声音记录时,则只要约200KB,两者相差1000多倍,就是与ADPCM彩压缩编码的波形声音信息相比,MIDI声音的数据量也要小两个数量级以上。

使用MIDI声音的另一个优点表现在配音方面。利用MIDI技术,当多媒体计算机播放(解说词)时,可以同时在Windows下播放用MIDI文件记录下来的音乐,这就为解说词实现了配音,而两个波形声音文件是无法同时播放的。

与波形声音相比,MIDI声音在编辑修改方面也是十分方便、灵活的。例如可以任意个曲子的速度、音调,也可以换不同的乐器等。

MIDI产生的方法与声音波形采样输入的方法有很大不同。它不是将模拟信号进行数字编码,而是把MIDI音乐设备上产生的每个活动记录下来。如在键盘上演奏并录音时,MIDI文件仅仅记录所按的键,力度及时间长度等,形成MIDI文件,这样当这些数据传到MIDI合成器时,就可以完全重现原来的演奏。

由于MIDI文件并不记录任何声音,它只是一系列指令而不是波形数据的集合。

3.MIDI设备配置

图4-12为MIDI的硬件接口方法。

图4-12 MIDI硬件接口原理图

(1)MIDI端口

(2)MIDI文件

MIDI文件是记录存储M 信息的标准文件格式,一个MIDI文件包括间符、定时、通IDI道选择指示信息。音符包括有关键字(乐符的键位)、通道号、音高(低、中、高音)、音长(节拍)、音量、速度、乐器的配置等。

(3)音序器(sequencer)

用于记录、编辑、播放MIDI文件。音序器有以硬件形式提供的,是一种复杂的电子设备,价格昂贵。现在,硬件音序器大多被软件音序器取代。

音序器可捕捉MIDI消息,并将其存入MIDI文件,还可进行编辑。MIDI消息既可送回原来设备直接播放;也可送往合成器,合成器将消息转换成某种乐器的声音,合成音色及持续时间,送往扬声器播出。

MIDI的音序器它还可帮助作曲家通过MIDI文件,还可进行编辑。通常,可以使用一个电子键盘乐器和MIDI音序器来逐步完成作品旋律、低音、和弦及打击乐器的配乐,并反复演奏、录制、播放和编辑,再用音序器录制每个音轨并指定相应的通道,就可生成乐谱。

(4)合成器

合成器是一种电子设备,大多情况装在声音卡上。合成器把以数字形式表示的声音转换回原来的模拟信号波形,再送回嗽叭,产生声音效果。当然,亦可不经合成器,直接送原MIDI设备播放,但合成声音的播放效果将要丰富得多。合成器的特有能力体现在可用一种乐器播放另一种乐器和声音,并且几种不同乐器的声音经合成后可同时播放。

MIDI文件经音序器编辑后,就可通过音乐合成器演奏,合成器解释MIDI文件中的指令符号,通过扬声器播放出来。因此,一段MIDI和录放需要音序器与合成器的支持。

MIDI文件常包含几种乐器的组合音,各乐器有自己和波形,波形经各自通道送到合成器,合成器按音色和音调的要求合成,组合各波形生成最终的声音组合。合成器的通道就是一个独立的信息传输路线,每条MIDI电缆最多可提供16个通道,每个通道相当一个逻辑合成器,可以充当一种乐器。

合成器可按它们能够支持的乐器数或者能出的音符数区分,复调或多音就是指合成器能同时出的音符(声音路数或道数)。目前的两类常用的合成器是基础(base—level)级合成器和扩展级(extended)合成器,基础级合成器支持三种乐器和6音符复调,扩展级合成器9种乐器和16音符复调,两者的区别仅仅在于可演的器和音符的数量。

(5)(MIDI)盘

MIDI键盘是用于MIDI音乐乐曲演奏创作的,MIDI键本身并不发出声音,当角动键盘上的按键时,它就发出按键信息,所产生的仅仅是MIDI音乐消息,从而由音序器录制生成MI-DI文件。这些数据可以进一步加工,也可以和其它的MIDI数据合并,经编辑后的MIDI文件就可送合成器播放。

MIDI声音可服务于许多的多媒体应用中。MIDI声音主要可从三种途径获取。

一种是购买现成的MIDI作品,在市场上有各种各样的内容丰富的MIDI作品库,包括了多种音响效果和音乐作品,用户购买到需要的MIDI作品,应用于自己的多媒体应用程序中。

再就是使用MIDI录音棚来制作。用户可提出自己对声音或音响效果的具体要求,然后由电子录音棚中完成制作。这样,可满意地获得需要的MIDI作品。

在有条件的情况下,也可以自行录制MIDI声音,这时就要求做一些准备工作。首先需要一些专用的工具,如MIDI电子键盘、合成器、音乐器等软硬件设备,同时,需具备MII)1方面的知识,并懂得一些乐理,以便有效地建立一套合适的MIDI系统。用MIDI键盘来产生音乐的MIDI命令,再由音序器生成MIDI文件。在录制好一段MIDI声音文件后,就可用音序器对这段MIDI声音编辑和修改。

§4.2.4 多媒体声音卡的功能及其对多媒体环境的支持

1.声音卡的功能部件

通常,声音卡包含的功能部件为:

(1)模/数(AD)转换器 声音原本以模拟波形的形式出现,必须转换成数字形式才能在计算机中使用。为实现这种转换,声音卡含有把模拟信号转换成数字信号的模/数(A/D)转换器,使数据可存入硬盘或软盘中。

(2)数/模(D/A)转换器为了把声音输出信号送给喇叭或其它设备播出,声音卡必须使用数/模(D/A)转换器,把计算机中以数字形式表示的声音转变成模拟信号播出。

(3)立体声输入端口和麦克风端口,允许声音卡记录话音和音乐。如可把立体声设备(CD播放机、电视机、录像机和激光唱机等低幅音频输出设备)连入到立体声输入端口,就可对各种声源的音频输入采样。

例如把麦克风接到麦克风端口,则可记录从麦克风输入的话音或音乐等,一个麦克风一次只能对一个声源采样。

(4)立体声输出端口(数字声波文件的播放),把声音卡的声音输出信号送到喇叭或耳机或立体声放大器(有时可用机内喇叭,如Windows 3.1提供了此功能,但喇叭的效果较差),就可对已录制好的数宇声波文件播放。

(5)MIDI接口(Musical Instrument Digital Interface),即电子乐器的计算机接口。电子乐器接到MIDI接口后,可记录电子乐器生成的音乐,以后可编辑它们,或与其它乐器的声音进行混合。产生类似管弦乐队奏出的音乐。

(6)CD-ROM驱动器接口。可把CD-ROM驱动器接到这个端口,播放CD-ROM中的声音记录。多媒体计算机系统中的CD-ROM驱动器一般都可以直接播放CD唱片。

(7)具有能支持多种乐器(4~9种)合成的音乐合成器,它是产生多媒体计算机音乐的重要功能部件。

(8)高档声音卡上一般有数字信号处理功能(DSP),用来处理声音信号的合成,产生特殊的声音效果,并对音频文件压缩和解压缩等。可归纳为表4-7。

表4-7 声音卡基本功能部件

2.声音卡对多媒体环境的支持

声卡的主要功能是将声音数字化采样保存,并可将数字化声音转为模拟信号播放,此外,通常声卡还具有MIDI及音频合成功能。

声音卡有许多种类,也有高低档之分,它们的功能不完全相同,在声音卡及其相应软件的支持下,计算机将大都具有下述功能:

(1)录制、编辑和回放数据音波文件

声音卡可将来自话筒、收录机、激光唱片(CD-DA)等的声源采样,以数字声音文件的形式存。它们可由软件进行回收,编辑或混合,也插入到其它的用程序中。如Creativelabs (创新公司)用VOC作为数声音文件扩展名,Window以WAV作为数字声音文件扩展。两者之间可以互相转换。

声音源可以是话筒、收录音机或者激光盘,在声音处理软件控制下,经过音频卡采样,数字化成数字语音文件,并可以播放这些文件或对它们进行编辑等操作。不同音频卡和软件驱动程序制的语音文件格式可能不同,但通常可以相互转换,Windows3.1下的Sound Recorder程序能把不同声音源的语音数字化后合成为.WAV文件,然后可以对.WAV文件进行简单的剪裁、粘贴,两个文件混合起来,能加入回音,以及对音量、回放速度和倒放等进行控制。.WAV文件通过OLE(Object Linkingand Embeddig)加入到其它Windows应用程序中。

(2)控制各种声源的音量,并把它们混合到一起,混合后再数字化,生成多种声的融合叠加,其结果是各种声音可同时播放(混音),具有丰富的声音效果。音频卡驱动程序中通常有MIXER程序,用来控制音频卡上的混合器。

(3)在记录和回放数字声音文件时进行压缩和解压缩

在记录和回放数字声音文件时,进行压缩和解压缩的立体声数字声音文件,每分钟可占多达10MB的存储空间,即使是单声道,也不会少于1MB。因此,声音数据的实时压缩和解压缩是多媒体研究中的一个重要问题,它与图像压缩技术一样也是一 发展的科学,为了节省存储声音文件的磁盘空间,需对数字声音文件进行压缩。

例如TEXASINSTRUMENTS公司的MWAVE音频卡通过卡上的数字处理器(DSP)芯片可获得4∶1的压缩比。

(4)语音合成

在适当的软件支持下,通过采用语音合成技术,能让计算机朗读文本,一部分声音卡可朗读英文文本。因为它是合成的,听起来声音不太自然流畅,通常用来检查文章中的语法和句法错误。

通过语音识别功能,可让用户通过说话指挥计算机工作。这一功能对软、硬件要求都更高。

(5)具有MIDI接口(乐器数字接口)

MIDI使计算机进入了实用阶段,可做到在计算机上i曲,再用声音卡来控制电子乐器播放乐曲、试听。

计算机可以控制多台带MIDI接口的电子乐器M1II)I 乐存放成.MID文件比以.WAV音格式存放的文件更节省空间,.MID文件也能被编辑和回放(例如用Windows下的MEDIA、PLAYER程序),甚至可在计算机上作曲,通过喇叭播放或去控制电子乐器。

声音卡中比较有影响的是声卡Sound Blaster 卡系列。大多声音卡都与Sound Blaster兼容。要用到更多计算机上,最基本的是要达到其标准的全面兼容,以使标准的多媒体不用修改就可以使用声音卡的声音处理功能,并有一个较高的软硬件开发平台。

目前市场上的声音卡种类很多,性能上有所差别。在选购产品时,除价格、功能和质量是几个重要因数外,还需注意产品的兼容性。标准的兼容性一直是计算机产品的重要特性。例如, Adlib公司为声音卡建立了一种标准,几乎所有的游戏软件都支持这种标准。声霸卡也了声音卡的一种不成文的标准。

3.声音卡的工作原理

声音卡的原理图413所示。

输入的音频信号经模数转换可以形成WAVE文件存入硬盘,麦克风信号通常要经过放大。采样的频率及量化的精度(位数)可以设置,通常从11kHz到44kHz。数字信号经数模转换送入合成放大部件,即可输出模拟音频播放。采样时音频可以压缩,压缩倍数可以根据实际情况选择。

图4-13 声音卡原理框图

对于音频信号的数字化方法而言,一般采用下述几种数字化方法:PCM——脉冲编码调制,DPCM——差分脉冲编码调制和ADPCM——自适应差分编码调制。这三种方法的差别在于在同样采样精度和采样频率的情况下,数字化音频数据量不断减少。一般的声音卡仅支持PCM方式,Windows目前的WAVE文件也仅支持此方式。对于采样频率而言,有11k Hz语音质量要求的效果,22.05kHz——音乐效果,44.1kHz——高保真音乐效果,一般声音卡均支持上述三种采样频率。单声道/立体声采样能力为一个可选项,一般均具有上述采样能力,采样精度与采样频率一样是衡量采样质量的准则,一般有8bits/12bits/16bits三种,精度越高,采样质量越高。

经过数字化的音频信号,一般要存储到电脑的内存或硬盘上,以便回放和处理用。

高档声音卡上一般装有数字信号处理装置(DPS),可以使用它压缩/解压缩数字化的声频信号,使用数字信号处理方法处理声音信息,特殊声音效果处理,语音的识别等。由于DSP是专用于数字信号处理的,可以减轻电脑上CPU的压力。

一般声音卡上均有MIDI接口,使用MIDI合成器可以生成MIDI文件,也可以输出MIDI合成音频送入合成放大部件输出模拟信号播放。MIDI规定了电子乐器间数据传输的协议,声卡的MIDI接口可以使用连接MIDI设备,这样可以进行计算机与电子乐器之间的数据交换。一方面电子乐器的演奏可以送入计算机保存,另一方面计算机的内的MIDI文件可以送入电子乐器演奏。

通常声音卡有CD-ROM音频输入及CD-ROM控制器。CD-ROM的输入可以直接与声卡信号合成放大播放。CD-ROM控制器可以直接将CD-ROM与声音卡信号合成放大播放。CD-ROM控制器可以直接与CD-ROM相连,而不需要单独的CD-ROM控制卡。游戏杆接口用来外接游戏杆。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈