首页 理论教育 智能语音处理:从语音识别到语音合成

智能语音处理:从语音识别到语音合成

时间:2023-07-02 理论教育 版权反馈
【摘要】:智能语音处理主要体现在语音识别、语音增强和语音合成等几个主要方面。谷歌2016年推出的基于深度学习的WaveNet系统,直接用音频信号的原始波形建模,逐点地进行处理,合成出了接近人声的自然语音,并且还能模仿其他人的声音和生成音乐。谷歌2017年推出的基于注意力机制的编码解码模型Tacotron也在语音合成方面取得了很好的效果,在速度上优于逐点自回归的WaveNet模型,并且能够实现由文本到语音的直接合成。

智能语音处理:从语音识别到语音合成

智能语音处理(intelligent speech processing)主要体现在语音识别(voice recognition)、语音增强(speech enhancement)和语音合成(speech synthesis)等几个主要方面。

语音识别通常又分为声纹识别(voiceprint recognition)和说话内容识别(speech content recognition)两类。两者的原理和实现方法都相似,只是提取的参数和训练的目标不同。语音信号通常是以波形编码的方式存储和传输的,在进行识别之前,需要进行预处理和特征提取两个步骤。预处理一般是采用滤波之类的方法来对语音信号进行提升和增强。传统的特征提取大多是将语音信号看作是短时平稳信号,提取短时间段内的语音特征参数,比如能量、过零率、共振峰参数、线性预测系数、梅尔频率倒谱系数等。然后再用聚类(clustering)或者隐马尔可夫模型等模式识别的方法和模板库中的数据进行比对输出识别结果。传统的经典模型之一就是HMM-GMM模型。

近年来,深度学习技术被应用于语音识别领域大大提高了语音识别的正确率,长短时记忆(LSTM,long short-term memory)模型的循环神经网络因为可以记忆长时信息,能较好地处理语音识别中需要借助上下文的信息,成为目前语音识别中应用最广泛的一种结构。

在声纹识别方面,研究多集中在基于深度学习的说话人信息方面的特征提取上。在深度神经网络的基础上,时延神经网络(TDNN,time delay neural network)被提出。各种模型结构都逐渐成熟,不过也暴露出易受攻击等问题。(www.xing528.com)

语音增强主要是指尽可能地去除混杂在语音信号中的各种噪声干扰,提高语音的清晰度和可懂度,提升音质和人耳的听觉感受。传统的方法有卡尔曼滤波(Kalman filter)法、自适应滤波(adaptive filter)法等方法。现在,基于深度学习的模型融合增强方法等算法陆续被提出,并显示出了更好的效果。另外,也有人通过在用于语音识别的语音增强领域结合说话者的嘴唇和面部视觉信息来提高嘈杂环境下的语音识别率。基于注意力机制的模型也越来越多地应用于语音识别系统。在应用层面,远场语音识别(far-field speech recognition)、跨语种和多语种语音识别(cross-lingual and multi-lingual speech recognition)等也开始成为研究热点。

在语音合成方面,从早期的基于波形拼接的语音合成方法,发展到基于参数的语音合成方法,尤其是基于隐马尔可夫模型的可训练语音合成方法取得了较好的效果。而深度学习的出现,使用深度神经网络代替其中的隐马尔可夫模型部分,直接预测声学参数,进一步增强了合成语音的质量。谷歌2016年推出的基于深度学习的WaveNet系统,直接用音频信号的原始波形建模,逐点地进行处理,合成出了接近人声的自然语音,并且还能模仿其他人的声音和生成音乐。谷歌2017年推出的基于注意力机制的编码解码模型Tacotron也在语音合成方面取得了很好的效果,在速度上优于逐点自回归的WaveNet模型,并且能够实现由文本到语音的直接合成。

语音合成技术还包括语音转换(voice conversion)技术和情感语音合成(emotionalspeech synthesis)技术,人工智能技术的引入同样为它们带来了性能上的突破。语音转换是指改变说话人的语音特征或者模仿其他人的语音特征;而情感语音合成则是让机器在和人对话时还能表达出不同的情感,比如有点不高兴、非常不高兴、非常愤怒等。语音转换和情感语音合成在原理上还是有许多相似之处的,比如说话人的风格里可能本身就包含着情感信息。一般通过将情感标签、说话人的风格特征等信息通过一个预处理网络嵌入原有网络中进行训练,合成时再通过对标签或者风格的控制来控制合成的效果。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈