首页 理论教育 声学模型在语音识别中的应用

声学模型在语音识别中的应用

时间:2023-06-22 理论教育 版权反馈
【摘要】:如第2章所述,语音识别是深度学习方法在工业界中的第一个成功应用。也源于不断深入探索深度学习能力以及研究语音识别的最新技术,其中包括引人瞩目的高效解码技术。长期以来,GMM-HMM的方法在语音识别中占据主导地位。他们的成果代表了语音识别的最新水平,这些公司的语音产品和服务近年来被媒体广泛地报导。

声学模型在语音识别中的应用

如第2章所述,语音识别是深度学习方法在工业界中的第一个成功应用。这是工业界和学术界紧密合作的成果,源于微软研究院研究员对大规模的工业需求前瞻性的预见以及积极的参与[68,89,109,161,323,414]。也源于不断深入探索深度学习能力以及研究语音识别的最新技术,其中包括引人瞩目的高效解码技术。

长期以来,GMM-HMM的方法在语音识别中占据主导地位。该方法主要是基于上下文相关的浅层、扁平的GMM和HMM生成式模型(参见文献[92,93,187,293])。虽然神经网络的方法有一段时间非常流行,但效果还是远不如GMM-HMM[42,87,261,382]。即便是具有深度隐藏动态(deep hidden dynam-ics)特征的生成式模型也难以与GMM-HMM的识别效果相比(参见文献[45,73,108,282])。

2010年,在学术界和工业界研究者的紧密合作下,深度学习和DNN开始对语音识别领域产生影响[89,161]。合作从音素识别任务开始[89,100,135,136,257,260,258,309,311,334],在这个任务中,将第5章讲到的混合DNN以及后续会述及的卷积(convolutional)和回归(recurrent)结构的新模型的建模能力体现得淋漓尽致。在特征方面,研究者从普遍使用的MFCC特征向更底层的特征进行研究,这也说明了原始语音频谱特征的重要性,尽管如此,截止撰写本书时,仍然没有使用原始语音波形作为特征的方法[183,327]。工业界和语音界的合作也在大词汇量语音识别领域取得了很好的成果[67,68,94,89,161,199,195,223,323,353,399,414]。类似GMM-HMM的语音单元(senones),DNN在大词汇量语音识别领域的成功应用很大程度上归功于大规模输出层结构的使用。语音研究者想继续保持业已证明在GMM-HMM框架中非常有效的上下文相关的音素建模技巧,同时对已有的高效的GMM-HMM解码器软件架构进行尽量小的改动来适应新的模型。同时,这项工作也表明,当拥有足够大的数据量时,可以不必使用基于DBN的预训练。以下三个因素,使得基于深度学习的语音识别从学术界到工业界取得了广泛的成功:(1)相比目前最好的GMM-HMM系统,识别错误率明显下降;(2)音素状态(senones)作为DNN输出层使得部署基于DNN的解码器对原解码器的改动很小;(3)DNN强大的建模能力降低了系统的复杂性。截至2013年ICASSP会议,全世界至少有15个主要的语音识别团队的实验证明了在大规模语音识别任务上使用DNN的有效性,以及用原始语音频谱特征(而不是MFCC)可以得到更好的结果。这些团队包括了著名的工业界语音实验室,如Microsoft[49,89,94,324,399,430]、IBM[195,309,311,307,317]、Google[69,150,184,223]、讯飞和百度。他们的成果代表了语音识别的最新水平,这些公司的语音产品和服务近年来被媒体广泛地报导。(www.xing528.com)

在本章的其余部分,我们将根据几个重要议题回顾基于深度学习的语音识别工作,这些议题包含在小节标题中。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈