首页 理论教育 混合深度网络的预训练与最小音素误差训练技术

混合深度网络的预训练与最小音素误差训练技术

时间:2023-06-22 理论教育 版权反馈
【摘要】:在3.2节中讨论过的无监督生成式深度网络DBN,可以转换并作为有相同网络结构的有监督学习DNN的初始模型,并使用提供的目标标签做判别式训练或微调。在这里,我们应当关注,混合深度网络的预训练/微调策略和HMM中非常流行的最小音素误差训练技术之间的联系。沿着使用判别式准则去训练生成式模型参数的主线,如上述HMM训练的例子,我们在这里讨论把相同的方法应用到其他混合深度网络学习的问题上。

混合深度网络的预训练与最小音素误差训练技术

第三个类别中的术语“混合”指的是同时包含或利用生成式和判别式两种模型的深度结构。在目前发表文献混合结构中,生成部分主要用来帮助判别,因为判别是混合结构的最终目标。关于生成式建模可以帮助判别的方式和原因,可以用以下两种观点来说明[114]

(1)最优化的观点 在高度非线性参数估计问题中,以无监督方式训练的生成式模型可以提供良好的初始点(在深度学习中,常用术语“预训练”的引入就是因为这个原因)。

(2)正则化的观点 无监督学习模型能高效地提供由模型表达的一系列函数的先验。

研究报告[114]提供了精辟的分析和实验证据来支持上述两个观点。

在3.2节中讨论过的无监督生成式深度网络DBN,可以转换并作为有相同网络结构的有监督学习DNN的初始模型,并使用提供的目标标签做判别式训练或微调。当以这种方式使用DBN时,我们认为DBN-DNN模型是一种混合深度模型,这里使用无监督数据训练的模型有助于使判别式模型更高效地进行有监督训练。我们将在第5章RBM/DBN的生成式无监督预训练的部分回顾判别式DNN有监督训练的细节。

另一个混合深度网络的例子见文献[260],其中DNN的权值最初来源于一个生成式DBN,进一步以序列级别判别式准则进行微调,这个准则是以给定输入特征序列所对应的标签序列的条件概率,而不是通常使用的帧级别的交叉熵准则。这可以被视为静态DNN和浅层判别式CRF结构的组合。可以证明,这种DNN-CRF结构等价于DNN和HMM的混合深度结构,该结构的参数学习过程是对整个标签和输入特征的全部序列使用最大互信息准则(MMI)学习完成的。一种与其密切相关并着眼于更大任务的全序列训练方法在浅层神经网络[194]和深层网络[195,353,374]上均获得了成功。我们注意到,联合训练序列模型(例如HMM)和神经网络这一想法来自于文献[17,25]的早期工作,其中的浅层神经网络训练数据量小,而且没有生成式预训练。(www.xing528.com)

在这里,我们应当关注,混合深度网络的预训练/微调策略和HMM中非常流行的最小音素误差(MPE)训练技术之间的联系(综述参见文献[147,290])。为了有效进行MPE训练,参数需要使用一个算法初始化(如Baum-Welch算法),这个算法对某个生成准则(如最大似然)进行最优化。这种方法采用最大似然训练的参数来协助判别式HMM的训练,所以可将其视为训练浅层HMM模型的“混合”方法。

沿着使用判别式准则去训练生成式模型参数的主线,如上述HMM训练的例子,我们在这里讨论把相同的方法应用到其他混合深度网络学习的问题上。在文献[203]中,生成式模型RBM使用类标签后验概率的判别式准则进行学习。这里的标签向量和输入数据向量拼接构成RBM的组合可见层(combined visible layer)。这样,RBM作为独立的解决分类问题的方法,得到了浅层生成式模型RBM的判别式学习算法。在Ranzato等人[298]的工作中,训练将有门限马尔可夫随机场(gated MRF)作为最底层的生成式DBN模型提取特征,然后用于含遮挡的图像类别识别这一具有挑战性的任务。文献[298]证明,DBN的生成能力能帮助发现深度模型的每层表达中哪些信息被捕捉了,哪些被丢弃了。文献[352]使用基于经验风险的判别式准则来训练深度图模型。

混合深度网络的另一个例子是利用生成式DBN去预训练深度卷积神经网络(deep Convolutional Neural Networks,deep CNNs)[215,216,217]。与前面讨论的全连接的DNN类似,预训练相比于随机初始化可以提高深度CNN的训练性能。使用一系列的正则化的深度自编码器[24]预训练的DNN和CNN,也是混合深度神经网络类别的一个例子,这些深度自编码器包括除噪自编码器(denois-ing autoencoders)、收缩自编码器(contractive autoencoders)和稀疏自编码器(sparse autoencoders)。

这里给出的混合深度网络的最后一个例子基于文献[144,267]中的思想和工作,其中判别任务(如语音识别)生成的输出(文本)作为第二个判别任务的输入(如机器翻译)。整个系统提供语音翻译功能,把一种语言的语音转换为另一种语言的文字,是一个由生成式和判别式成分构成的两级深度结构。语音识别模型(如HMM)和机器翻译模型(如短语映射和非单调对齐)本质上是生成式的,但学习它们的参数是为了判别任务,即给定语音数据来确定最终的翻译文本。文献[144]中描述的框架使得在整个深度结构上,端到端的性能得到优化,其采用的统一学习框架最早在文献[147]中提出。这种混合深度学习方法不仅可以应用到语音翻译,而且可以应用到所有以语音为中心的任务和其他的信息处理任务中,如语音信息检索、语音理解、跨语言的语音/文本的理解和检索等(参见文献[88,94,145,146,366,398])。

在接下来的三章中,我们将阐述深度学习模型中三个重要的类型。为了便于教学,所选择的这些内容在结构和数学描述上都比较简洁,因此接下来的三章中所描述的三种结构可能并不是这三类中最有代表性和最具影响力的工作。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈