首页 理论教育 深度学习理论基础:预见可信AI

深度学习理论基础:预见可信AI

时间:2023-06-21 理论教育 版权反馈
【摘要】:深度学习给很多领域带来了一次自动化革命,比如机器视觉、自然语言处理、语音识别等。我们的研究工作主要集中在深度学习和深度学习在机器视觉上的应用。深度学习的算法非常稳定、高效,在一定程度上能够满足很多实际情况的需要。深度学习的成功主要建立在实验之上,目前缺乏坚实的理论基础。那么,即使是ImageNet这样的数据库,相对于深度学习的参数来说也是非常小的。它告诉我们需要进一步去探求深度学习的基础理论。

深度学习理论基础:预见可信AI

陶大程

澳大利亚科学院院士,悉尼大学教授,优必选悉尼大学人工智能中心主任

中国科学技术大学取得学士学位,香港中文大学取得硕士学位英国伦敦大学取得博士学位。毕业后,先后在中国香港理工大学、新加坡南洋理工大学、澳大利亚悉尼科技大学任教,目前担任悉尼大学教授,优必选悉尼大学人工智能中心主任。主要从事人工智能方面的研究,在权威杂志和重要会议上发表了200多篇论文,包括电气电子工程师协会(IEEE)的多种汇刊、顶级杂志和会议;并曾多次获得最佳论文奖项。2015年获得澳大利亚尤里卡奖以及悉尼科技大学校长奖章、2018年获得IEEE ICDM研究贡献奖。由于其在人工智能领域的研究贡献,先后当选IEEE/AAAS/ACM会士、欧洲科学院外籍院士及澳大利亚科学院院士。

非常高兴有机会分享我们对于人工智能可信问题的理解。深度学习给很多领域带来了一次自动化革命,比如机器视觉、自然语言处理、语音识别等。我们的研究工作主要集中在深度学习和深度学习在机器视觉上的应用。

我们可以看到,有了深度学习之后,过去很多我们觉得非常困难的机器视觉的任务,现在都变得非常容易了。深度学习的算法非常稳定、高效,在一定程度上能够满足很多实际情况的需要。但是,在很多对AI算法安全性有很高要求的情况下,一个微小的错误都有可能会导致致命的灾难。

由于现有算法缺乏合适的理论基础,我们不知道这些算法为什么能成功,什么时候会失败,失败的概率有多高,再加上我们在应用领域遇到的一些挑战,这使得我们对AI的信任也不断在减少。那么,如何解决这个问题呢?这就需要我们建立完整的人工智能的理论基础。

首先要谈一下目前人工智能基础理论的进展,这里主要谈深度学习相关部分。主要原因有两点:首先,传统的机器学习的基础理论相对成熟和完善;其次,深度学习主导了第三次人工智能热潮,并且驱动了很多实际应用,但目前深度学习的基础理论还处在初级阶段。深度学习的成功主要建立在实验之上,目前缺乏坚实的理论基础。那么,我们为什么会对使用深度学习如此笃定?

理论分析深度学习算法为什么如此困难?这里我引用美国麻省理工学院托马索·波吉奥(Tomaso Poggio)教授的一句话:“曾经我们需要比模型参数更多的训练数据才能得到有意义的拟合。”那么深度学习的情况是什么样的呢?这里我做一个对比,见下图:左边是2017年效果最好的神经网络,大概有几千万个参数,右边是一个现在常用的数据集。第一个是CORD—19数据库,只有6000个数据点,大多数数据集也只有几万个数据点。ImageNet算是数据量相对大的一个数据库了,它也仅有1000多万个数据点。那么,即使是ImageNet这样的数据库,相对于深度学习的参数来说也是非常小的。

图7-62 100%Un时定子铁芯水平振动

表7-7 磁拉力不平衡对振动摆度转频成分影响量化参数

那么,为什么深度学习在如此过度参数化的情况下,有如此好的效果呢?一些工作从模型容量和复杂度出发来分析神经网络。我们知道,如果模型的容量或者复杂度比较小,那么这个模型的泛化能力就有保证。这个是过去统计学习告诉我们的。如果我们可以证明深度学习模型的容量或复杂度和参数的数量不直接相关,那么在一定程度上我们就能清楚解释为什么深度学习如此成功。

首先我们来看一下VC维(VC dimensions)。VC维是传统机器学习中度量复杂度的一种常用工具。2017年,哈维(Harvey)和同事从VC维的角度出发,分析了神经网络的泛化性能,得到了两个上界[1]。我们发现,VC维的上界直接和模型的参数数量相关,这就使得泛化误差的上界也变得非常大,甚至比损失函数的最大值还要大,那么这样的上界也就失去了它的意义。这个工作说明,VC维这条路可能是比较艰辛的,但是我们觉得这个工作还是非常有价值的。它告诉我们需要进一步去探求深度学习的基础理论。

那么,Rademacher复杂度(Rademacher Complexity)如何呢?戈洛维希(Golowich)和同事在2018年从Rademacher复杂度出发,得到了一个泛化误差上界。这个上界也不直接和模型的规模相关,但是和模型的参数的模,以及网络的深度相关。这也会使得泛化误差的上界比较大[2]

2019年,梁(Liang)和同事探索了Fisher—Rao范数。他们的工作表明,Fisher—Rao范数有很多良好的性质,比如在某些重参数化过程中的不变性,以及相对别的复杂度度量的一些特殊的优势[3]。今年我们在国际学习表征会议(ICLR)的工作中,也使用了Fisher—Rao范数和矩阵—1范数(Matrix—1 Norm),证明了 RNN网络的泛化误差的上界[4]。Fisher—Rao范数和矩阵—1范数可以有效地帮助我们控制上界的尺度。我们的上界中和模型规模相关的一项是x的转置和x的乘积的最小特征值的倒数,这一项给我们带来了一个启发—往训练样本中增加一些噪声,可以提升模型的泛化能力。同时,我们也不能加入太多噪声,因为这一项会使得训练误差变得比较大。我们的Fisher—Rao范数依赖于关于梯度的一个结构化引理,该引理说明了参数的模可以被梯度的大小控制。这个引理和Fisher—Rao范数帮助我们有效刻画了梯度对深度学习模型泛化能力的影响,帮助我们理解泛化能力和训练能力之间的关系,进而帮助我们理解权值衰减(weight decay)和梯度裁剪(gradient clipping)对泛化能力的影响。

图7-63 转子磁极形貌和气隙特征参数

为了有效降低磁拉力不平衡对振动摆度的影响和定子铁芯水平振动,需要对转子磁极形貌进行处理。由于现场工期紧张,根据转子形貌图临时对28~48号磁极进行了调整,调整后的转子磁极形貌图及气隙特征参数如图7-64所示,可见转子不圆度和转子偏心有了很大的优化,转子不圆度为5.2%,转子偏心距为0.26mm,偏心角为146°。优化调整后的定子铁芯水平振动降低到158μm,其频率成分分布随着转子形貌变化也发生了变化(图7-65)。由于转子偏心距得到了优化,磁拉力不平衡得到了明显改善(图7-66),最大变化量上导摆度Y降低到239μm。

从优化调整后的结果看,机组还存在一定的磁拉力不平衡,定子铁芯水平振动还是有点大,主要原因是时间紧张,21~27号、49~58号等部分磁极圆度还欠优化,但现阶段已能满足运行需要,最终的优化电站计划在下次检修时处理。

图7-64 磁极优化后转子磁极形貌和气隙特征参数

表7-8 磁极优化后磁拉力不平衡对振动摆度转频成分影响量化参数

基于模型容量和模型复杂度的泛化误差的上界通常表明:小模型的泛化能力比较好,可是深度学习的实验和表现并不是特别一致。内沙布尔(Neyshabur)和他的同事在2015年的工作[5],以及诺瓦克(Novak)在2018年的工作[6]都用实验说明了,大网络不仅测试性能好,并且当网络变大的时候,泛化性能还会变好。这一点也能为目前的潮流所佐证。各个公司都在想尽一切办法把网络的深度、规模变大。坎齐亚尼(Canziani)和他的同事统计了一些竞赛的模型规模,发现优胜模型的深度是在逐年变深的[7],相信经常参加竞赛的同学们也感同身受。

当前,我们的工作从信息论的角度出发,得到了一个泛化误差的上界。我们的理论分析也支持之前的经验观测。它主要基于以下三个方面。

首先,和传统的浅层学习模型—例如支持向量机—不同,深度神经网络具有层级特征映射结构,这是否就是它在复杂度很高的情况下,帮助我们避免过拟合的关键呢?我们的工作肯定地回答了这个问题[8]。层级结构是保证深度神经网络泛化能力的关键。其次,传统的泛化误差的上界都是通过模型的函数空间的复杂度来估计的,比如 VC维、Rademacher复杂度,这种估计忽略了数据分布的本身,考虑了模型的函数空间里最坏的情况。因此泛化误差的上界的估计对于函数空间的深度模型就会变得比较松。而在实际情况下,模型的泛化能力和数据分布相关。受最近信息论和自适应数据分析工作的一些启发,我们可以用神经网络学到的特征和最后一层神经网络参数的互信息(mutual information)来作为泛化误差的上界。直观来讲,网络的输出对于输入的依赖性越小,其泛化能力就越强。最后,受到信息论中强数据处理不等式的启发,只要网络的每一层的映射是不可逆的,例如使用了ReLU激活函数、卷积和池化,网络所学习到的特征和最后一层的参数的互信息,就会随着层数的增加而减少。

因此,网络越深,模型的泛化能力也就变得越强。但是随着网络层数的增加,在映射过程中可能会丢失对于数据拟合有用的信息。在这样的情况下,训练数据集拟合误差就会变大。因此越深的网络泛化能力虽然是逐渐增强的,但是要想整个网络的性能比较好,还需要保证训练拟合误差足够小。

从目前的进展来看,基于模型容量的路线还是非常困难的。因为神经网络的容量非常庞大,甚至还有通用近似的能力。1989年的三个独立工作同时证明了通用近似定理对于无限宽的多层网络是成立的[9][10][11]。奥尔尼克(Hornik)和他的同事在1993年证明了无限宽的单层网络也有通用近似定理[12]。在2017年卢(Lu)和他的同事证明了有限宽的网络也有通用近似的定理[13]。在1993年,舟桥(Funahashi)和中村(Nakamura)证明了RNN可以拟和任意的序列[14]。卢(Lu)和卢(Lu)最近证明了神经网络可以拟合任意的分布[15]。这些例子都说明了,如果参数可以任意取的话,那么神经网络的容量会非常庞大,但是问题是参数是不是可以任意取?

目前神经网络的参数基本上都是通过随机梯度下降算法(stochastic gradient descent,SGD)学到的,所以很显然参数不是完全随机的。因此SGD可能就是解决这个问题的关键。神经网络本身的假设空间很大,但是SGD只会探索空间中的一部分,这就使得真正会输出到假设空间(hypothesis)的部分,实际上并没有那么多。最近的一些文章,包括我们在2019年神经信息处理系统大会(NeurIPS)上的文章指出,SGD的优化过程、形成的路径可以用偏微分方程来表示[16]。SGD优化的过程,也就是在t+1时刻的参数减掉在t时刻的参数,等于它的学习率乘以梯度,这就是一个偏微分方程。

由于“批”(batch)是随机的,初始化也是随机的,那么对于梯度的建模也就引入了很多噪声。也就是说,梯度等于整个数据集上的梯度的平均值加上一个不确定的噪声,噪声通常可以假设是高斯分布的。最近大家也在探求,到底应该用什么样的分布来建模比较合适。因此偏微分方程就是一个随机偏微分方程。所以参数对时间t的随机偏微分方程就可以用O—U过程来表示,我们知道SGD的优化路径可以用O—U过程来建模。

具体来说,就是用这个随机过程的稳态分布来给随机梯度下降算法学到的模型进行建模,然后我们就可以利用PAC—Bayes理论得到一个泛化误差的上界。我们的结论还给出了泛化能力和学习率(learning rate)与批大小(batch size)比值之间的正相关关系。这个关系也说明了超参数的调整也是有规律可循的。我们在CIFAR—10和CIFAR—100上,基于网络结构ResNet—110和VGG—19训练了1 600个模型来验证这个正相关关系。我们收集了所有模型的测试精度来进行分析,这里每一个小图由20个模型画成。我们用测试精度来表示泛化能力,因为训练精度几乎是100%。左边显示在学习率不变的条件下,测试精度和批大小之间的关系,也就是随着批大小的增加,测试精度是在下降的;右边显示在批大小不变的条件下,测试精度和学习率之间的关系。我们发现随着学习率的增加,测试精度在提升。这两张图显示了测试精度和批量大小与学习率比值之间的关系,每种颜色的函数各有1000个模型画成。很显然随着比值的增加,测试精度是在下降的。

利用偏微分方程对SGD的优化轨迹建模,对于我们理解深度学习非常有价值,同时也要求我们深入理解损失曲面的几何性质。损失曲面的几何性质,决定了随机偏微分方程在损失曲面上的轨迹,也就是相图。神经网络的参数随时间t变化的曲线就是相图。

这主要有两方面原因。首先,随机偏微分方程包含了损失函数以及损失函数的各阶导数,所以损失曲面的几何结构直接影响了随机偏微分方程的结构。其次,损失曲面也决定了随机偏微分方程的边界条件,因此损失曲面决定了随机梯度下降算法输出的解的性质。因此,透彻理解损失曲面的几何结构,对于我们研究深度学习的优化以及泛化非常关键。在2018年,诺瓦克和他同事用实验说明了,神经网络的泛化性能和损失曲面的几何结构相关[17]。具体来说,神经网络的泛化性能和输入空间的线性区域的个数相关。非线性激活函数使得损失曲面极端地非凸,并且不光滑。这种混乱的局面,使得目前已有的优化算法的理论分析变得非常困难。比如,为什么凸优化算法可以去优化神经网络这种非凸的问题?但是另一方面,深度学习模型在实际问题中又取得了举世瞩目的效果。这也暗示我们,混乱的局面之下,可能存在着某种未被发现的秩序。

关于损失曲面的几何结构,目前有着非常有趣的辩论。对于线性网络,也就是激活函数都是线性函数的网络,已经有一些结论。川口(Kawaguchi)在2016年的工作[18]以及卢(Lu)和川口在2017年的工作指出[19],线性网络在平方损失函数下,所有的局部极小值都是一样好的,也就是说它们都是全局最小值。如果对于非线性网络也能找到类似的性质,那么神经网络出色的性能也就得到了一个比较好的解释,至少在一定程度上我们理解了深度学习的一些理论性质。这是因为随机梯度下降算法一旦找到了一个局部极小值,那么它也就找到了全局最小值。(www.xing528.com)

有不少工作指出,非线性可能是不重要的,因为非线性网络可能继承了线性网络的一部分重要性质。但是另一些文章则证明了实际情况并非如此。在2019年,云(Yun)和他的同事证明了,单层的神经网络的损失曲面有无穷多的次优局部极小值[20]。这个结论的成立需要有4个条件。

第一,只有一个隐藏层;第二,训练网络用的是平方损失函数;第三,输出只有一维;第四,激活函数是ReLU函数。今年我们在国际学习表征会议上的文章显著拓展了这些条件,覆盖了几乎所有的实际情况[21]。具体来说我们把这4个条件扩展为:第一,可以是任意深度;第二,可以是任意的可微损失函数;第三,可以是任意维度的输出;第四,可以是任意的分段线性激活函数。

那么之前猜测的顺序有可能是什么?苏德里(Soudry)和霍费尔(Hoffer)在2018年指出,ReLU网络的损失曲面被划分成若干光滑的多线性区域[22]。我们在文章中进一步证明为:第一,在每一个区域中,每一个局部极小值都是全局最小值;第二,在每一个区域中,所有的局部极小值汇聚成了一个极小值峡谷;第三,峡谷上所有的点构成一个等价类;第四,这个等价类还存在着“平行峡谷”;第五,所有的这些等价类和平行峡谷构成了一个商空间。这里的第二条性质就解释了“模式连接(mode connectivity[23]),”就是SGD找到的局部极小值的附近,存在着一些经验风险差别很小的点,并且这些点连成了一条线,这就相当于其中的一个极小值峡谷。但是很遗憾的是,目前这些几何性质只对单个隐藏层的神经网络成立,对于多个隐藏层的神经网络的分析,我们还需要进一步努力。

对于深度学习的理论分析目前还处在初级阶段,还有大量的疑问需要深入探讨和研究。除了刚才所谈到的问题,还有公平性、隐私、安全等问题,这些都需要我们长时间的努力和奋斗。

【注释】

[1]Bartlett P L,Harvey N J,Liaw C,et al.Nearly-tight VC-dimension and Pseudodimension Bounds for Piecewise Linear Neural Networks[J].Journal of Machine Learning Research,2019,20(63): 1—17.

[2]Golowich N,Rakhlin A,Shamir O,et al.Size-Independent Sample Complexity of Neural Networks[C].Conference on Learning Theory,2018: 297—299.

[3]Liang T,Poggio T,Rakhlin A,et al.Fisher-Rao Metric,Geometry,and Complexity of Neural Networks[C].International Conference on Artificial Intelligence and Statistics,2019: 888—896.

[4]Tu Z,He F,Tao D,et al.Understanding Generalization in Recurrent Neural Networks[C].International Conference on Learning Representations,2020.

[5]Neyshabur B,Tomioka R,Srebro N,et al.In Search of the Real Inductive Bias:On the Role of Implicit Regularization in Deep Learning[C].International Conference on Learning Representations,2014.

[6]Novak R,Bahri Y,Abolafia D A,et al.Sensitivity and Generalization in Neural Networks: an Empirical Study[C].International Conference on Learning Representations,2018.

[7]Canziani A,Paszke A,Culurciello E.An Analysis of Deep Neural Network Models for Practical Applications[J].2016.

[8]Zhang J,Liu T,Tao D,et al.An Information-Theoretic View for Deep Learning.[J].arXiv: Machine Learning,2018.

[9]George Cybenko.Approximation by superpositions of a sigmoidal function[J].Mathematics of Control,Signals and Systems,1989,2(4):303—314.

[10]Funahashi K I.On the approximate realization of continuous mappings by neural networks [J].Neural Networks,1989,2(3):183—192.

[11]Hornik K,Stinchcombe M,White H.Multilayer feedforward networks are universal approximators[J].Neural Networks,1989,2(5):359—366.

[12]Hornik K.Some new results on neural network approximation[J].Neural Networks,1993,6(8): 1069—1072.

[13]Lu Z,Pu H,Wang F,et al.The expressive power of neural networks: a view from the width[C].neural information processing systems,2017: 6232—6240.

[14]Funahashi K I,Nakamura Y.Approximation of dynamical systems by continuous time recurrent neural networks[J].Neural Networks,1993,6(6):801—806.

[15]Lu Y,Lu J.A Universal Approximation Theorem of Deep Neural Networks for Expressing Distributions[J].Neural Networks,2020.

[16]He F,Liu T,Tao D,et al.Control Batch Size and Learning Rate to Generalize Well: Theoretical and Empirical Evidence[C].Neural Information Processing Systems,2019: 1143—1152.

[17]Novak R,Bahri Y,Abolafia D A,et al.Sensitivity and Generalization in Neural Networks: an Empirical Study[C].international conference on learning representations,2018.

[18]Kawaguchi K.Deep Learning without Poor Local Minima[C].neural information processing systems,2016: 586—594.

[19]Lu H,Kawaguchi K.Depth Creates No Bad Local Minima[J].arXiv:Learning,2017.

[20]Yun C,Sra S,Jadbabaie A,et al.Small nonlinearities in activation functions create bad local minima in neural networks[C].International Conference on Learning Representations,2019.

[21]He F,Wang B,Tao D,et al.Nonlinearities in activations substantially shape the loss surfaces of neural networks[C].International Conference on Learning Representations,2020.

[22]Soudry D,Hoffer E.Exponentially vanishing sub-optimal local minima in multilayer neural networks[C].International Conference on Learning Representations,2018.

[23]Garipov T,Izmailov P,Podoprikhin D,et al.Loss Surfaces,Mode Connectivity,and Fast Ensembling of DNNs[C].Neural Information Processing Systems,2018: 8789—8798.

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈