首页 理论教育 DoubleDQN算法详解及实验分析

DoubleDQN算法详解及实验分析

时间:2023-06-30 理论教育 版权反馈
【摘要】:Double DQN的概念,也是由DeepMind团队提出的,论文名为Deep Reinforcement Learning with Double Q-Learning,发表于2015年。Double DQN模型的思路是从Double Q-Learning迁移而来的,也就是从传统机器学习迁移而来的,因此,不存在必须有一个神经网络结构才能训练的问题。需要注意的是,Double Q-Learning是为了解决过估计问题而设计的。Double DQN带来的好处,就是在学习估值的时候用max来做评估,在选择输出动作的时候用另一个没有做max评估的权重集合来做动作,从而在一定程度上降低了发生过估计的可能性。

DoubleDQN算法详解及实验分析

Double DQN的概念,也是由DeepMind团队提出的,论文名为Deep Reinforcement Learning with Double Q-Learning,发表于2015年。这篇论文的前身是2010年发表在NIPS上的论文Double Q-Learning。从题目上看,后者讨论了如何用Double Q-Learning模型做强化学习训练,前者则把这个思想迁移到了深度强化学习领域

Double DQN模型的思路是从Double Q-Learning迁移而来的,也就是从传统机器学习迁移而来的,因此,不存在必须有一个神经网络结构才能训练的问题。也就是说,只要有两个一模一样的Q-Learning模型或者两个DQN网络,就可以构成“Double”模型,而剩下的就是训练了。

需要注意的是,Double Q-Learning是为了解决过估计问题而设计的。过估计问题,关键在Max的取值上。按理说,一个状态的估值应该是这个状态下所有动作估值的数学期望值(也就是加权平均值)才对,可是,如果每次都用max取最大值,这个最大值和加权平均值之间的差距就形成了误差——这一定会导致过估计的发生。(www.xing528.com)

Double DQN(或者说Double Q-Learning)带来的好处,就是在学习估值的时候用max来做评估,在选择输出动作的时候用另一个没有做max评估的权重集合来做动作,从而在一定程度上降低了发生过估计的可能性。也可以说,这种用两个网络进行动作选择和动作估值解耦的手段,可以在一定程度上避免过估计正噪声的积累。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈