DoubleDQN算法详解及实验分析

时间：2026-01-23 理论教育烨版权反馈

【摘要】：Double DQN的概念，也是由DeepMind团队提出的，论文名为Deep Reinforcement Learning with Double Q－Learning，发表于2015年。Double DQN模型的思路是从Double Q－Learning迁移而来的，也就是从传统机器学习迁移而来的，因此，不存在必须有一个神经网络结构才能训练的问题。需要注意的是，Double Q－Learning是为了解决过估计问题而设计的。Double DQN带来的好处，就是在学习估值的时候用max来做评估，在选择输出动作的时候用另一个没有做max评估的权重集合来做动作，从而在一定程度上降低了发生过估计的可能性。

Double DQN的概念，也是由DeepMind团队提出的，论文名为Deep Reinforcement Learning with Double Q－Learning，发表于2015年。这篇论文的前身是2010年发表在NIPS上的论文Double Q－Learning。从题目上看，后者讨论了如何用Double Q－Learning模型做强化学习训练，前者则把这个思想迁移到了深度强化学习领域。

Double DQN模型的思路是从Double Q－Learning迁移而来的，也就是从传统机器学习迁移而来的，因此，不存在必须有一个神经网络结构才能训练的问题。也就是说，只要有两个一模一样的Q－Learning模型或者两个DQN网络，就可以构成“Double”模型，而剩下的就是训练了。

需要注意的是，Double Q－Learning是为了解决过估计问题而设计的。过估计问题，关键在Max的取值上。按理说，一个状态的估值应该是这个状态下所有动作估值的数学期望值（也就是加权平均值）才对，可是，如果每次都用max取最大值，这个最大值和加权平均值之间的差距就形成了误差——这一定会导致过估计的发生。(https://www.xing528.com)

Double DQN（或者说Double Q－Learning）带来的好处，就是在学习估值的时候用max来做评估，在选择输出动作的时候用另一个没有做max评估的权重集合来做动作，从而在一定程度上降低了发生过估计的可能性。也可以说，这种用两个网络进行动作选择和动作估值解耦的手段，可以在一定程度上避免过估计正噪声的积累。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

工作计划

年度工作

工作规划

教学计划

实施方案

工作方案

教学工作

发展计划

德育工作

管理工作

发展规划

工作总结

教育工作

体育教师

年度计划

后勤工作

安全教育

工作思路

教育计划

小学教师

幼儿教师

数学教师

食品安全

英语教学

DoubleDQN算法详解及实验分析

相关推荐

DoubleDQN算法详解及实验分析

相关文章：

相关推荐