news 2026/6/10 21:18:19

深度Q网络(DQN)十年演进(2015–2025)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
深度Q网络(DQN)十年演进(2015–2025)

深度Q网络(DQN)十年演进(2015–2025)

一句话总论:
2015年DQN还是“Atari游戏超人类+价值函数离散动作”的学术爆发起点,2025年DQN已彻底被多模态VLA大模型+连续动作自进化决策取代,成为“强化学习历史里程碑+具身智能启蒙算法”,中国从跟随DeepMind跃升全球领跑者(宇树、银河通用、小鹏、华为等主导),DQN从“游戏AI王者”转向“博物馆经典”,其核心思想(经验回放+目标网络)融入现代VLA RL,推动强化学习从“离散像素游戏”到“物理世界连续意图决策”的文明跃迁。

十年演进时间线总结
年份核心范式跃迁代表算法/模型性能/泛化能力应用场景扩展中国贡献/里程碑
2015DQN价值函数爆发Nature DQNAtari 57游戏超人类离散动作游戏DeepMind Nature论文,中国立即跟进DQN研究
2017Double/Rainbow/Dueling改进Double DQN + RainbowAtari mAP提升30%+更好探索/过估计中国高校/旷视Rainbow实现,产业化零
2019分布式+优先经验回放Ape-X + Prioritized Replay训练效率10–50倍大规模Atari华为/百度分布式DQN,中国初代分布式训练
2021连续动作+DQN变体(QR/DDPG)QR-DQN + DDPG融合连续控制初步 / Sim2Real弱简单机器人行走宇树A1 + 小米CyberDog DQN变体
2023DQN退场+VLA取代元年DreamerV3 + VLA RL泛化>95% / 连续全场景具身复杂动作银河水母 + 宇树天工VLA取代DQN
2025DQN历史经典+VLA自进化终极形态Grok-4/DeepSeek VLA RL>99.9% / 全域自进化社交意图+永不翻车中国具身项目99%用VLA RL,DQN仅教学/遗留
1.2015–2018:DQN黄金时代
  • 核心特征:DQN(Deep Q-Network)价值函数+经验回放+目标网络,离散动作空间,Atari游戏超人类,奠基深度强化学习。
  • 关键进展
    • 2015年:DeepMind Nature DQN论文震撼业界。
    • 2016年:Double DQN解决过估计。
    • 2017–2018年:Dueling/Prioritized/Rainbow六大改进组合,Atari性能巅峰。
  • 挑战与转折:仅离散动作、样本效率低;连续控制+PPO/DDPG兴起。
  • 代表案例:Atari 57游戏超人类,中国高校快速复现。
2.2019–2022:分布式+连续动作变体时代
  • 核心特征:分布式DQN(Ape-X)+QR-DQN量化分布+DDPG/SAC连续动作融合,训练效率10–100倍,但Sim2Real仍弱。
  • 关键进展
    • 2019年:Ape-X分布式+Prioritized Replay。
    • 2020–2021年:QR-DQN分布回报+Dreamer世界模型初步。
    • 2022年:中国宇树/小米机器人用DQN变体控制。
  • 挑战与转折:泛化/连续弱;万级仿真+VLA大模型革命。
  • 代表案例:宇树A1行走(DQN+RL变体),Sim2Real差距>20%。
3.2023–2025:DQN退场+VLA自进化时代
  • 核心特征:DQN完全被VLA大模型+多模态RL取代,端到端意图直出+亿级仿真自进化,零样本全域社交决策。
  • 关键进展
    • 2023年:DreamerV3+OpenVLA,DQN仅作为历史教学。
    • 2024年:DeepSeek/Grok-4专用VLA RL,量子辅助不确定性。
    • 2025年:银河2025 + 宇树G1 + 智元元系列,VLA RL自进化,DQN仅遗留/教学,新项目渗透率<1%。
  • 挑战与转折:黑箱/长尾;大模型+量子自进化标配。
  • 代表案例:银河通用2025人形(VLA专业级体操/乒乓决策),DQN已无应用。
一句话总结

从2015年DQN Atari超人类的“深度强化学习开山之作”到2025年被VLA自进化取代的“历史经典”,十年间DQN由游戏AI王者转向博物馆文物,中国主导万级仿真→VLA多模态→量子自进化RL创新,推动强化学习从“离散像素游戏”到“物理世界连续社交意图决策”的文明跃迁,预计2030年VLA RL渗透率>95%+DQN仅存教学。

数据来源于arXiv综述、IROS 2025及中国厂商技术白皮书。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/8 23:59:20

循环神经网络(LSTM)十年演进(2015–2025)

循环神经网络&#xff08;LSTM&#xff09;十年演进&#xff08;2015–2025&#xff09; 一句话总论&#xff1a; 2015年LSTM还是“序列建模黄金标准机器翻译/语音识别主流”的巅峰时代&#xff0c;2025年LSTM已彻底退出历史舞台——全球新项目份额<1%&#xff0c;在中国<…

作者头像 李华
网站建设 2026/6/10 15:33:50

跨平台翻译终极指南:让语言障碍彻底消失的智能解决方案

跨平台翻译终极指南&#xff1a;让语言障碍彻底消失的智能解决方案 【免费下载链接】pot-desktop &#x1f308;一个跨平台的划词翻译和OCR软件 | A cross-platform software for text translation and recognition. 项目地址: https://gitcode.com/GitHub_Trending/po/pot-d…

作者头像 李华
网站建设 2026/6/10 15:47:08

Qt Creator实战:开发跨平台工业控制软件案例

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 开发一个工业控制系统的监控软件&#xff0c;使用Qt Creator实现以下功能&#xff1a;1) 实时数据显示仪表盘 2) 设备状态监控界面 3) 报警日志系统 4) 数据导出报表。要求&#x…

作者头像 李华
网站建设 2026/6/10 20:37:46

AI如何帮助开发者合规处理用户数据

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 开发一个AI辅助工具&#xff0c;能够自动检测代码中对用户数据的访问和使用情况&#xff0c;确保开发者不会超出声明的使用目的和范围。工具应包含以下功能&#xff1a;1. 数据使用…

作者头像 李华
网站建设 2026/6/10 19:00:27

1分钟原型:用快马快速验证HOST配置方案

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 开发一个HOST配置快速验证工具&#xff0c;功能&#xff1a;1.即时输入输出预览 2.多方案快速切换 3.网络连通性测试 4.延迟检测 5.一键回滚。要求响应时间控制在1秒内&#xff0c…

作者头像 李华
网站建设 2026/6/10 1:18:25

tunnelto:重新定义本地服务全球访问的终极隧道转发方案

tunnelto&#xff1a;重新定义本地服务全球访问的终极隧道转发方案 【免费下载链接】tunnelto Expose your local web server to the internet with a public URL. 项目地址: https://gitcode.com/GitHub_Trending/tu/tunnelto 在远程协作成为常态的今天&#xff0c;如何…

作者头像 李华