Sim2Real 论文推荐：从仿真到现实，这30篇论文值得你花时间-编程阁

机器人Sim2Real领域的论文浩如烟海，哪些真正值得精读？哪些只需略读？哪些组合起来读效果最佳？本文基于技术深度和实际影响力，给出一份有态度的推荐清单。

论文集已打包，微信添加雨馨

备注“仿真论文”，直接获取

写在前面

做Sim2Real研究最痛苦的不是论文读不完，而是读完之后依然不知道——

·自己的问题到底该用域随机化还是域自适应？

·为什么Tobin那篇IROS 2017明明方法简单到不可思议，却成了整个领域的起点？

·OpenAI魔方那篇，到底值不值得花一整周去啃？

这篇文章试图回答这些问题。文章不会把所有论文平等对待——有些论文改变了一个方向，有些论文只是锦上添花。文章会给出明确的推荐等级和阅读建议，帮你把有限的时间花在刀刃上。

推荐等级说明：

列表

https://www.shenlanxueyuan.com/page/296?transform=631a7e5bb9https://www.shenlanxueyuan.com/page/296?transform=631a7e5bb9

第一站：建立全局视野（3篇）

别急着啃方法论文。先读综述，脑子里有了地图，后面才不会迷路。

1. Sim-to-Real Transfer in Deep Reinforcement Learning for Robotics: a Survey ★★★

为什么首推这篇？

它是Sim2Real领域第一篇系统性的深度强化学习综述，发表时间恰好卡在域随机化方法成熟、域自适应方法兴起的节点上。读完这篇，你对整个领域的技术脉络就能形成一张清晰的思维导图。

技术亮点：论文将Sim2Real方法分为六大类——系统辨识、域随机化、域自适应、渐进式网络、模仿学习、元学习，这种分类方式至今仍是领域内的主流框架。

阅读建议：重点看第III-V节的分类框架和各方法的对比表格，这些是你后续读方法论文时的"导航仪"。

2. Crossing the Reality Gap: A Survey on Sim-to-Real Transferability of Robot Controllers in Reinforcement Learning ★★☆

与第1篇的区别：Zhao的综述偏"方法导向"，这篇偏"迁移性导向"——它更关注"什么因素决定了迁移成功率"，而非"有什么方法"。两篇互补着读效果最好。

特别值得看：论文中对"reality gap"的类型学分析——将gap细分为视觉gap、动力学gap、传感器gap、动作gap，这个框架非常实用，直接帮你判断自己的问题属于哪种gap、该用什么方法。

3. A Survey of Sim-to-Real Methods in RL: Progress, Prospects and Challenges with Foundation Models ★★☆

为什么需要2025年的新综述？因为这个领域正在被基础模型重塑。传统方法（域随机化、域自适应）的边界正在被VLM/LLM打破，这篇综述是第一个系统讨论"基础模型如何赋能Sim2Real"的工作。

阅读建议：如果你已经读过2020-2021年的综述，这篇重点看Foundation Model相关章节；如果是新人，建议先读前两篇再读这篇。

第二站：域随机化——简单但强大的基石（5篇）

域随机化是Sim2Real领域最"反直觉"的方法：不追求仿真精确，反而追求仿真多样。这个思路简单到让人怀疑它为什么有效——但事实是，它至今仍是工业界最常用的Sim2Real方法。

4. Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World ★★★

必须读这篇的理由：

这是域随机化的开山之作，也是Sim2Real领域被引用最多的论文之一。它的影响力不在于技术多复杂——方法简单到你可以在一个下午复现出来——而在于它提出了一个范式级的想法：与其追求仿真精确，不如追求仿真多样。

技术要点：论文只做了一件事——在仿真中随机化纹理、光照、摄像机位姿、噪声，然后训练目标检测网络。但结果震撼：零真实数据，直接迁移到真实世界，定位精度1.5cm。

精读什么：

· Section III的随机化参数列表——这是后续几乎所有域随机化工作的起点

· Figure 3的随机化前后对比——直观理解"为什么随机化有效"

· Section V的分析——随机化范围与性能的trade-off

一句话评价：方法极简，思想深刻。每个做Sim2Real的人都应该读这篇。

5. Sim-to-Real Transfer of Robotic Control with Dynamics Randomization ★★★

Tobin解决了视觉gap，Peng解决了动力学gap。

这篇论文把域随机化从"看得见的"（视觉）推进到"看不见的"（动力学）。随机化的对象变成了：质量、摩擦、阻尼、执行器增益、关节延迟……这些参数在仿真中可以精确控制，但在真实世界中永远无法完全获知。

为什么这篇比Tobin更难复现？因为动力学随机化对随机化范围极其敏感。随机化范围太小，策略不够鲁棒；太大，任务可能变得不可解。论文中有一段关于这个trade-off的分析非常精彩，值得反复体会。

精读什么：

· Table I的随机化参数列表——这成了后续动力学域随机化的标准配置

· Section IV-C的随机化范围分析——理解"多样性vs可解性"的核心矛盾

· 随机化与递归策略的结合——用RNN隐式推断环境参数

与Tobin的对比：

6. Understanding Domain Randomization for Sim-to-Real Transfer ★★☆

域随机化的理论分析——为什么它有效？

Tobin和Peng告诉你"域随机化有效"，但这篇论文告诉你"为什么有效"以及"什么时候可能无效"。它从理论上证明了域随机化的成功条件：随机化分布需要覆盖真实世界的参数，但覆盖范围过大会降低策略质量。

为什么推荐：大多数域随机化的论文都是empirical的，“调参靠经验"是常态。这篇论文是少数尝试给出理论解释的工作，读完之后你对域随机化的理解会从"试试看"升级到"知道为什么”。

7. DROPO: Sim-to-Real Transfer with Offline Domain Randomization ★★☆

域随机化最大的痛点是什么？调随机化范围。

DROPO用真实世界的离线数据自动推断最优随机化分布，直接消除了最耗时的调参环节。如果你在实际项目中使用域随机化，DROPO是最值得尝试的"工程化改进"。

实用价值：在工业场景中，你往往有一些真实数据但不多。DROPO恰好利用这种"少量真实数据+大量仿真数据"的场景，自动学习应该随机化什么、随机化多少。

8. Active Domain Randomization ★☆☆

与DROPO的区别：DROPO是"离线的"，用已有真实数据推断分布；Active DR是"在线的"，主动选择训练时应该随机化哪些参数。思路不同但互补。

选读建议：如果你更关注"如何高效地做域随机化训练"，读这篇；如果你更关注"如何从真实数据推断随机化分布"，读DROPO。

第三站：域自适应——让仿真"看起来像"真实（4篇）

域随机化是"让策略适应差异"，域自适应是"消除差异本身"。两种思路的根本区别在于：前者不改数据改策略，后者改数据让策略更容易学。

9. Using Simulation and Domain Adaptation to Improve Efficiency of Deep Robotic Grasping ★★★

域自适应用于真实机器人的里程碑。

这篇论文的重要性在于：它不只是证明了域自适应"理论上可行"，而是在真实机器人上证明了域自适应能将抓取成功率提升约30%。这种"从仿真到真实"的完整闭环在当时极其罕见。

技术路线：仿真生成图像 → GAN转换为真实风格 → 在转换后图像上训练策略 → 部署到真实机器人

精读什么：

· Section III的系统架构图——这是域自适应用于机器人的标准pipeline

· Section V的消融实验——域自适应 vs 纯仿真 vs 真实数据，定量对比

· 与Tobin 2017的对比——域随机化 vs 域自适应，在相同任务上的差异

一句话评价：如果你只读一篇域自适应的论文，读这篇。

10. Unsupervised Pixel-Level Domain Adaptation with Generative Adversarial Networks ★★☆

第9篇的理论基础。这篇提出了像素级域自适应的核心方法——用GAN将仿真图像翻译为真实风格图像，同时保持语义内容。如果你理解了这篇的技术细节，第9篇的架构就完全透明了。

与CycleGAN的区别：这篇引入了"内容损失"(content loss)来确保语义一致性，比普通CycleGAN更适合机器人场景——因为对机器人来说，物体位置信息的保真度远比图像美观重要。

11. RL-CycleGAN: Reinforcement Learning Aware Simulation-to-Real ★★☆

域自适应的一个关键问题：图像好看≠对策略有用。

普通CycleGAN追求图像逼真，但可能丢失对控制任务至关重要的信息（比如物体的精确边缘位置）。RL-CycleGAN在损失函数中加入策略损失，确保翻译后的图像既逼真又保留了控制相关信息。

为什么推荐：这篇论文揭示了一个深刻的问题——在Sim2Real场景中，域自适应的优化目标应该是什么？纯视觉质量？还是下游任务性能？答案是后者，而RL-CycleGAN给出了一个优雅的解决方案。

12. RetinaGAN: An Object-Aware Approach to Sim-to-Real Transfer ★☆☆

RL-CycleGAN的进一步演进。RetinaGAN在GAN的判别器中加入物体感知能力，确保翻译后物体的形状和位置更加精确。如果你在做物体操作任务，这篇比RL-CycleGAN更实用。

第四站：动作空间——被忽视的第三维度（3篇）

大多数人关注"看不一样"（视觉gap）和"动不一样"（动力学gap），但很少有人注意到"执行不一样"（动作gap）。然而在真实机器人上，动作延迟、执行噪声、控制频率不匹配等问题往往比视觉差异更致命。

13. Grounded Action Transformation for Robot Learning in Simulation ★★★

动作空间迁移的开山之作。

这篇论文提出了一个精妙的想法：与其在仿真中训练一个"完美"的策略然后期望它在真实世界上工作，不如学习一个动作转换函数，将策略输出的动作"翻译"成真实机器人能正确执行的动作。

技术直觉：假设仿真器是 $f_{sim}(s,a)$，真实世界是 $f_{real}(s,a)$。GAT学习一个转换函数 $T$，使得 $f_{sim}(s, T(a)) \approx f_{real}(s, a)$。这样策略在仿真中看到的效果就和真实世界一致了。

为什么这篇被低估了？因为它发表在2017年的AAAI上，被同年Tobin的域随机化论文的光芒所掩盖。但从工程角度看，GAT是一种更精确、更可控的Sim2Real方法，特别适合动力学gap较大的场景。

14. Reinforced Grounded Action Transformation for Sim-to-Real Transfer ★★☆

GAT的强化学习升级版。原始GAT需要显式学习真实世界动力学模型，R-GAT直接用RL优化动作转换策略，绕过了建模步骤。

实用建议：如果你有足够的真实数据来学习动力学模型，用原始GAT（更稳定）；如果真实数据有限，用R-GAT（更灵活）。

15. Reinforcement Learning with Random Delays ★★☆

一个被严重低估的问题：真实机器人的动作执行存在不可避免的延迟（通常5-50ms），但仿真训练几乎不考虑这个因素。这篇论文系统研究了延迟的影响，并提出在训练中随机化延迟来提升鲁棒性。

为什么特别推荐这篇？因为延迟问题是几乎所有Sim2Real部署都会遇到的"隐性杀手"。你的策略在仿真中完美，部署后却抖动不稳，大概率是延迟没处理好。

第五站：Real2Sim2Real——从"适应差异"到"消除差异"（2篇）

域随机化是"不管差异，策略扛住就行"；域自适应是"消除表面差异"

Real2Sim2Real是"从源头消除差异"——让仿真本身足够真实。

16. Reconciling Reality Through Simulation: A Real-to-Sim-to-Real Framework for Robust Manipulation ★★★

2024年Sim2Real领域最重要的工作之一。

RialTo提出了一种范式转换：不再纠结于"如何迁移"，而是先"让仿真变得像真实"，然后在精确的仿真中训练，最后零样本迁移回真实。

技术流程：

· 用少量真实数据（几十张照片）重建高保真仿真场景

· 在重建场景中训练策略（使用域随机化作为补充）

· 零样本迁移到真实世界

为什么这篇值得关注？因为它代表了一种趋势——随着3D重建和NeRF/Gaussian Splatting技术的成熟，"快速重建真实场景"正在变得可行且廉价。Real2Sim2Real可能成为Sim2Real的下一个主流范式。

精读什么：

· Section III的Real-to-Sim pipeline——理解如何从照片到仿真

· 与纯域随机化的对比实验——量化"精确仿真+少量随机化"的优势

· 局限性讨论——什么场景下Real2Sim2Real不如域随机化

17. RoboGSim: Real2Sim2Real范式的数据合成器 ★☆☆

RialTo思路的工程化延伸。RoboGSim使用3D Gaussian Splatting重建真实场景，支持高保真的演示数据合成和闭环评估。如果你打算在项目中实现Real2Sim2Real，RoboGSim提供了更成熟的工具链。

第六站：渐进式网络与元学习——“迁移"而不"遗忘”（3篇）

域随机化和域自适应都有一个隐含假设：真实世界数据很贵，我们尽量少用。但如果允许用少量真实数据微调呢？关键问题变成了：如何微调而不遗忘仿真学到的知识？

18. Sim-to-Real Robot Learning from Pixels with Progressive Nets ★★★

解决灾难性遗忘的经典方案。

在Sim2Real微调场景中，直接在真实数据上fine-tune会导致"灾难性遗忘"——策略快速适应了真实数据，但把仿真中学到的通用技能忘得一干二净。Progressive Networks通过"冻结旧网络+添加新网络+横向连接"的架构，完美解决了这个问题。

架构直觉：想象你在学开车（仿真），然后要适应雪地驾驶（真实）。Progressive Networks的做法不是"改写你的驾驶知识"，而是"在原有驾驶知识旁边长出一层雪地适应层"，两者同时工作。

实验亮点：在机器人操作任务上，Progressive Nets将真实世界所需数据量减少了一个数量级——从需要数千次真实交互降到数百次。

19. Continuous Adaptation via Meta-Learning in Nonstationary and Competitive Environments ★★☆

元学习的Sim2Real应用。

与Progressive Nets"冻结知识"的思路不同，元学习追求"学会快速适应"。这篇论文将Sim2Real建模为"非平稳环境中的持续适应"问题——真实世界的参数不仅与仿真不同，还可能随时间变化（如机器人磨损、负载变化）。

什么时候用元学习而非渐进式网络？

20. Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks ★★☆

MAML——元学习的通用框架。虽然不是专门为Sim2Real设计，但MAML是第19篇的理论基础，也是Sim2Real元学习方法中使用最广泛的框架。它的核心思想：寻找一个初始化参数，使得在任意新任务上只需1-2步梯度下降就能适配。

在Sim2Real中的用法：将不同随机化参数下的仿真视为不同任务，用MAML元训练策略，部署到真实世界时只需几步微调。

第七站：标杆案例——看顶级团队如何落地（2篇）

技术论文告诉你"方法怎么用"，标杆案例告诉你"真正的问题是什么"。

21. Solving Rubik’s Cube with a Robot Hand ★★★

Sim2Real领域最具标志性的成果。

OpenAI用一只模拟人手在真实机器人上解魔方——这个Demo震撼了整个社区。但论文的价值远不止于Demo本身，它是一份Sim2Real工程化的完整手册。

这篇论文的真正贡献：

· 自动域随机化(ADR)：不是手动设定随机化范围，而是让算法自动调整。策略在某一级别的随机化下表现足够好后，自动提高随机化难度。这是"课程学习+域随机化"的完美结合。

· 不对称Actor-Critic：Critic在训练时使用仿真特权信息（精确状态），Actor只使用真实可获得的观测（图像+关节角）。这让训练更高效，同时确保部署时策略不依赖特权信息。

· 大规模工程细节：论文详细记录了训练规模（10,000+ CPU核心）、分布式训练架构、真实世界部署的工程挑战。这些"不那么学术"的细节往往是决定项目成败的关键。

阅读策略：这篇论文很长，不要一口气读完。建议分三次读——

第一次：读Introduction + Method Overview，理解整体框架

第二次：细读ADR和Asymmetric Actor-Critic，理解核心创新

第三次：读实验和工程细节，理解落地挑战

22. Learning Vision-Based Bipedal Locomotion for Challenging Terrain ★★☆

足式机器人Sim2Real的最新代表。

与OpenAI魔方（灵巧手操作）不同，这篇展示了Sim2Real在双足机器人运动上的应用。任务挑战在于：机器人需要在崎岖地形上行走，地形的视觉和物理属性都难以精确建模。

技术要点：视觉域随机化 + 动力学域随机化的联合应用，以及如何在仿真中生成足够多样的地形来覆盖真实世界的情况。

第八站：仿真环境——工欲善其事，必先利其器（3篇）

选对仿真平台，Sim2Real事半功倍；选错平台，事倍功半。

23. MuJoCo: A Physics Engine for Model-Based Control ★★★

机器人强化学习的"操作系统"。

MuJoCo之于Sim2Real，就像Linux之于服务器——不是唯一选择，但一定是最主流的。它的高精度接触动力学模拟、快速的计算速度、对关节型机器人的原生支持，使其成为域随机化训练的首选平台。

选择建议：

24. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta RL ★★☆

Sim2Real研究的标准测试集。

50个机器人操作任务，覆盖推、拉、抓取、放置等基本操作。如果你开发了一个新的Sim2Real方法，Meta-World是最公平的"比武场"。

特别推荐：Meta-World的10个ML1任务（同一任务的不同变体）非常适合验证域随机化和域自适应方法——在仿真中训练，通过改变参数模拟"真实世界差异"，测试迁移性能。

25. CARLA: An Open Urban Driving Simulator ★★☆

自动驾驶Sim2Real的标准平台。如果你研究的是自动驾驶而非机器人操作，CARLA是首选仿真环境。它提供逼真的城市环境、丰富的传感器模拟（摄像头、激光雷达、GPS等），以及多智能体交通场景。

第九站：前沿方向——正在发生的变革（5篇）

Sim2Real领域正在经历一次范式转换——基础模型的引入正在重新定义"什么是好的表征"，Real2Sim2Real正在让"仿真到真实"变成"仿真即真实"。

26. Humanoid-Gym: Reinforcement Learning for Humanoid Robot with Zero-Shot Sim2Real Transfer ★★☆

零样本Sim2Real的最新进展。

在人形机器人上实现零样本迁移——不需要任何真实数据微调。核心技术是精心的域随机化设计+Isaac Gym的大规模并行训练。这篇论文展示了"纯仿真训练+直接部署"在2024年能达到的高度。

值得学习：论文中对人形机器人Sim2Real的特殊挑战分析——人形机器人比固定基座机械臂的Sim2Real难得多，因为运动过程中的动力学差异更复杂。

27. Learning to Manipulate Anywhere: A Visual Generalizable Framework For RL ★★☆

"通用操作"的Sim2Real。

传统Sim2Real关注"同一任务从仿真到真实"，这篇关注"同一策略在不同场景中都能工作"。利用预训练的视觉编码器（如R3M、VIP）提取通用视觉表征，使操作策略能泛化到未见过的环境和物体。

28. VR-goggles for Robots: Real-to-Sim Domain Adaptation for Visual Control ★☆☆

一个有趣的比喻：给机器人戴上"VR眼镜"——将真实世界图像翻译为仿真风格图像，让策略以为自己在仿真中运行。这个反向域自适应的思路虽然简单，但在实际部署中非常实用。

29. Self-Supervised Sim-to-Real Adaptation for Visual Robotic Manipulation ★☆☆

自监督域自适应。不需要域标签（哪些图像来自仿真、哪些来自真实），通过自监督学习自动对齐两个域的表征。适合真实数据完全无标注的场景。

30. An Imitation from Observation Approach to Transfer Learning with Dynamics Mismatch ★☆☆

从"观察"到"模仿"的迁移。当仿真与真实世界的动力学不同时，直接迁移动作是不可行的。这篇论文提出：不迁移动作，而是迁移"行为"——让真实机器人观察仿真中的成功轨迹，然后通过模仿学习在自己的动力学约束下复现行为。这是一个非常有前景的方向。

结语：论文之外

读完这30篇论文，你会发现Sim2Real领域有一个有趣的特征：最成功的方法往往不是最复杂的。Tobin的域随机化只是"加噪声"，OpenAI的ADR只是"自动调噪声范围"，GAT只是"学一个动作映射"——但它们之所以有效，是因为它们精准地命中了问题的核心。

Sim2Real的本质不是追求仿真与真实的完美匹配，而是理解差异在哪里、哪些差异对策略有影响、以及如何用最简单的方法处理这些差异。

希望这份推荐清单能帮你少走弯路。论文在精不在多，读懂20篇核心论文，远胜于浏览100篇。如果你的时间只够读5篇，推荐：Tobin 2017、Peng 2018、Bousmalis 2018、Hanna 2017、OpenAI 2019。这5篇构成了Sim2Real方法体系的骨架，其余都是血肉。

Sim2Real 论文推荐：从仿真到现实，这30篇论文值得你花时间

写在前面

列表

第一站：建立全局视野（3篇）

第二站：域随机化——简单但强大的基石（5篇）

第三站：域自适应——让仿真"看起来像"真实（4篇）

第四站：动作空间——被忽视的第三维度（3篇）

第五站：Real2Sim2Real——从"适应差异"到"消除差异"（2篇）

第六站：渐进式网络与元学习——“迁移"而不"遗忘”（3篇）

第七站：标杆案例——看顶级团队如何落地（2篇）

第八站：仿真环境——工欲善其事，必先利其器（3篇）

结语：论文之外

大模型核心基础知识(03)—大模型的分类方法与应用场景

从标准库到HAL库：手把手教你魔改淘宝1.3寸TFT屏例程，并用STM32CubeMX快速配置SPI驱动

【CTR预估技术演进】从FM到DeepFM：因子分解机家族的原理、演进与实战

3分钟专业解锁Mac NTFS读写：Free-NTFS-for-Mac深度实战指南

从零开始搭建个人游戏串流服务器：Sunshine完全指南

零代码文本挖掘神器：3分钟掌握KH Coder的终极指南