机器人Sim2Real领域的论文浩如烟海,哪些真正值得精读?哪些只需略读?哪些组合起来读效果最佳?本文基于技术深度和实际影响力,给出一份有态度的推荐清单。
论文集已打包,微信添加雨馨
备注“仿真论文”,直接获取
写在前面
做Sim2Real研究最痛苦的不是论文读不完,而是读完之后依然不知道——
·自己的问题到底该用域随机化还是域自适应?
·为什么Tobin那篇IROS 2017明明方法简单到不可思议,却成了整个领域的起点?
·OpenAI魔方那篇,到底值不值得花一整周去啃?
这篇文章试图回答这些问题。文章不会把所有论文平等对待——有些论文改变了一个方向,有些论文只是锦上添花。文章会给出明确的推荐等级和阅读建议,帮你把有限的时间花在刀刃上。
推荐等级说明:
列表
https://www.shenlanxueyuan.com/page/296?transform=631a7e5bb9https://www.shenlanxueyuan.com/page/296?transform=631a7e5bb9
第一站:建立全局视野(3篇)
别急着啃方法论文。先读综述,脑子里有了地图,后面才不会迷路。
1. Sim-to-Real Transfer in Deep Reinforcement Learning for Robotics: a Survey ★★★
为什么首推这篇?
它是Sim2Real领域第一篇系统性的深度强化学习综述,发表时间恰好卡在域随机化方法成熟、域自适应方法兴起的节点上。读完这篇,你对整个领域的技术脉络就能形成一张清晰的思维导图。
技术亮点:论文将Sim2Real方法分为六大类——系统辨识、域随机化、域自适应、渐进式网络、模仿学习、元学习,这种分类方式至今仍是领域内的主流框架。
阅读建议:重点看第III-V节的分类框架和各方法的对比表格,这些是你后续读方法论文时的"导航仪"。
2. Crossing the Reality Gap: A Survey on Sim-to-Real Transferability of Robot Controllers in Reinforcement Learning ★★☆
与第1篇的区别:Zhao的综述偏"方法导向",这篇偏"迁移性导向"——它更关注"什么因素决定了迁移成功率",而非"有什么方法"。两篇互补着读效果最好。
特别值得看:论文中对"reality gap"的类型学分析——将gap细分为视觉gap、动力学gap、传感器gap、动作gap,这个框架非常实用,直接帮你判断自己的问题属于哪种gap、该用什么方法。
3. A Survey of Sim-to-Real Methods in RL: Progress, Prospects and Challenges with Foundation Models ★★☆
为什么需要2025年的新综述? 因为这个领域正在被基础模型重塑。传统方法(域随机化、域自适应)的边界正在被VLM/LLM打破,这篇综述是第一个系统讨论"基础模型如何赋能Sim2Real"的工作。
阅读建议:如果你已经读过2020-2021年的综述,这篇重点看Foundation Model相关章节;如果是新人,建议先读前两篇再读这篇。
第二站:域随机化——简单但强大的基石(5篇)
域随机化是Sim2Real领域最"反直觉"的方法:不追求仿真精确,反而追求仿真多样。这个思路简单到让人怀疑它为什么有效——但事实是,它至今仍是工业界最常用的Sim2Real方法。
4. Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World ★★★
必须读这篇的理由:
这是域随机化的开山之作,也是Sim2Real领域被引用最多的论文之一。它的影响力不在于技术多复杂——方法简单到你可以在一个下午复现出来——而在于它提出了一个范式级的想法:与其追求仿真精确,不如追求仿真多样。
技术要点:论文只做了一件事——在仿真中随机化纹理、光照、摄像机位姿、噪声,然后训练目标检测网络。但结果震撼:零真实数据,直接迁移到真实世界,定位精度1.5cm。
精读什么:
· Section III的随机化参数列表——这是后续几乎所有域随机化工作的起点
· Figure 3的随机化前后对比——直观理解"为什么随机化有效"
· Section V的分析——随机化范围与性能的trade-off
一句话评价:方法极简,思想深刻。每个做Sim2Real的人都应该读这篇。
5. Sim-to-Real Transfer of Robotic Control with Dynamics Randomization ★★★
Tobin解决了视觉gap,Peng解决了动力学gap。
这篇论文把域随机化从"看得见的"(视觉)推进到"看不见的"(动力学)。随机化的对象变成了:质量、摩擦、阻尼、执行器增益、关节延迟……这些参数在仿真中可以精确控制,但在真实世界中永远无法完全获知。
为什么这篇比Tobin更难复现?因为动力学随机化对随机化范围极其敏感。随机化范围太小,策略不够鲁棒;太大,任务可能变得不可解。论文中有一段关于这个trade-off的分析非常精彩,值得反复体会。
精读什么:
· Table I的随机化参数列表——这成了后续动力学域随机化的标准配置
· Section IV-C的随机化范围分析——理解"多样性vs可解性"的核心矛盾
· 随机化与递归策略的结合——用RNN隐式推断环境参数
与Tobin的对比:
6. Understanding Domain Randomization for Sim-to-Real Transfer ★★☆
域随机化的理论分析——为什么它有效?
Tobin和Peng告诉你"域随机化有效",但这篇论文告诉你"为什么有效"以及"什么时候可能无效"。它从理论上证明了域随机化的成功条件:随机化分布需要覆盖真实世界的参数,但覆盖范围过大会降低策略质量。
为什么推荐:大多数域随机化的论文都是empirical的,“调参靠经验"是常态。这篇论文是少数尝试给出理论解释的工作,读完之后你对域随机化的理解会从"试试看"升级到"知道为什么”。
7. DROPO: Sim-to-Real Transfer with Offline Domain Randomization ★★☆
域随机化最大的痛点是什么?调随机化范围。
DROPO用真实世界的离线数据自动推断最优随机化分布,直接消除了最耗时的调参环节。如果你在实际项目中使用域随机化,DROPO是最值得尝试的"工程化改进"。
实用价值:在工业场景中,你往往有一些真实数据但不多。DROPO恰好利用这种"少量真实数据+大量仿真数据"的场景,自动学习应该随机化什么、随机化多少。
8. Active Domain Randomization ★☆☆
与DROPO的区别:DROPO是"离线的",用已有真实数据推断分布;Active DR是"在线的",主动选择训练时应该随机化哪些参数。思路不同但互补。
选读建议:如果你更关注"如何高效地做域随机化训练",读这篇;如果你更关注"如何从真实数据推断随机化分布",读DROPO。
第三站:域自适应——让仿真"看起来像"真实(4篇)
域随机化是"让策略适应差异",域自适应是"消除差异本身"。两种思路的根本区别在于:前者不改数据改策略,后者改数据让策略更容易学。
9. Using Simulation and Domain Adaptation to Improve Efficiency of Deep Robotic Grasping ★★★
域自适应用于真实机器人的里程碑。
这篇论文的重要性在于:它不只是证明了域自适应"理论上可行",而是在真实机器人上证明了域自适应能将抓取成功率提升约30%。这种"从仿真到真实"的完整闭环在当时极其罕见。
技术路线:仿真生成图像 → GAN转换为真实风格 → 在转换后图像上训练策略 → 部署到真实机器人
精读什么:
· Section III的系统架构图——这是域自适应用于机器人的标准pipeline
· Section V的消融实验——域自适应 vs 纯仿真 vs 真实数据,定量对比
· 与Tobin 2017的对比——域随机化 vs 域自适应,在相同任务上的差异
一句话评价:如果你只读一篇域自适应的论文,读这篇。
10. Unsupervised Pixel-Level Domain Adaptation with Generative Adversarial Networks ★★☆
第9篇的理论基础。这篇提出了像素级域自适应的核心方法——用GAN将仿真图像翻译为真实风格图像,同时保持语义内容。如果你理解了这篇的技术细节,第9篇的架构就完全透明了。
与CycleGAN的区别:这篇引入了"内容损失"(content loss)来确保语义一致性,比普通CycleGAN更适合机器人场景——因为对机器人来说,物体位置信息的保真度远比图像美观重要。
11. RL-CycleGAN: Reinforcement Learning Aware Simulation-to-Real ★★☆
域自适应的一个关键问题:图像好看≠对策略有用。
普通CycleGAN追求图像逼真,但可能丢失对控制任务至关重要的信息(比如物体的精确边缘位置)。RL-CycleGAN在损失函数中加入策略损失,确保翻译后的图像既逼真又保留了控制相关信息。
为什么推荐:这篇论文揭示了一个深刻的问题——在Sim2Real场景中,域自适应的优化目标应该是什么? 纯视觉质量?还是下游任务性能?答案是后者,而RL-CycleGAN给出了一个优雅的解决方案。
12. RetinaGAN: An Object-Aware Approach to Sim-to-Real Transfer ★☆☆
RL-CycleGAN的进一步演进。RetinaGAN在GAN的判别器中加入物体感知能力,确保翻译后物体的形状和位置更加精确。如果你在做物体操作任务,这篇比RL-CycleGAN更实用。
第四站:动作空间——被忽视的第三维度(3篇)
大多数人关注"看不一样"(视觉gap)和"动不一样"(动力学gap),但很少有人注意到"执行不一样"(动作gap)。然而在真实机器人上,动作延迟、执行噪声、控制频率不匹配等问题往往比视觉差异更致命。
13. Grounded Action Transformation for Robot Learning in Simulation ★★★
动作空间迁移的开山之作。
这篇论文提出了一个精妙的想法:与其在仿真中训练一个"完美"的策略然后期望它在真实世界上工作,不如学习一个动作转换函数,将策略输出的动作"翻译"成真实机器人能正确执行的动作。
技术直觉:假设仿真器是 $f_{sim}(s,a)$,真实世界是 $f_{real}(s,a)$。GAT学习一个转换函数 $T$,使得 $f_{sim}(s, T(a)) \approx f_{real}(s, a)$。这样策略在仿真中看到的效果就和真实世界一致了。
为什么这篇被低估了?因为它发表在2017年的AAAI上,被同年Tobin的域随机化论文的光芒所掩盖。但从工程角度看,GAT是一种更精确、更可控的Sim2Real方法,特别适合动力学gap较大的场景。
14. Reinforced Grounded Action Transformation for Sim-to-Real Transfer ★★☆
GAT的强化学习升级版。原始GAT需要显式学习真实世界动力学模型,R-GAT直接用RL优化动作转换策略,绕过了建模步骤。
实用建议:如果你有足够的真实数据来学习动力学模型,用原始GAT(更稳定);如果真实数据有限,用R-GAT(更灵活)。
15. Reinforcement Learning with Random Delays ★★☆
一个被严重低估的问题:真实机器人的动作执行存在不可避免的延迟(通常5-50ms),但仿真训练几乎不考虑这个因素。这篇论文系统研究了延迟的影响,并提出在训练中随机化延迟来提升鲁棒性。
为什么特别推荐这篇?因为延迟问题是几乎所有Sim2Real部署都会遇到的"隐性杀手"。你的策略在仿真中完美,部署后却抖动不稳,大概率是延迟没处理好。
第五站:Real2Sim2Real——从"适应差异"到"消除差异"(2篇)
域随机化是"不管差异,策略扛住就行";域自适应是"消除表面差异"
Real2Sim2Real是"从源头消除差异"——让仿真本身足够真实。
16. Reconciling Reality Through Simulation: A Real-to-Sim-to-Real Framework for Robust Manipulation ★★★
2024年Sim2Real领域最重要的工作之一。
RialTo提出了一种范式转换:不再纠结于"如何迁移",而是先"让仿真变得像真实",然后在精确的仿真中训练,最后零样本迁移回真实。
技术流程:
· 用少量真实数据(几十张照片)重建高保真仿真场景
· 在重建场景中训练策略(使用域随机化作为补充)
· 零样本迁移到真实世界
为什么这篇值得关注?因为它代表了一种趋势——随着3D重建和NeRF/Gaussian Splatting技术的成熟,"快速重建真实场景"正在变得可行且廉价。Real2Sim2Real可能成为Sim2Real的下一个主流范式。
精读什么:
· Section III的Real-to-Sim pipeline——理解如何从照片到仿真
· 与纯域随机化的对比实验——量化"精确仿真+少量随机化"的优势
· 局限性讨论——什么场景下Real2Sim2Real不如域随机化
17. RoboGSim: Real2Sim2Real范式的数据合成器 ★☆☆
RialTo思路的工程化延伸。RoboGSim使用3D Gaussian Splatting重建真实场景,支持高保真的演示数据合成和闭环评估。如果你打算在项目中实现Real2Sim2Real,RoboGSim提供了更成熟的工具链。
第六站:渐进式网络与元学习——“迁移"而不"遗忘”(3篇)
域随机化和域自适应都有一个隐含假设:真实世界数据很贵,我们尽量少用。但如果允许用少量真实数据微调呢?关键问题变成了:如何微调而不遗忘仿真学到的知识?
18. Sim-to-Real Robot Learning from Pixels with Progressive Nets ★★★
解决灾难性遗忘的经典方案。
在Sim2Real微调场景中,直接在真实数据上fine-tune会导致"灾难性遗忘"——策略快速适应了真实数据,但把仿真中学到的通用技能忘得一干二净。Progressive Networks通过"冻结旧网络+添加新网络+横向连接"的架构,完美解决了这个问题。
架构直觉:想象你在学开车(仿真),然后要适应雪地驾驶(真实)。Progressive Networks的做法不是"改写你的驾驶知识",而是"在原有驾驶知识旁边长出一层雪地适应层",两者同时工作。
实验亮点:在机器人操作任务上,Progressive Nets将真实世界所需数据量减少了一个数量级——从需要数千次真实交互降到数百次。
19. Continuous Adaptation via Meta-Learning in Nonstationary and Competitive Environments ★★☆
元学习的Sim2Real应用。
与Progressive Nets"冻结知识"的思路不同,元学习追求"学会快速适应"。这篇论文将Sim2Real建模为"非平稳环境中的持续适应"问题——真实世界的参数不仅与仿真不同,还可能随时间变化(如机器人磨损、负载变化)。
什么时候用元学习而非渐进式网络?
20. Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks ★★☆
MAML——元学习的通用框架。虽然不是专门为Sim2Real设计,但MAML是第19篇的理论基础,也是Sim2Real元学习方法中使用最广泛的框架。它的核心思想:寻找一个初始化参数,使得在任意新任务上只需1-2步梯度下降就能适配。
在Sim2Real中的用法:将不同随机化参数下的仿真视为不同任务,用MAML元训练策略,部署到真实世界时只需几步微调。
第七站:标杆案例——看顶级团队如何落地(2篇)
技术论文告诉你"方法怎么用",标杆案例告诉你"真正的问题是什么"。
21. Solving Rubik’s Cube with a Robot Hand ★★★
Sim2Real领域最具标志性的成果。
OpenAI用一只模拟人手在真实机器人上解魔方——这个Demo震撼了整个社区。但论文的价值远不止于Demo本身,它是一份Sim2Real工程化的完整手册。
这篇论文的真正贡献:
· 自动域随机化(ADR):不是手动设定随机化范围,而是让算法自动调整。策略在某一级别的随机化下表现足够好后,自动提高随机化难度。这是"课程学习+域随机化"的完美结合。
· 不对称Actor-Critic:Critic在训练时使用仿真特权信息(精确状态),Actor只使用真实可获得的观测(图像+关节角)。这让训练更高效,同时确保部署时策略不依赖特权信息。
· 大规模工程细节:论文详细记录了训练规模(10,000+ CPU核心)、分布式训练架构、真实世界部署的工程挑战。这些"不那么学术"的细节往往是决定项目成败的关键。
阅读策略:这篇论文很长,不要一口气读完。建议分三次读——
第一次:读Introduction + Method Overview,理解整体框架
第二次:细读ADR和Asymmetric Actor-Critic,理解核心创新
第三次:读实验和工程细节,理解落地挑战
22. Learning Vision-Based Bipedal Locomotion for Challenging Terrain ★★☆
足式机器人Sim2Real的最新代表。
与OpenAI魔方(灵巧手操作)不同,这篇展示了Sim2Real在双足机器人运动上的应用。任务挑战在于:机器人需要在崎岖地形上行走,地形的视觉和物理属性都难以精确建模。
技术要点:视觉域随机化 + 动力学域随机化的联合应用,以及如何在仿真中生成足够多样的地形来覆盖真实世界的情况。
第八站:仿真环境——工欲善其事,必先利其器(3篇)
选对仿真平台,Sim2Real事半功倍;选错平台,事倍功半。
23. MuJoCo: A Physics Engine for Model-Based Control ★★★
机器人强化学习的"操作系统"。
MuJoCo之于Sim2Real,就像Linux之于服务器——不是唯一选择,但一定是最主流的。它的高精度接触动力学模拟、快速的计算速度、对关节型机器人的原生支持,使其成为域随机化训练的首选平台。
选择建议:
24. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta RL ★★☆
Sim2Real研究的标准测试集。
50个机器人操作任务,覆盖推、拉、抓取、放置等基本操作。如果你开发了一个新的Sim2Real方法,Meta-World是最公平的"比武场"。
特别推荐:Meta-World的10个ML1任务(同一任务的不同变体)非常适合验证域随机化和域自适应方法——在仿真中训练,通过改变参数模拟"真实世界差异",测试迁移性能。
25. CARLA: An Open Urban Driving Simulator ★★☆
自动驾驶Sim2Real的标准平台。如果你研究的是自动驾驶而非机器人操作,CARLA是首选仿真环境。它提供逼真的城市环境、丰富的传感器模拟(摄像头、激光雷达、GPS等),以及多智能体交通场景。
第九站:前沿方向——正在发生的变革(5篇)
Sim2Real领域正在经历一次范式转换——基础模型的引入正在重新定义"什么是好的表征",Real2Sim2Real正在让"仿真到真实"变成"仿真即真实"。
26. Humanoid-Gym: Reinforcement Learning for Humanoid Robot with Zero-Shot Sim2Real Transfer ★★☆
零样本Sim2Real的最新进展。
在人形机器人上实现零样本迁移——不需要任何真实数据微调。核心技术是精心的域随机化设计+Isaac Gym的大规模并行训练。这篇论文展示了"纯仿真训练+直接部署"在2024年能达到的高度。
值得学习:论文中对人形机器人Sim2Real的特殊挑战分析——人形机器人比固定基座机械臂的Sim2Real难得多,因为运动过程中的动力学差异更复杂。
27. Learning to Manipulate Anywhere: A Visual Generalizable Framework For RL ★★☆
"通用操作"的Sim2Real。
传统Sim2Real关注"同一任务从仿真到真实",这篇关注"同一策略在不同场景中都能工作"。利用预训练的视觉编码器(如R3M、VIP)提取通用视觉表征,使操作策略能泛化到未见过的环境和物体。
28. VR-goggles for Robots: Real-to-Sim Domain Adaptation for Visual Control ★☆☆
一个有趣的比喻:给机器人戴上"VR眼镜"——将真实世界图像翻译为仿真风格图像,让策略以为自己在仿真中运行。这个反向域自适应的思路虽然简单,但在实际部署中非常实用。
29. Self-Supervised Sim-to-Real Adaptation for Visual Robotic Manipulation ★☆☆
自监督域自适应。不需要域标签(哪些图像来自仿真、哪些来自真实),通过自监督学习自动对齐两个域的表征。适合真实数据完全无标注的场景。
30. An Imitation from Observation Approach to Transfer Learning with Dynamics Mismatch ★☆☆
从"观察"到"模仿"的迁移。当仿真与真实世界的动力学不同时,直接迁移动作是不可行的。这篇论文提出:不迁移动作,而是迁移"行为"——让真实机器人观察仿真中的成功轨迹,然后通过模仿学习在自己的动力学约束下复现行为。这是一个非常有前景的方向。
结语:论文之外
读完这30篇论文,你会发现Sim2Real领域有一个有趣的特征:最成功的方法往往不是最复杂的。Tobin的域随机化只是"加噪声",OpenAI的ADR只是"自动调噪声范围",GAT只是"学一个动作映射"——但它们之所以有效,是因为它们精准地命中了问题的核心。
Sim2Real的本质不是追求仿真与真实的完美匹配,而是理解差异在哪里、哪些差异对策略有影响、以及如何用最简单的方法处理这些差异。
希望这份推荐清单能帮你少走弯路。论文在精不在多,读懂20篇核心论文,远胜于浏览100篇。如果你的时间只够读5篇,推荐:Tobin 2017、Peng 2018、Bousmalis 2018、Hanna 2017、OpenAI 2019。这5篇构成了Sim2Real方法体系的骨架,其余都是血肉。