news 2026/4/24 19:21:39

Sim2Real 论文推荐:从仿真到现实,这30篇论文值得你花时间

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Sim2Real 论文推荐:从仿真到现实,这30篇论文值得你花时间

机器人Sim2Real领域的论文浩如烟海,哪些真正值得精读?哪些只需略读?哪些组合起来读效果最佳?本文基于技术深度和实际影响力,给出一份有态度的推荐清单。

论文集已打包,微信添加雨馨

备注“仿真论文”,直接获取

写在前面

做Sim2Real研究最痛苦的不是论文读不完,而是读完之后依然不知道——

·自己的问题到底该用域随机化还是域自适应?

·为什么Tobin那篇IROS 2017明明方法简单到不可思议,却成了整个领域的起点?

·OpenAI魔方那篇,到底值不值得花一整周去啃?

这篇文章试图回答这些问题。文章不会把所有论文平等对待——有些论文改变了一个方向,有些论文只是锦上添花。文章会给出明确的推荐等级和阅读建议,帮你把有限的时间花在刀刃上。

推荐等级说明:

列表

https://www.shenlanxueyuan.com/page/296?transform=631a7e5bb9https://www.shenlanxueyuan.com/page/296?transform=631a7e5bb9

第一站:建立全局视野(3篇)

别急着啃方法论文。先读综述,脑子里有了地图,后面才不会迷路。

1. Sim-to-Real Transfer in Deep Reinforcement Learning for Robotics: a Survey ★★★

为什么首推这篇?

它是Sim2Real领域第一篇系统性的深度强化学习综述,发表时间恰好卡在域随机化方法成熟、域自适应方法兴起的节点上。读完这篇,你对整个领域的技术脉络就能形成一张清晰的思维导图。

技术亮点:论文将Sim2Real方法分为六大类——系统辨识、域随机化、域自适应、渐进式网络、模仿学习、元学习,这种分类方式至今仍是领域内的主流框架。

阅读建议:重点看第III-V节的分类框架和各方法的对比表格,这些是你后续读方法论文时的"导航仪"。

2. Crossing the Reality Gap: A Survey on Sim-to-Real Transferability of Robot Controllers in Reinforcement Learning ★★☆

与第1篇的区别:Zhao的综述偏"方法导向",这篇偏"迁移性导向"——它更关注"什么因素决定了迁移成功率",而非"有什么方法"。两篇互补着读效果最好。

特别值得看:论文中对"reality gap"的类型学分析——将gap细分为视觉gap、动力学gap、传感器gap、动作gap,这个框架非常实用,直接帮你判断自己的问题属于哪种gap、该用什么方法。

3. A Survey of Sim-to-Real Methods in RL: Progress, Prospects and Challenges with Foundation Models ★★☆

为什么需要2025年的新综述? 因为这个领域正在被基础模型重塑。传统方法(域随机化、域自适应)的边界正在被VLM/LLM打破,这篇综述是第一个系统讨论"基础模型如何赋能Sim2Real"的工作。

阅读建议:如果你已经读过2020-2021年的综述,这篇重点看Foundation Model相关章节;如果是新人,建议先读前两篇再读这篇。

第二站:域随机化——简单但强大的基石(5篇)

域随机化是Sim2Real领域最"反直觉"的方法:不追求仿真精确,反而追求仿真多样。这个思路简单到让人怀疑它为什么有效——但事实是,它至今仍是工业界最常用的Sim2Real方法。

4. Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World ★★★

必须读这篇的理由:

这是域随机化的开山之作,也是Sim2Real领域被引用最多的论文之一。它的影响力不在于技术多复杂——方法简单到你可以在一个下午复现出来——而在于它提出了一个范式级的想法:与其追求仿真精确,不如追求仿真多样。

技术要点:论文只做了一件事——在仿真中随机化纹理、光照、摄像机位姿、噪声,然后训练目标检测网络。但结果震撼:零真实数据,直接迁移到真实世界,定位精度1.5cm。

精读什么:

· Section III的随机化参数列表——这是后续几乎所有域随机化工作的起点

· Figure 3的随机化前后对比——直观理解"为什么随机化有效"

· Section V的分析——随机化范围与性能的trade-off

一句话评价:方法极简,思想深刻。每个做Sim2Real的人都应该读这篇。

5. Sim-to-Real Transfer of Robotic Control with Dynamics Randomization ★★★

Tobin解决了视觉gap,Peng解决了动力学gap。

这篇论文把域随机化从"看得见的"(视觉)推进到"看不见的"(动力学)。随机化的对象变成了:质量、摩擦、阻尼、执行器增益、关节延迟……这些参数在仿真中可以精确控制,但在真实世界中永远无法完全获知。

为什么这篇比Tobin更难复现?因为动力学随机化对随机化范围极其敏感。随机化范围太小,策略不够鲁棒;太大,任务可能变得不可解。论文中有一段关于这个trade-off的分析非常精彩,值得反复体会。

精读什么:

· Table I的随机化参数列表——这成了后续动力学域随机化的标准配置

· Section IV-C的随机化范围分析——理解"多样性vs可解性"的核心矛盾

· 随机化与递归策略的结合——用RNN隐式推断环境参数

与Tobin的对比:

6. Understanding Domain Randomization for Sim-to-Real Transfer ★★☆

域随机化的理论分析——为什么它有效?

Tobin和Peng告诉你"域随机化有效",但这篇论文告诉你"为什么有效"以及"什么时候可能无效"。它从理论上证明了域随机化的成功条件:随机化分布需要覆盖真实世界的参数,但覆盖范围过大会降低策略质量。

为什么推荐:大多数域随机化的论文都是empirical的,“调参靠经验"是常态。这篇论文是少数尝试给出理论解释的工作,读完之后你对域随机化的理解会从"试试看"升级到"知道为什么”。

7. DROPO: Sim-to-Real Transfer with Offline Domain Randomization ★★☆

域随机化最大的痛点是什么?调随机化范围。

DROPO用真实世界的离线数据自动推断最优随机化分布,直接消除了最耗时的调参环节。如果你在实际项目中使用域随机化,DROPO是最值得尝试的"工程化改进"。

实用价值:在工业场景中,你往往有一些真实数据但不多。DROPO恰好利用这种"少量真实数据+大量仿真数据"的场景,自动学习应该随机化什么、随机化多少。

8. Active Domain Randomization ★☆☆

与DROPO的区别:DROPO是"离线的",用已有真实数据推断分布;Active DR是"在线的",主动选择训练时应该随机化哪些参数。思路不同但互补。

选读建议:如果你更关注"如何高效地做域随机化训练",读这篇;如果你更关注"如何从真实数据推断随机化分布",读DROPO。

第三站:域自适应——让仿真"看起来像"真实(4篇)

域随机化是"让策略适应差异",域自适应是"消除差异本身"。两种思路的根本区别在于:前者不改数据改策略,后者改数据让策略更容易学。

9. Using Simulation and Domain Adaptation to Improve Efficiency of Deep Robotic Grasping ★★★

域自适应用于真实机器人的里程碑。

这篇论文的重要性在于:它不只是证明了域自适应"理论上可行",而是在真实机器人上证明了域自适应能将抓取成功率提升约30%。这种"从仿真到真实"的完整闭环在当时极其罕见。

技术路线:仿真生成图像 → GAN转换为真实风格 → 在转换后图像上训练策略 → 部署到真实机器人

精读什么:

· Section III的系统架构图——这是域自适应用于机器人的标准pipeline

· Section V的消融实验——域自适应 vs 纯仿真 vs 真实数据,定量对比

· 与Tobin 2017的对比——域随机化 vs 域自适应,在相同任务上的差异

一句话评价:如果你只读一篇域自适应的论文,读这篇。

10. Unsupervised Pixel-Level Domain Adaptation with Generative Adversarial Networks ★★☆

第9篇的理论基础。这篇提出了像素级域自适应的核心方法——用GAN将仿真图像翻译为真实风格图像,同时保持语义内容。如果你理解了这篇的技术细节,第9篇的架构就完全透明了。

与CycleGAN的区别:这篇引入了"内容损失"(content loss)来确保语义一致性,比普通CycleGAN更适合机器人场景——因为对机器人来说,物体位置信息的保真度远比图像美观重要。

11. RL-CycleGAN: Reinforcement Learning Aware Simulation-to-Real ★★☆

域自适应的一个关键问题:图像好看≠对策略有用。

普通CycleGAN追求图像逼真,但可能丢失对控制任务至关重要的信息(比如物体的精确边缘位置)。RL-CycleGAN在损失函数中加入策略损失,确保翻译后的图像既逼真又保留了控制相关信息。

为什么推荐:这篇论文揭示了一个深刻的问题——在Sim2Real场景中,域自适应的优化目标应该是什么? 纯视觉质量?还是下游任务性能?答案是后者,而RL-CycleGAN给出了一个优雅的解决方案。

12. RetinaGAN: An Object-Aware Approach to Sim-to-Real Transfer ★☆☆

RL-CycleGAN的进一步演进。RetinaGAN在GAN的判别器中加入物体感知能力,确保翻译后物体的形状和位置更加精确。如果你在做物体操作任务,这篇比RL-CycleGAN更实用。

第四站:动作空间——被忽视的第三维度(3篇)

大多数人关注"看不一样"(视觉gap)和"动不一样"(动力学gap),但很少有人注意到"执行不一样"(动作gap)。然而在真实机器人上,动作延迟、执行噪声、控制频率不匹配等问题往往比视觉差异更致命。

13. Grounded Action Transformation for Robot Learning in Simulation ★★★

动作空间迁移的开山之作。

这篇论文提出了一个精妙的想法:与其在仿真中训练一个"完美"的策略然后期望它在真实世界上工作,不如学习一个动作转换函数,将策略输出的动作"翻译"成真实机器人能正确执行的动作。

技术直觉:假设仿真器是 $f_{sim}(s,a)$,真实世界是 $f_{real}(s,a)$。GAT学习一个转换函数 $T$,使得 $f_{sim}(s, T(a)) \approx f_{real}(s, a)$。这样策略在仿真中看到的效果就和真实世界一致了。

为什么这篇被低估了?因为它发表在2017年的AAAI上,被同年Tobin的域随机化论文的光芒所掩盖。但从工程角度看,GAT是一种更精确、更可控的Sim2Real方法,特别适合动力学gap较大的场景。

14. Reinforced Grounded Action Transformation for Sim-to-Real Transfer ★★☆

GAT的强化学习升级版。原始GAT需要显式学习真实世界动力学模型,R-GAT直接用RL优化动作转换策略,绕过了建模步骤。

实用建议:如果你有足够的真实数据来学习动力学模型,用原始GAT(更稳定);如果真实数据有限,用R-GAT(更灵活)。

15. Reinforcement Learning with Random Delays ★★☆

一个被严重低估的问题:真实机器人的动作执行存在不可避免的延迟(通常5-50ms),但仿真训练几乎不考虑这个因素。这篇论文系统研究了延迟的影响,并提出在训练中随机化延迟来提升鲁棒性。

为什么特别推荐这篇?因为延迟问题是几乎所有Sim2Real部署都会遇到的"隐性杀手"。你的策略在仿真中完美,部署后却抖动不稳,大概率是延迟没处理好。

第五站:Real2Sim2Real——从"适应差异"到"消除差异"(2篇)

域随机化是"不管差异,策略扛住就行";域自适应是"消除表面差异"

Real2Sim2Real是"从源头消除差异"——让仿真本身足够真实。

16. Reconciling Reality Through Simulation: A Real-to-Sim-to-Real Framework for Robust Manipulation ★★★

2024年Sim2Real领域最重要的工作之一。

RialTo提出了一种范式转换:不再纠结于"如何迁移",而是先"让仿真变得像真实",然后在精确的仿真中训练,最后零样本迁移回真实。

技术流程:

· 用少量真实数据(几十张照片)重建高保真仿真场景

· 在重建场景中训练策略(使用域随机化作为补充)

· 零样本迁移到真实世界

为什么这篇值得关注?因为它代表了一种趋势——随着3D重建和NeRF/Gaussian Splatting技术的成熟,"快速重建真实场景"正在变得可行且廉价。Real2Sim2Real可能成为Sim2Real的下一个主流范式。

精读什么:

· Section III的Real-to-Sim pipeline——理解如何从照片到仿真

· 与纯域随机化的对比实验——量化"精确仿真+少量随机化"的优势

· 局限性讨论——什么场景下Real2Sim2Real不如域随机化

17. RoboGSim: Real2Sim2Real范式的数据合成器 ★☆☆

RialTo思路的工程化延伸。RoboGSim使用3D Gaussian Splatting重建真实场景,支持高保真的演示数据合成和闭环评估。如果你打算在项目中实现Real2Sim2Real,RoboGSim提供了更成熟的工具链。

第六站:渐进式网络与元学习——“迁移"而不"遗忘”(3篇)

域随机化和域自适应都有一个隐含假设:真实世界数据很贵,我们尽量少用。但如果允许用少量真实数据微调呢?关键问题变成了:如何微调而不遗忘仿真学到的知识?

18. Sim-to-Real Robot Learning from Pixels with Progressive Nets ★★★

解决灾难性遗忘的经典方案。

在Sim2Real微调场景中,直接在真实数据上fine-tune会导致"灾难性遗忘"——策略快速适应了真实数据,但把仿真中学到的通用技能忘得一干二净。Progressive Networks通过"冻结旧网络+添加新网络+横向连接"的架构,完美解决了这个问题。

架构直觉:想象你在学开车(仿真),然后要适应雪地驾驶(真实)。Progressive Networks的做法不是"改写你的驾驶知识",而是"在原有驾驶知识旁边长出一层雪地适应层",两者同时工作。

实验亮点:在机器人操作任务上,Progressive Nets将真实世界所需数据量减少了一个数量级——从需要数千次真实交互降到数百次。

19. Continuous Adaptation via Meta-Learning in Nonstationary and Competitive Environments ★★☆

元学习的Sim2Real应用。

与Progressive Nets"冻结知识"的思路不同,元学习追求"学会快速适应"。这篇论文将Sim2Real建模为"非平稳环境中的持续适应"问题——真实世界的参数不仅与仿真不同,还可能随时间变化(如机器人磨损、负载变化)。

什么时候用元学习而非渐进式网络?

20. Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks ★★☆

MAML——元学习的通用框架。虽然不是专门为Sim2Real设计,但MAML是第19篇的理论基础,也是Sim2Real元学习方法中使用最广泛的框架。它的核心思想:寻找一个初始化参数,使得在任意新任务上只需1-2步梯度下降就能适配。

在Sim2Real中的用法:将不同随机化参数下的仿真视为不同任务,用MAML元训练策略,部署到真实世界时只需几步微调。

第七站:标杆案例——看顶级团队如何落地(2篇)

技术论文告诉你"方法怎么用",标杆案例告诉你"真正的问题是什么"。

21. Solving Rubik’s Cube with a Robot Hand ★★★

Sim2Real领域最具标志性的成果。

OpenAI用一只模拟人手在真实机器人上解魔方——这个Demo震撼了整个社区。但论文的价值远不止于Demo本身,它是一份Sim2Real工程化的完整手册。

这篇论文的真正贡献:

· 自动域随机化(ADR):不是手动设定随机化范围,而是让算法自动调整。策略在某一级别的随机化下表现足够好后,自动提高随机化难度。这是"课程学习+域随机化"的完美结合。

· 不对称Actor-Critic:Critic在训练时使用仿真特权信息(精确状态),Actor只使用真实可获得的观测(图像+关节角)。这让训练更高效,同时确保部署时策略不依赖特权信息。

· 大规模工程细节:论文详细记录了训练规模(10,000+ CPU核心)、分布式训练架构、真实世界部署的工程挑战。这些"不那么学术"的细节往往是决定项目成败的关键。

阅读策略:这篇论文很长,不要一口气读完。建议分三次读——

第一次:读Introduction + Method Overview,理解整体框架

第二次:细读ADR和Asymmetric Actor-Critic,理解核心创新

第三次:读实验和工程细节,理解落地挑战

22. Learning Vision-Based Bipedal Locomotion for Challenging Terrain ★★☆

足式机器人Sim2Real的最新代表。

与OpenAI魔方(灵巧手操作)不同,这篇展示了Sim2Real在双足机器人运动上的应用。任务挑战在于:机器人需要在崎岖地形上行走,地形的视觉和物理属性都难以精确建模。

技术要点:视觉域随机化 + 动力学域随机化的联合应用,以及如何在仿真中生成足够多样的地形来覆盖真实世界的情况。

第八站:仿真环境——工欲善其事,必先利其器(3篇)

选对仿真平台,Sim2Real事半功倍;选错平台,事倍功半。

23. MuJoCo: A Physics Engine for Model-Based Control ★★★

机器人强化学习的"操作系统"。

MuJoCo之于Sim2Real,就像Linux之于服务器——不是唯一选择,但一定是最主流的。它的高精度接触动力学模拟、快速的计算速度、对关节型机器人的原生支持,使其成为域随机化训练的首选平台。

选择建议:

24. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta RL ★★☆

Sim2Real研究的标准测试集。

50个机器人操作任务,覆盖推、拉、抓取、放置等基本操作。如果你开发了一个新的Sim2Real方法,Meta-World是最公平的"比武场"。

特别推荐:Meta-World的10个ML1任务(同一任务的不同变体)非常适合验证域随机化和域自适应方法——在仿真中训练,通过改变参数模拟"真实世界差异",测试迁移性能。

25. CARLA: An Open Urban Driving Simulator ★★☆

自动驾驶Sim2Real的标准平台。如果你研究的是自动驾驶而非机器人操作,CARLA是首选仿真环境。它提供逼真的城市环境、丰富的传感器模拟(摄像头、激光雷达、GPS等),以及多智能体交通场景。

第九站:前沿方向——正在发生的变革(5篇)

Sim2Real领域正在经历一次范式转换——基础模型的引入正在重新定义"什么是好的表征",Real2Sim2Real正在让"仿真到真实"变成"仿真即真实"。

26. Humanoid-Gym: Reinforcement Learning for Humanoid Robot with Zero-Shot Sim2Real Transfer ★★☆

零样本Sim2Real的最新进展。

在人形机器人上实现零样本迁移——不需要任何真实数据微调。核心技术是精心的域随机化设计+Isaac Gym的大规模并行训练。这篇论文展示了"纯仿真训练+直接部署"在2024年能达到的高度。

值得学习:论文中对人形机器人Sim2Real的特殊挑战分析——人形机器人比固定基座机械臂的Sim2Real难得多,因为运动过程中的动力学差异更复杂。

27. Learning to Manipulate Anywhere: A Visual Generalizable Framework For RL ★★☆

"通用操作"的Sim2Real。

传统Sim2Real关注"同一任务从仿真到真实",这篇关注"同一策略在不同场景中都能工作"。利用预训练的视觉编码器(如R3M、VIP)提取通用视觉表征,使操作策略能泛化到未见过的环境和物体。

28. VR-goggles for Robots: Real-to-Sim Domain Adaptation for Visual Control ★☆☆

一个有趣的比喻:给机器人戴上"VR眼镜"——将真实世界图像翻译为仿真风格图像,让策略以为自己在仿真中运行。这个反向域自适应的思路虽然简单,但在实际部署中非常实用。

29. Self-Supervised Sim-to-Real Adaptation for Visual Robotic Manipulation ★☆☆

自监督域自适应。不需要域标签(哪些图像来自仿真、哪些来自真实),通过自监督学习自动对齐两个域的表征。适合真实数据完全无标注的场景。

30. An Imitation from Observation Approach to Transfer Learning with Dynamics Mismatch ★☆☆

从"观察"到"模仿"的迁移。当仿真与真实世界的动力学不同时,直接迁移动作是不可行的。这篇论文提出:不迁移动作,而是迁移"行为"——让真实机器人观察仿真中的成功轨迹,然后通过模仿学习在自己的动力学约束下复现行为。这是一个非常有前景的方向。

结语:论文之外

读完这30篇论文,你会发现Sim2Real领域有一个有趣的特征:最成功的方法往往不是最复杂的。Tobin的域随机化只是"加噪声",OpenAI的ADR只是"自动调噪声范围",GAT只是"学一个动作映射"——但它们之所以有效,是因为它们精准地命中了问题的核心。

Sim2Real的本质不是追求仿真与真实的完美匹配,而是理解差异在哪里、哪些差异对策略有影响、以及如何用最简单的方法处理这些差异。

希望这份推荐清单能帮你少走弯路。论文在精不在多,读懂20篇核心论文,远胜于浏览100篇。如果你的时间只够读5篇,推荐:Tobin 2017、Peng 2018、Bousmalis 2018、Hanna 2017、OpenAI 2019。这5篇构成了Sim2Real方法体系的骨架,其余都是血肉。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/24 19:15:45

大模型核心基础知识(03)—大模型的分类方法与应用场景

版权声明 本文原创作者:谷哥的小弟作者博客地址:http://blog.csdn.net/lfdfhl大模型并不是单一形态的技术对象。随着模型结构、训练方式和应用目标不断扩展,人们通常从不同角度对大模型进行分类。分类的目的,不只是给模型贴上标签…

作者头像 李华
网站建设 2026/4/24 19:10:26

【CTR预估技术演进】从FM到DeepFM:因子分解机家族的原理、演进与实战

1. 从逻辑回归到FM:为什么我们需要特征交叉? 十年前我刚入行推荐系统时,整个行业还在用逻辑回归(LR)打天下。记得第一次看到LR模型在稀疏特征上的表现时,简直怀疑人生——明明特征工程做得那么辛苦,AUC却死活上不去0.7…

作者头像 李华
网站建设 2026/4/24 19:09:21

3分钟专业解锁Mac NTFS读写:Free-NTFS-for-Mac深度实战指南

3分钟专业解锁Mac NTFS读写:Free-NTFS-for-Mac深度实战指南 【免费下载链接】Free-NTFS-for-Mac Nigate: An open-source NTFS utility for Mac. It supports all Mac models (Intel and Apple Silicon), providing full read-write access, mounting, and manageme…

作者头像 李华
网站建设 2026/4/24 19:06:42

从零开始搭建个人游戏串流服务器:Sunshine完全指南

从零开始搭建个人游戏串流服务器:Sunshine完全指南 【免费下载链接】Sunshine Self-hosted game stream host for Moonlight. 项目地址: https://gitcode.com/GitHub_Trending/su/Sunshine 你是否梦想过在平板、手机或客厅电视上流畅游玩PC上的3A大作&#x…

作者头像 李华
网站建设 2026/4/24 19:05:28

零代码文本挖掘神器:3分钟掌握KH Coder的终极指南

零代码文本挖掘神器:3分钟掌握KH Coder的终极指南 【免费下载链接】khcoder KH Coder: for Quantitative Content Analysis or Text Mining 项目地址: https://gitcode.com/gh_mirrors/kh/khcoder 还在为复杂的文本分析代码而头疼吗?文本挖掘工具…

作者头像 李华