要理解具身智能(Embodied AI)的变革,必须厘清“传统机器人技术栈”与“大模型驱动技术栈”在感知、决策、控制这三个核心环节的本质区别。
简单来说,传统方案是“规则驱动”的精确数学计算,而大模型方案是“数据驱动”的语义推理与概率生成。
以下我为你详细拆解两者的相同点、不同点以及各自的技术方案。
🤝 一、 相同点:核心闭环未变
无论是传统机器人还是具身智能,它们本质上都是智能体(Agent),都遵循经典的“感知-决策-执行”(Sense-Plan-Act)闭环逻辑:
- 目标一致:都是为了完成特定任务(如“把苹果拿给我”或“走到A点”)。
- 依赖反馈:都需要通过传感器获取环境信息,并根据反馈调整自身状态。
- 物理约束:最终都必须转化为物理世界的动作(电机转动、力矩输出),受限于物理定律(动力学、运动学)。
⚖️ 二、 不同点与技术方案的深度对比
我们将这三个环节拆解来看,你会发现底层的技术方案发生了翻天覆地的变化。
1. 感知 (Perception):从“几何测量”到“语义理解”
核心差异:
- 传统感知:关注“在哪里”和“是什么形状”。它擅长处理结构化数据(如点云、边缘),但对物体缺乏语义理解(不知道那是“易碎的玻璃杯”还是“柔软的毛巾”)。
- 大模型感知:关注“是什么”和“意味着什么”。它能理解开放世界的语义(文化属性),具备常识推理能力(例如:看到“水洒了”,能联想到“需要擦干”)(思维属性)。
| 维度 | 传统技术方案 | 大模型技术方案 |
|---|---|---|
| 核心逻辑 | 特征工程与几何计算 | 多模态对齐与语义表征 |
| 视觉算法 | SLAM(即时定位与地图构建)、 SIFT/SURF(特征点提取)、 YOLO/R-CNN(特定类别的目标检测)。 | Vision Transformer (ViT)、 CLIP(图文对齐)、 Segment Anything (SAM)(通用分割)。 |
| 数据形态 | 深度图、点云、RGB图像像素。 | 图像+文本的联合嵌入向量(Embedding)。 |
| 局限性 | 只能识别训练过的特定物体,遇到未知物体(如一个奇怪的玩偶)会失效; 无法理解场景的语义(如“杂乱”)。 | 对几何精度的感知较弱,难以直接输出精确的3D坐标,且推理延迟较高。 |
2. 决策 (Decision-making):从“状态机”到“推理规划”
核心差异:
- 传统决策:基于预设规则。如果环境变化超出了预设的
If-Else逻辑,系统就会崩溃。它像一本写死的操作手册。 - 大模型决策:基于常识推理。大模型(大脑)可以将模糊的自然语言指令拆解为具体的步骤序列,并能处理从未见过的场景。
表格
| 维度 | 传统技术方案 | 大模型技术方案 |
|---|---|---|
| 核心逻辑 | 有限状态机 (FSM)或行为树 (Behavior Tree)。 | 思维链 (Chain of Thought)与任务规划 (Task Planning)。 |
| 实现方式 | 工程师手写代码逻辑:If (检测到障碍物) Then (停止)。 | 模型自动生成逻辑:输入“做咖啡”,模型输出步骤[找杯子, 接水, 加热, 倒水]。 |
| 灵活性 | 极低。修改任务需要重新编程。 | 极高。通过提示词 (Prompt) 即可改变任务逻辑。 |
| 典型架构 | 分层架构中的“高层规划器”,通常基于逻辑符号。 | VLM (视觉-语言模型) 充当“大脑”,负责理解意图和拆解任务。 |
3. 控制 (Control):从“模型计算”到“策略生成”
核心差异:
- 传统控制:依赖精确的物理数学模型。它假设我们知道机器人的质量、摩擦力、电机参数。如果抓取的物体比预想的重,传统控制器可能会震荡或失稳。
- 大模型控制:依赖数据训练出的策略(直觉)。它不依赖显式的物理公式,而是通过海量数据“学会”了如何用力。
表格
| 维度 | 传统技术方案 | 大模型技术方案 |
|---|---|---|
| 核心逻辑 | 基于模型的控制 (Model-Based Control)。 | 端到端策略学习 (Policy Learning)或模仿学习。 |
| 典型算法 | PID(比例-积分-微分控制)、MPC(模型预测控制)、WBC(全身控制)。 | VLA (视觉-语言-动作模型)、Diffusion Policy(扩散策略)、RT-1/RT-2。 |
| 输入输出 | 输入:目标轨迹/位置;输出:电机电流/力矩。 | 输入:图像+语言指令;输出:直接是动作令牌 (Action Tokens) 或关节目标。 |
| 优势 | 精度极高,稳定性好,适合高频(1kHz+)控制。 | 泛化性强,能处理非结构化接触(如插拔电线、叠衣服)。 |
🧩 三、 总结与融合:大小脑协同架构
虽然大模型在感知和决策上碾压传统算法,但在实时控制和稳定性上,传统算法依然不可替代。因此,目前最先进的具身智能(如Figure 01, Tesla Optimus)都采用了“大小脑协同”的混合架构:
- 大脑(大模型):负责“慢思考”。
- 感知:理解环境语义(“桌上有个苹果”)。
- 决策:拆解任务(“走过去,抓起来”)。
- 技术方案:VLM, LLM, Transformer。
- 小脑/脊髓(传统算法/小模型):负责“快反应”。
- 控制:维持平衡,处理高频力矩控制,防止摔倒。
- 技术方案:MPC, PID, 强化学习策略网络。
一句话总结:
传统的方案是“工程师把规则写进代码里”,精准但死板;
大模型的方案是“模型从数据里学会规律”,灵活但需要算力与数据喂养。
未来的具身智能,是用大模型的通用认知能力去指挥传统控制理论的精准执行能力。