[具身智能-599]：传统的感知、决策、控制与大模型的感知、决策、控制的相同点与不同点，各自的技术方案。-编程阁

要理解具身智能（Embodied AI）的变革，必须厘清“传统机器人技术栈”与“大模型驱动技术栈”在感知、决策、控制这三个核心环节的本质区别。

简单来说，传统方案是“规则驱动”的精确数学计算，而大模型方案是“数据驱动”的语义推理与概率生成。

以下我为你详细拆解两者的相同点、不同点以及各自的技术方案。

无论是传统机器人还是具身智能，它们本质上都是智能体（Agent），都遵循经典的“感知-决策-执行”（Sense-Plan-Act）闭环逻辑：

我们将这三个环节拆解来看，你会发现底层的技术方案发生了翻天覆地的变化。

核心差异：

传统感知：关注“在哪里”和“是什么形状”。它擅长处理结构化数据（如点云、边缘），但对物体缺乏语义理解（不知道那是“易碎的玻璃杯”还是“柔软的毛巾”）。
大模型感知：关注“是什么”和“意味着什么”。它能理解开放世界的语义（文化属性），具备常识推理能力（例如：看到“水洒了”，能联想到“需要擦干”）（思维属性）。

维度	传统技术方案	大模型技术方案
核心逻辑	特征工程与几何计算	多模态对齐与语义表征
视觉算法	SLAM(即时定位与地图构建)、 SIFT/SURF(特征点提取)、 YOLO/R-CNN(特定类别的目标检测)。	Vision Transformer (ViT)、 CLIP(图文对齐)、 Segment Anything (SAM)(通用分割)。
数据形态	深度图、点云、RGB图像像素。	图像+文本的联合嵌入向量(Embedding)。
局限性	只能识别训练过的特定物体，遇到未知物体（如一个奇怪的玩偶）会失效；无法理解场景的语义（如“杂乱”）。	对几何精度的感知较弱，难以直接输出精确的3D坐标，且推理延迟较高。

核心差异：

表格

维度	传统技术方案	大模型技术方案
核心逻辑	有限状态机 (FSM)或行为树 (Behavior Tree)。	思维链 (Chain of Thought)与任务规划 (Task Planning)。
实现方式	工程师手写代码逻辑：`If (检测到障碍物) Then (停止)`。	模型自动生成逻辑：输入“做咖啡”，模型输出步骤`[找杯子, 接水, 加热, 倒水]`。
灵活性	极低。修改任务需要重新编程。	极高。通过提示词 (Prompt) 即可改变任务逻辑。
典型架构	分层架构中的“高层规划器”，通常基于逻辑符号。	VLM (视觉-语言模型) 充当“大脑”，负责理解意图和拆解任务。

核心差异：

表格

维度	传统技术方案	大模型技术方案
核心逻辑	基于模型的控制 (Model-Based Control)。	端到端策略学习 (Policy Learning)或模仿学习。
典型算法	PID(比例-积分-微分控制)、MPC(模型预测控制)、WBC(全身控制)。	VLA (视觉-语言-动作模型)、Diffusion Policy(扩散策略)、RT-1/RT-2。
输入输出	输入：目标轨迹/位置；输出：电机电流/力矩。	输入：图像+语言指令；输出：直接是动作令牌 (Action Tokens) 或关节目标。
优势	精度极高，稳定性好，适合高频（1kHz+）控制。	泛化性强，能处理非结构化接触（如插拔电线、叠衣服）。

虽然大模型在感知和决策上碾压传统算法，但在实时控制和稳定性上，传统算法依然不可替代。因此，目前最先进的具身智能（如Figure 01, Tesla Optimus）都采用了“大小脑协同”的混合架构：

大脑（大模型）：负责“慢思考”。
- 感知：理解环境语义（“桌上有个苹果”）。
- 决策：拆解任务（“走过去，抓起来”）。
- 技术方案：VLM, LLM, Transformer。
小脑/脊髓（传统算法/小模型）：负责“快反应”。
- 控制：维持平衡，处理高频力矩控制，防止摔倒。
- 技术方案：MPC, PID, 强化学习策略网络。