news 2026/5/7 23:18:39

[具身智能-599]:传统的感知、决策、控制与大模型的感知、决策、控制的相同点与不同点,各自的技术方案。

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
[具身智能-599]:传统的感知、决策、控制与大模型的感知、决策、控制的相同点与不同点,各自的技术方案。

要理解具身智能(Embodied AI)的变革,必须厘清“传统机器人技术栈”与“大模型驱动技术栈”在感知、决策、控制这三个核心环节的本质区别

简单来说,传统方案是“规则驱动”的精确数学计算,而大模型方案是“数据驱动”的语义推理与概率生成。

以下我为你详细拆解两者的相同点、不同点以及各自的技术方案。

🤝 一、 相同点:核心闭环未变

无论是传统机器人还是具身智能,它们本质上都是智能体(Agent),都遵循经典的“感知-决策-执行”(Sense-Plan-Act)闭环逻辑:

  1. 目标一致:都是为了完成特定任务(如“把苹果拿给我”或“走到A点”)。
  2. 依赖反馈:都需要通过传感器获取环境信息,并根据反馈调整自身状态。
  3. 物理约束:最终都必须转化为物理世界的动作(电机转动、力矩输出),受限于物理定律(动力学、运动学)。

⚖️ 二、 不同点与技术方案的深度对比

我们将这三个环节拆解来看,你会发现底层的技术方案发生了翻天覆地的变化。

1. 感知 (Perception):从“几何测量”到“语义理解

核心差异

  • 传统感知:关注“在哪里”“是什么形状”。它擅长处理结构化数据(如点云、边缘),但对物体缺乏语义理解(不知道那是“易碎的玻璃杯”还是“柔软的毛巾”)。
  • 大模型感知:关注“是什么”“意味着什么”。它能理解开放世界的语义(文化属性),具备常识推理能力(例如:看到“水洒了”,能联想到“需要擦干”(思维属性)
维度传统技术方案大模型技术方案
核心逻辑特征工程与几何计算多模态对齐与语义表征
视觉算法

SLAM(即时定位与地图构建)、

SIFT/SURF(特征点提取)、

YOLO/R-CNN(特定类别的目标检测)。

Vision Transformer (ViT)

CLIP(图文对齐)、

Segment Anything (SAM)(通用分割)。

数据形态深度图、点云、RGB图像像素。图像+文本的联合嵌入向量(Embedding)。
局限性

只能识别训练过的特定物体,遇到未知物体(如一个奇怪的玩偶)会失效;

无法理解场景的语义(如“杂乱”)。

对几何精度的感知较弱,难以直接输出精确的3D坐标,且推理延迟较高
2. 决策 (Decision-making):从“状态机”到“推理规划”

核心差异

  • 传统决策:基于预设规则。如果环境变化超出了预设的If-Else逻辑,系统就会崩溃。它像一本写死的操作手册。
  • 大模型决策:基于常识推理。大模型(大脑)可以将模糊的自然语言指令拆解为具体的步骤序列,并能处理从未见过的场景。

表格

维度传统技术方案大模型技术方案
核心逻辑有限状态机 (FSM)行为树 (Behavior Tree)思维链 (Chain of Thought)任务规划 (Task Planning)
实现方式工程师手写代码逻辑:If (检测到障碍物) Then (停止)模型自动生成逻辑:输入“做咖啡”,模型输出步骤[找杯子, 接水, 加热, 倒水]
灵活性极低。修改任务需要重新编程。极高。通过提示词 (Prompt) 即可改变任务逻辑。
典型架构分层架构中的“高层规划器”,通常基于逻辑符号。VLM (视觉-语言模型) 充当“大脑”,负责理解意图和拆解任务。
3. 控制 (Control):从“模型计算”到“策略生成”

核心差异

  • 传统控制:依赖精确的物理数学模型。它假设我们知道机器人的质量、摩擦力、电机参数。如果抓取的物体比预想的重,传统控制器可能会震荡或失稳。
  • 大模型控制:依赖数据训练出的策略(直觉)。它不依赖显式的物理公式,而是通过海量数据“学会”了如何用力。

表格

维度传统技术方案大模型技术方案
核心逻辑基于模型的控制 (Model-Based Control)端到端策略学习 (Policy Learning)模仿学习
典型算法PID(比例-积分-微分控制)、MPC(模型预测控制)、WBC(全身控制)。VLA (视觉-语言-动作模型)Diffusion Policy(扩散策略)、RT-1/RT-2
输入输出输入:目标轨迹/位置;输出:电机电流/力矩。输入:图像+语言指令;输出:直接是动作令牌 (Action Tokens) 或关节目标。
优势精度极高,稳定性好,适合高频(1kHz+)控制。泛化性强,能处理非结构化接触(如插拔电线、叠衣服)。

🧩 三、 总结与融合:大小脑协同架构

虽然大模型在感知和决策上碾压传统算法,但在实时控制稳定性,传统算法依然不可替代。因此,目前最先进的具身智能(如Figure 01, Tesla Optimus)都采用了“大小脑协同”的混合架构

  1. 大脑(大模型):负责“慢思考”
    • 感知:理解环境语义(“桌上有个苹果”)。
    • 决策:拆解任务(“走过去,抓起来”)。
    • 技术方案:VLM, LLM, Transformer。
  2. 小脑/脊髓(传统算法/小模型):负责“快反应”
    • 控制维持平衡,处理高频力矩控制,防止摔倒。
    • 技术方案:MPC, PID, 强化学习策略网络。

一句话总结:
传统的方案是“工程师把规则写进代码里”,精准但死板;
大模型的方案是“模型从数据里学会规律”,灵活但需要算力与数据喂养。
未来的具身智能,是用大模型的通用认知能力去指挥传统控制理论的精准执行能力

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/7 23:15:30

2026年揭秘:超市塑料包装袋源头厂家究竟藏身何处?

在如今竞争激烈的商业世界里,塑料包装早已不再仅仅是一个简单的容器,它对于产品的品质保障、品牌形象塑造、成本控制以及安全合规等方面,都起着至关重要的作用。然而,市场上的包装厂家鱼龙混杂,真正能做到全品类覆盖、…

作者头像 李华
网站建设 2026/5/7 23:15:29

PCIe链路训练(LTSSM)实战避坑:从Detect到L0,你的仿真卡在哪一步了?

PCIe链路训练实战指南:从状态机原理到仿真问题定位 当你在深夜的实验室里盯着仿真波形,发现PCIe链路始终卡在Polling.Compliance状态时,那种挫败感我深有体会。三年前参与某款AI加速卡项目时,我们团队曾花了整整两周时间追踪一个诡…

作者头像 李华
网站建设 2026/5/7 23:14:40

ChanlunX:3步搞定通达信缠论分析,告别手工绘图烦恼

ChanlunX:3步搞定通达信缠论分析,告别手工绘图烦恼 【免费下载链接】ChanlunX 缠中说禅炒股缠论可视化插件 项目地址: https://gitcode.com/gh_mirrors/ch/ChanlunX 你是否曾在通达信软件中对着复杂的K线图,试图手动绘制缠论的笔、段和…

作者头像 李华
网站建设 2026/5/7 23:11:53

JSM8837DTR 1.8A/12V 低压 H 桥电机驱动芯片

在消费电子、智能硬件、小型机器人与电池供电运动控制场景中,一颗小体积、低功耗、强驱动、高可靠的电机驱动芯片,往往决定产品续航、响应速度与长期稳定性。杰盛微半导体(JSMSEMI)推出的JSM8837DTR,正是面向这类场景打…

作者头像 李华
网站建设 2026/5/7 23:11:23

LxRunOffline深度解析:Windows WSL离线管理的技术革命

LxRunOffline深度解析:Windows WSL离线管理的技术革命 【免费下载链接】LxRunOffline A full-featured utility for managing Windows Subsystem for Linux (WSL) 项目地址: https://gitcode.com/gh_mirrors/lx/LxRunOffline 还在为WSL安装的网络依赖而烦恼&…

作者头像 李华