PromptCraft-Robotics：用大语言模型驱动机器人完成物理任务-编程阁

1. 项目概述：当大语言模型遇见机器人

最近几年，大语言模型（LLM）的爆发式发展，让“让AI理解世界”这件事从科幻走进了现实。我们习惯了用自然语言和ChatGPT、Claude这样的模型对话，获取信息、生成代码、甚至进行创意写作。但你是否想过，如果能让这些拥有强大“大脑”的模型，去指挥一个物理世界的“身体”——比如一台机器人手臂——完成一些实际任务，那会是什么场景？

这正是微软研究院开源的PromptCraft-Robotics项目所探索的核心。简单来说，它不是一个全新的机器人操作系统，而是一个连接大语言模型与机器人控制系统的“翻译官”和“调度中心”。它的目标，是让开发者能够用我们最熟悉的自然语言（比如“请把桌上的红色积木放到蓝色盒子里”），去驱动真实的机器人完成复杂的、多步骤的物理操作。

这个项目的出现，背后反映了一个强烈的行业需求：如何降低机器人编程的门槛，并赋予其应对开放世界、非结构化任务的泛化能力？传统的机器人编程，无论是示教编程还是基于规则的代码，都极度依赖精确的环境建模和预设的动作序列。换个灯光、物体位置偏移一点，整套程序可能就失效了。而大语言模型所具备的常识推理、任务分解和代码生成能力，恰恰是弥补这一短板的绝佳候选。

PromptCraft-Robotics 试图搭建的，就是这样一座桥梁。它不生产“智能”，而是定义了一套清晰的协议和接口，让 OpenAI 的 GPT 系列、Google 的 PaLM 等现成的、强大的 LLM，能够安全、可靠地将人类的语言指令，转化为机器人可执行的动作序列（如移动、抓取、放置）。对于机器人研究者、AI工程师甚至是有一定编程基础的爱好者来说，这相当于提供了一个功能强大的“乐高底座”，让你可以快速将前沿的LLM能力与实体机器人结合，探索具身智能的无限可能。

2. 核心架构与设计哲学拆解

要理解 PromptCraft-Robotics 的价值，我们不能只把它看作一堆代码，而需要深入其设计哲学。它的核心目标不是取代现有的机器人中间件（如 ROS），而是在LLM与机器人之间，建立一个安全、可控、可解释的交互层。

2.1 核心组件：三层抽象架构

项目架构可以清晰地分为三层，每一层都解决一个关键问题：

第一层：自然语言任务解析与代码生成层这是LLM大显身手的地方。当你输入“清理桌面”这样的高级指令时，PromptCraft-Robotics 会精心设计一个“提示词”（Prompt），引导LLM进行任务分解。这个提示词不是简单的“请把这句话变成代码”，而是包含了丰富的上下文：

机器人能力描述：告诉LLM这台机器人有什么“技能”，比如“可以移动机械臂到指定坐标”、“可以控制夹爪开合”、“有一个摄像头可以识别物体”。
环境信息：可能通过视觉模型获取的简单场景描述，如“桌面上有一个红色方块、一个蓝色圆柱体和一个绿色球体”。
安全与约束：明确告知LLM动作的限制，比如“机械臂的运动范围是X-Y-Z坐标系，Z轴不能低于桌面高度”、“移动速度不能超过0.5米/秒”。
输出格式规范：严格要求LLM以特定的结构（如JSON或一段特定格式的Python代码片段）输出。

LLM在接收到这个精心构造的提示后，会进行推理，输出一个初步的、分步骤的任务计划。这个计划可能是一段伪代码，也可能直接调用项目预定义的一些高级函数。

第二层：技能库与安全校验层这是项目的“安全阀”和“技能工具箱”。LLM生成的计划往往是高级的、抽象的，甚至可能存在逻辑错误或不安全的建议（比如让机械臂撞向自己）。这一层的作用是：

技能映射：项目维护了一个“技能库”（Skill Library）。LLM生成的“抓取红色方块”指令，会被映射到库中一个名为pick(object_id=‘red_block’)的具体函数。这个函数是开发者预先用传统、可靠的方法编写好的，确保了基础动作的稳定性和安全性。
语法与逻辑校验：检查LLM输出的代码或指令序列是否符合预定义的语法，是否存在明显的逻辑矛盾（如要求机械臂同时去两个地方）。
初步安全过滤：对动作参数进行边界检查，例如目标位置是否在工作空间内，速度值是否在合理范围。

第三层：机器人平台接口与执行层这是最终落地的部分。经过校验的、原子化的技能指令（如move_to(x, y, z),gripper_open()），会被转换成目标机器人平台（如 Franka Emika Panda, Universal Robots UR5）能够理解的底层命令。这一层通常通过 ROS (Robot Operating System) 话题或服务，或者机器人厂商提供的SDK（如 Pyfranka, ur_rtde）来实现。项目提供了与主流仿真器（如 PyBullet, MuJoCo）和真实机器人的对接示例，极大地降低了集成难度。

2.2 设计哲学：LLM作为高级规划器，而非底层控制器

这是理解该项目最关键的一点。PromptCraft-Robotics坚决反对让LLM直接输出底层关节扭矩或电机脉冲信号。那种“端到端”的控制方式目前极其危险且不可靠。项目的设计哲学是：

让LLM做它擅长的事：高层任务分解、常识推理和代码生成；让传统机器人技术做它擅长的事：低层、稳定、安全的运动控制和感知。

这种“分层协同”的思路，既利用了LLM的泛化智能，又保证了系统的实际安全性和可行性。LLM在这里的角色更像是一个“项目经理”或“高级工程师”，它制定工作计划（任务序列），而具体的“搬砖”工作（轨迹规划、运动控制、力感知）则由经验丰富的“老师傅”（传统机器人算法）来完成。

3. 核心工作流程与实操要点

了解了架构，我们来看一个从用户指令到机器人动作的完整流程是如何运转的。我们以一个经典任务“搭积木”（将散落的积木堆成塔）为例。

3.1 流程逐步解析

步骤一：指令输入与环境感知用户给出指令：“请用桌上的积木搭一个三层塔，最下面用蓝色方块，中间用红色方块，最上面用绿色方块。” 同时，机器人通过头顶的摄像头获取场景图像，并使用一个视觉模型（如 Grounding DINO + SAM）进行物体检测与分割，输出结果可能是：[{'id': 1, 'type': 'block', 'color': 'blue', 'position': [0.2, 0.1, 0]}, {'id': 2, 'type': 'block', 'color': 'red', 'position': [0.1, -0.1, 0]}, ...]。这个环境状态列表会作为关键输入之一。

步骤二：提示词工程与LLM调用这是核心中的核心。PromptCraft-Robotics 的prompt_crafter模块会动态组装一个提示词发送给配置好的LLM（例如GPT-4）。这个提示词模板大致包含：

你是一个机器人任务规划师。机器人有以下技能函数可供调用： - scan_table(): 扫描桌面，返回物体列表。 - pick(object_id): 抓取指定ID的物体。 - place(object_id, position): 将抓取的物体放置到目标位置。 - move_home(): 机械臂回到安全初始位置。 当前桌面物体状态如下： {环境状态列表} 用户指令是：“{用户指令}” 请根据指令和当前状态，生成一个机器人可执行的、分步骤的任务序列。只输出一个有效的JSON数组，每个元素是一个技能函数调用，格式为：`{"skill": "函数名", "params": {"参数名": "参数值"}}`。 请确保任务逻辑正确且安全。

LLM在接收到这个提示后，可能会输出：

[ {"skill": "scan_table", "params": {}}, {"skill": "pick", "params": {"object_id": 1}}, {"skill": "place", "params": {"object_id": 1, "position": [0, 0, 0.05]}}, {"skill": "pick", "params": {"object_id": 2}}, {"skill": "place", "params": {"object_id": 2, "position": [0, 0, 0.1]}}, {"skill": "move_home", "params": {}} ]

步骤三：计划解析与技能调度task_executor模块收到这个JSON计划后，会逐条解析。它会检查：

技能名是否在已注册的技能库中。
参数是否齐全且类型正确（如object_id是否为整数，position是否为列表）。
顺序是否基本合理（例如，不可能在pick之前执行place）。

步骤四：技能执行与状态反馈校验通过后，调度器开始顺序执行。执行pick(object_id=1)时，会调用技能库中对应的函数。这个函数内部可能包含复杂的子步骤：

根据object_id=1查询到蓝色方块的当前位置[0.2, 0.1, 0]。
进行运动规划，计算出一条从当前位置避开障碍物移动到抓取点上方的轨迹。
控制机械臂沿轨迹移动。
下降夹爪，通过力传感器判断是否接触物体，然后闭合夹爪。
提升物体。每个技能执行完毕后，可能会更新内部的世界状态（例如，物体1被抓取后，其状态变为‘held_by_gripper’）。这个更新后的状态，可以在后续步骤中供LLM重新规划时使用（在更复杂的循环交互模式中）。

步骤五：异常处理与重规划如果某个技能执行失败（比如抓取时物体滑落），系统会捕获这个异常。简单的策略是重试几次。复杂的策略则是将当前的失败状态（“抓取物体1失败”）连同环境信息，再次组织成提示词发送给LLM，请求一个新的解决方案（例如，“物体表面太滑，尝试从侧面夹取”），实现闭环的任务执行。

3.2 实操中的关键要点与心得

1. 提示词设计是成败关键

结构化输出是必须的：强制要求LLM输出JSON、XML或特定格式的代码，是后续程序自动化解析的前提。自由文本回复无法处理。
提供充足的上下文：除了机器人技能，还应明确告知坐标系（是相对于机器人底座还是世界坐标系？单位是米还是毫米？）、运动约束、安全区域。信息越精确，LLM“胡编乱造”的可能性越低。
使用少样本示例（Few-Shot）：在提示词中提供1-2个输入输出示例，能极大地提升LLM输出的格式正确率和逻辑性。例如，先给一个“把A放到B左边”的例子，再让它规划“搭积木”。

2. 技能库的设计需要精心打磨

原子化与复用性：技能应该足够原子化，如pick,place,push,align。一个stack_blocks这样的高级技能虽然方便，但泛化能力差。原子技能更容易被LLM组合出无限可能。
健壮性优先：每个技能函数内部必须包含完备的错误处理和状态检查。例如，pick函数在规划轨迹前，应先确认目标物体是否存在且可达；在执行抓取动作时，应监测力传感器，判断是否抓取成功。
提供丰富的参数化接口：除了必要参数（如object_id），考虑提供可选参数（如approach_direction,speed_factor），让LLM在规划时有更细粒度的控制空间。

3. 仿真先行，安全第一在连接真实机器人之前，务必在仿真环境中进行充分测试。PyBullet或MuJoCo仿真可以快速暴露LLM规划中的物理不合理性（如规划路径穿过实体、抓取点选择不当导致物体翻转）。项目提供的仿真接口正是为此而生。在仿真中跑通整个流程，并模拟各种异常情况（物体被碰倒、初始位置随机化），是迈向真实世界不可或缺的一步。

注意：真实机器人操作具有危险性。即使仿真测试通过，首次在真机上运行时，也必须采取严格的安全措施：启用机器人的柔顺控制或低刚度模式，操作人员手指始终放在急停按钮上，从低速开始逐步测试。

4. 环境搭建与核心代码剖析

让我们进入实战环节，看看如何从零开始搭建一个基于 PromptCraft-Robotics 的简单演示系统。这里我们以在仿真环境中完成一个“拾取-放置”任务为例。

4.1 基础环境配置

项目主要基于 Python，并强烈依赖 ROS（用于真机）或仿真器。一个典型的开发环境配置如下：

# 1. 创建并激活Python虚拟环境（强烈推荐） python -m venv promptcraft_env source promptcraft_env/bin/activate # Linux/macOS # promptcraft_env\Scripts\activate # Windows # 2. 克隆仓库 git clone https://github.com/microsoft/PromptCraft-Robotics.git cd PromptCraft-Robotics # 3. 安装核心依赖 pip install -r requirements.txt # 关键依赖通常包括：openai, transformers, numpy, pybullet (用于仿真) # 4. 安装ROS（如果需要连接真机或使用ROS工具链） # 此处省略ROS安装步骤，请参考ROS官方文档安装Noetic或Humble版本。

配置LLM API密钥：项目需要调用如OpenAI的API。你需要将密钥设置为环境变量。

export OPENAI_API_KEY='your-api-key-here' # 或者在代码中通过 openai.api_key = ‘your-key’ 设置

4.2 技能库定义示例

技能库是项目的基石。我们来看一个最简单的PickPlaceSkill类的实现框架：

# skills/pick_place_skill.py import numpy as np from typing import Dict, Any, Optional class PickPlaceSkill: """一个简单的拾取放置技能类""" def __init__(self, robot_simulator): """初始化，传入机器人仿真器或控制器实例""" self.robot = robot_simulator self.held_object = None # 当前抓取的物体ID def execute(self, skill_name: str, params: Dict[str, Any]) -> Dict[str, Any]: """执行技能的主入口""" if skill_name == "pick": return self._pick(params) elif skill_name == "place": return self._place(params) elif skill_name == "scan": return self._scan(params) else: raise ValueError(f"未知技能: {skill_name}") def _pick(self, params: Dict) -> Dict: """执行抓取""" object_id = params.get("object_id") if object_id is None: return {"success": False, "error": "Missing 'object_id' parameter"} # 1. 获取物体当前位姿（从仿真器或视觉模块） obj_pose = self.robot.get_object_pose(object_id) if obj_pose is None: return {"success": False, "error": f"Object {object_id} not found"} # 2. 规划抓取路径（这里简化处理，直接移动到物体上方） grasp_pose = self._compute_grasp_pose(obj_pose) # 3. 控制机器人执行移动和抓取动作 success = self.robot.move_to(grasp_pose) if success: success = self.robot.close_gripper() if success: self.held_object = object_id return {"success": success, "held_object": self.held_object} def _place(self, params: Dict) -> Dict: """执行放置""" if self.held_object is None: return {"success": False, "error": "Gripper is empty"} position = params.get("position") # 期望放置的位置 [x, y, z] if position is None or len(position) != 3: return {"success": False, "error": "Invalid 'position' parameter"} # 计算放置点姿态（假设末端保持垂直向下） place_pose = position + [0, 0, 0.15] # 先移动到目标点上方15cm success = self.robot.move_to(place_pose) if success: success = self.robot.move_to(position) # 下降 if success: success = self.robot.open_gripper() # 释放物体 if success: self.held_object = None return {"success": success} def _scan(self, params: Dict) -> Dict: """扫描环境，返回物体列表""" # 调用仿真器或视觉模块的API获取物体信息 objects = self.robot.detect_objects() return {"success": True, "objects": objects} def _compute_grasp_pose(self, obj_pose): """简化版的抓取位姿计算：在物体正上方10cm处，末端垂直向下""" x, y, z, qx, qy, qz, qw = obj_pose # 假设位姿是 [x, y, z, qx, qy, qz, qw] grasp_position = [x, y, z + 0.1] # Z轴抬高10cm # 保持末端执行器垂直向下的姿态（根据你的机器人坐标系定义） grasp_orientation = [0, 0, 0, 1] # 单位四元数，代表无旋转 return grasp_position + grasp_orientation

这个技能类封装了底层机器人的控制细节，对外提供了干净、安全的pick,place,scan接口。LLM只需要知道这些接口的名字和参数格式即可。

4.3 任务执行器与LLM集成的核心循环

接下来是连接LLM和技能库的“大脑”——任务执行器。

# task_executor.py import openai import json from skills.pick_place_skill import PickPlaceSkill class RoboticsTaskExecutor: def __init__(self, skill_lib: PickPlaceSkill, llm_model="gpt-4"): self.skill_lib = skill_lib self.llm_model = llm_model self.system_prompt = """你是一个机器人任务规划师。请将用户指令转化为一系列可执行的机器人技能调用。技能列表如下： - scan(): 扫描桌面，返回物体列表。无参数。 - pick(object_id): 抓取指定ID的物体。参数: object_id (整数)。 - place(position): 放置当前抓取的物体到目标位置。参数: position (列表，如 [x, y, z])。 - move_home(): 回到初始位置。无参数。 请始终以JSON数组格式输出，每个元素格式为：{"skill": "技能名", "params": {参数键值对}}。 """ def craft_prompt(self, user_instruction: str, current_world_state: str = "") -> str: """组装发送给LLM的完整提示词""" prompt = f"{self.system_prompt}\n\n" if current_world_state: prompt += f"当前世界状态：{current_world_state}\n" prompt += f"用户指令：{user_instruction}\n" prompt += "请生成任务序列：" return prompt def get_llm_plan(self, prompt: str) -> list: """调用LLM API获取规划结果""" try: response = openai.ChatCompletion.create( model=self.llm_model, messages=[{"role": "user", "content": prompt}], temperature=0.1, # 低温度，保证输出稳定性 max_tokens=500 ) content = response.choices[0].message.content.strip() # 尝试从响应中解析JSON，LLM有时会在JSON外加引号或代码块标记 if content.startswith("```json"): content = content[7:-3] # 去除 ```json 和 ``` elif content.startswith("```"): content = content[3:-3] # 去除 ``` 和 ``` plan = json.loads(content) if not isinstance(plan, list): plan = [plan] return plan except (json.JSONDecodeError, KeyError, AttributeError) as e: print(f"LLM响应解析失败: {e}") print(f"原始响应: {content}") return [] def execute_plan(self, plan: list): """执行LLM生成的计划""" for i, step in enumerate(plan): skill_name = step.get("skill") params = step.get("params", {}) print(f"[Step {i+1}] 执行技能: {skill_name}, 参数: {params}") if not hasattr(self.skill_lib, 'execute'): print("错误：技能库未提供execute方法") break result = self.skill_lib.execute(skill_name, params) print(f"结果: {result}") if not result.get("success", False): print(f"技能 {skill_name} 执行失败，错误: {result.get('error')}") # 这里可以触发重试或重规划逻辑 break # 更新世界状态（例如，抓取成功后，更新物体状态） if skill_name == "pick" and result.get("held_object"): print(f"物体 {result['held_object']} 已被抓取。") elif skill_name == "place": print("物体已放置。") def run(self, user_instruction: str): """主运行循环""" print("开始执行任务...") # 1. 初始扫描环境 scan_result = self.skill_lib.execute("scan", {}) world_state = json.dumps(scan_result.get("objects", [])) # 2. 生成提示词并获取LLM规划 prompt = self.craft_prompt(user_instruction, world_state) print(f"发送给LLM的提示词:\n---\n{prompt}\n---") plan = self.get_llm_plan(prompt) print(f"LLM生成的计划:\n{json.dumps(plan, indent=2)}") # 3. 执行计划 self.execute_plan(plan) print("任务执行结束。")

这段代码勾勒出了系统的核心循环：感知环境 -> 构造提示 -> LLM规划 -> 执行校验 -> 技能调度。你可以看到，如何将LLM“粘合”到机器人控制流水线中。

5. 典型问题排查与性能优化实战

在实际部署和测试 PromptCraft-Robotics 系统时，你会遇到各种各样的问题。下面是我在多次实验中总结的一些典型“坑”及其解决方案。

5.1 LLM规划失败问题排查表

问题现象	可能原因	排查步骤与解决方案
LLM输出格式错误，无法解析为JSON。	1. 提示词中未明确要求JSON格式。 2. Temperature参数过高，导致输出随机。 3. LLM在JSON外添加了额外解释文本。	1.强化提示词：在system prompt中明确“只输出JSON，不要任何其他文字”。使用Few-Shot示例展示正确格式。 2.降低Temperature：设置为0.1或0.2，增加确定性。 3.后处理清洗：在解析前，用正则表达式（如r‘```json\n(.*?)\n```’）提取代码块内的JSON。
LLM生成的技能名或参数名错误，如拼写错误、大小写不一致。	技能库的API描述不够清晰或LLM未能准确理解。	1.规范化命名：技能名使用简洁、全小写、下划线分隔的格式，如`pick_up`而非`pickUp`。 2.在提示词中提供技能签名：以类似Python函数定义的方式列出，如`pick(object_id: int) -> dict`。 3.建立技能别名映射：在解析层，将LLM可能输出的常见变体（如`grab`,`pickUp`）映射到标准的`pick`。
LLM规划的逻辑错误，如试图抓取不存在的物体，或动作顺序矛盾。	1. 提供给LLM的环境状态信息过时或不准确。 2. 任务本身模糊或存在歧义。 3. LLM的物理常识不足。	1.实现状态同步：每次技能执行后，都更新世界状态并反馈给LLM。采用“感知-规划-执行”的闭环，而非开环一次性规划。 2.任务具象化：引导用户给出更具体的指令，或让LLM在规划前先提问澄清（多轮对话）。 3.在提示词中加入物理约束：明确写出“机械臂不能穿过桌子”、“一次只能抓取一个物体”等常识。
LLM规划过于保守或死板，无法处理轻微的环境变化。	LLM被过度约束，或提示词限制了其创造性解决问题的能力。	1.引入重规划机制：当技能执行失败（如抓取滑落）时，将错误信息（`“抓取失败，物体可能太滑”`）和当前状态反馈给LLM，让其重新规划。 2.提供恢复策略：在技能库中设计一些恢复性技能，如`nudge_object`（轻推物体）、`retry_pick_with_different_pose`（换位姿重抓），并在提示词中告知LLM这些技能的存在。

5.2 系统性能与稳定性优化技巧

1. 缓存与复用LLM响应对于常见的、确定性的任务（如“回家”、“初始化”），LLM每次都会生成相同的计划。这既浪费API调用费用，也增加延迟。可以在执行器层添加一个简单的缓存机制，将(用户指令, 世界状态哈希)作为键，存储LLM的响应结果。对于完全相同的请求，直接使用缓存。

2. 分层规划与混合倡议对于非常复杂的长期任务，让LLM一次性规划所有步骤容易出错且效率低下。可以采用分层规划：

高层LLM规划器：只负责分解出3-5个高级子目标（如“1. 找到红色方块；2. 将其移动到A区；3. 找到蓝色圆柱...”）。
中层符号规划器：使用更传统、快速且确定的规划算法（如PDDL规划器），将每个高级子目标展开为具体的技能序列。
底层技能执行器：不变。这种混合架构结合了LLM的泛化能力和传统规划器的可靠性。

3. 技能参数的自动校准与学习LLM生成的参数（如放置位置[x, y, z]）可能不精确。可以在技能执行层加入一个“微调”步骤。例如，对于place技能，可以先让机械臂移动到LLM指定的位置附近，然后使用视觉伺服（Visual Servoing）自动调整到精确的放置点。更进一步，可以记录成功执行的动作参数，形成一个小型数据集，微调一个轻量级模型来预测更准确的参数，减少对LLM输出精度的依赖。

4. 仿真到真实的域适应在仿真中运行流畅的系统，一到真机就出问题，这是机器人学的经典难题。除了基本的相机标定、手眼标定外，针对LLM部分：

在仿真中注入噪声：在仿真训练时，就给物体位置、相机观测添加随机噪声，让LLM学会生成对噪声鲁棒的计划。
使用域随机化的视觉特征：如果LLM的提示词中包含视觉描述（由视觉模型生成），确保用于生成描述的视觉模型是在包含大量真实世界噪声数据上训练的，或者使用域随机化技术增强仿真图像。
真机验证闭环：在真机上建立一个快速的验证循环，用最简单的任务（如“触摸那个点”）测试从语言到动作的整个流水线，逐个环节排查问题。

6. 项目局限性与未来演进思考

PromptCraft-Robotics 作为一个开创性的项目，清晰地指出了方向，但离真正的“通用机器人”还有很长的路要走。在实际使用中，你会深刻感受到它的局限性，而这些也正是未来的机会所在。

当前主要局限：

提示词工程的脆弱性：系统的表现极度依赖于提示词的设计。换一个任务场景，可能就需要重新调整提示词模板、示例和约束条件。这更像是一门“艺术”而非“科学”，难以规模化。
LLM的“幻觉”与物理不准确：LLM毕竟是在文本上训练的，它对物理世界尺寸、重量、摩擦力、力学交互的理解是肤浅且经常出错的。它可能会规划出看似合理但物理上不可能实现的动作序列。
实时性差：调用云端LLM API（如GPT-4）会有显著的延迟（几百毫秒到数秒），这对于需要快速响应的动态环境（如物体在传送带上移动）是不可接受的。
状态估计的误差累积：系统严重依赖准确的世界状态（物体位姿）。视觉感知的误差、机器人定位的误差会在执行过程中累积，导致任务失败，而LLM目前缺乏处理这种连续状态误差的能力。
长程任务规划能力有限：对于需要几十步、包含复杂条件分支和循环的长期任务，现有LLM的规划能力会迅速下降，容易迷失在任务细节中或出现逻辑矛盾。

可能的演进方向：

从提示词工程到可学习策略：未来的系统可能会用一个小型的、可训练的“策略网络”来替代大部分手工设计的提示词。这个网络学习如何根据当前任务和状态，去动态地构造最有效的提示词或直接调用技能。
具身微调与物理常识注入：使用机器人在仿真和真实世界中交互产生的数据（成功与失败的轨迹）来微调LLM本身。让LLM在“身体力行”中学习物理常识，减少“幻觉”。这就是所谓的“具身微调”。
轻量级本地模型与边缘计算：随着MoE、小型化LLM（如Phi-3, Qwen2.5-Coder）的发展，将规划模型部署到本地或机器人机载电脑成为可能，大幅降低延迟，保护数据隐私。
紧密耦合的感知-规划-执行框架：将视觉模型、LLM规划器、运动规划器更紧密地集成，甚至端到端训练。例如，让LLM直接输出基于视觉特征的空间目标，而不是抽象的符号命令。
人类在环的交互与修正：承认系统的不完美，设计流畅的人机交互接口。当机器人困惑或失败时，能以最自然的方式（如语言、手势）向人类求助，并理解人类的修正指令，实现持续学习。

在我个人看来，PromptCraft-Robotics 最大的价值在于它提供了一个极其灵活、易于上手的“试验台”。它让机器人研究者、AI工程师能够以极低的成本，将最先进的LLM与机器人硬件连接起来，快速验证想法，探索人机交互的新范式。它可能不是最终答案，但它无疑是通向最终答案道路上的一块关键铺路石。对于想要进入“具身智能”这个火热领域的开发者来说，从这个项目开始动手实践，会是一个绝佳的起点。