用灵珠 AI + Rokid 智能眼镜，打造「眼前即课堂」的实景教学助手-编程阁

一副眼镜，一个 AI 助手，让你在做饭、拼装、维修的现场，不用低头看手机，每一步都有人"贴耳"提示。

前言

你有没有过这种经历：

跟着视频教程做饭，看到一半找不到进度，手上全是油
拼乐高 / 装家具，说明书翻来翻去，螺丝装错了才发现
修东西怕弄坏，犹犹豫豫不敢下手

如果有一双"眼睛"，能直接在你眼前浮现下一步该做什么——那是什么体验？

这就是我今天要分享的方案：灵珠 AI 平台 + Rokid 智能眼镜 + 定制提示词智能体，三者联动，把「眼前实景」变成「第一现场课堂」。

一、工具介绍

1.1 灵珠 AI —— 零门槛的 AI 智能体创建平台

灵珠 AI 是一个允许用户自定义 AI 智能体（Agent）的平台，核心能力包括：

自定义提示词：用自然语言描述你的智能体是做什么的
轮对话记忆：智能体可以记住场景状态，理解"上一步"
语音/文字双模态：结合 Rokid 眼镜的语音输出能力，可以做到「听」而不是「看」
开放联动：支持 API 或眼镜直连，适合硬件开发者

1.2 Rokid 智能眼镜 —— 把屏幕搬到眼前

Rokid 智能眼镜可以将 AI 生成的文字信息以悬浮字幕的形式投影在眼前视野中，优势：

无需低头：操作时信息就在眼前，不遮挡手部动作
第一视角记录：眼镜的摄像头可以捕捉你看到的场景
语音播报：结合 TTS，把指令"说"给你听
轻便佩戴：日常操作场景下长时间佩戴不累

1.3 核心思路

用户眼前实景（做饭/拼装/维修） ↓（Rokid摄像头捕获） 灵珠AI智能体（理解场景+记忆历史步骤） ↓ 生成「下一步操作指令」 ↓ Rokid眼镜AR显示+语音播报 ↓ 用户跟随执行→发起下一步指令

二、智能体创建实战

下面演示我在灵珠 AI 平台上创建「实景实操一步通」智能体的完整过程。

2.1 创建智能体

填写内容参考：

配置项	填写内容
智能体名称	实景实操一步通
类别	学习
智能体功能介绍	专为各类实操场景打造的实景教学助手，做饭、手工、拼装、维修等全场景适用。无需反复翻看视频、图文教程，佩戴设备后，会贴合你眼前的操作实景，实时同步推送下一步操作指令，精准提示动作顺序、操作时机、关键细节与注意事项。跟着现场指引一步步完成，新手也能轻松上手，把活儿干明白、干到位。
提示词测试输入	我现在在做西红柿炒鸡蛋，下一步该怎么做？

2.2 填写提示词

这是整个方案最关键的部分——好的提示词决定智能体能否理解场景并给出精准的下一步指令。

提示词参考：

你是「实景实操一步通」AR实景教学专属大模型，核心使命是基于用户当前操作的实景画面，精准判断操作进度、推送下一步指令、同步关键注意事项，帮用户零门槛、零失误完成全品类实操任务，彻底告别反复翻看图文/视频教程的痛点。 ## 核心能力要求 1. **画面理解与进度判断**：接收用户上传的当前操作实景图片/实时画面，快速识别操作场景（做饭、手工、拼装、维修、实验、乐器练习等全品类）、当前操作步骤、已完成/未完成环节、操作是否规范、是否存在安全隐患，精准定位用户所处操作节点，不跳步、不遗漏，完全贴合实景进度。 2. **下一步指令生成**：基于当前进度，输出清晰、可执行、分点的下一步操作指令，指令必须具象化、可落地，避免模糊表述；严格遵循操作逻辑按顺序推送，每一步只讲当前要做的事，不提前剧透后续步骤；适配AR实景场景，指令可直接叠加在用户眼前画面，符合佩戴设备的阅读习惯；复杂操作拆分多步小指令，降低理解成本。 ## 交互规则与输出规范 1. **交互流程**：首次交互用预设开场白欢迎用户，引导上传当前操作实景图片/说明实操项目；接收画面/项目后，先确认场景与当前进度，再输出「下一步操作」；用户完成操作后，等待新实景画面，循环推送下一步指令直至任务完成；任务完成后输出总结、验收标准、后续保养/收尾建议，结束流程。 2. **输出格式（严格遵循）**： ``` 【当前进度确认】 （1句话明确用户当前操作节点，如：当前已完成番茄切块，进入炒蛋环节） 【下一步操作指令】 1. （具体操作步骤1，具象化、可执行） 2. （具体操作步骤2，无多步可只写1条） ... ） ``` 3. **语气与风格**：通用场景亲切友好、通俗易懂，像手把手教学的师傅，适配新手；专业场景（维修、实验等）严谨专业、精准规范，同时保持易懂，避免晦涩术语；全程耐心，不催促、不敷衍，用户有疑问随时拆解细化指令。 4. **场景适配要求**：全场景兼容，覆盖所有需要分步操作的实操场景；支持用户自定义实操项目，无预设教程库时，基于通用操作逻辑生成合理指引；可根据用户熟练度（新手/熟练）调整指令详细程度，新手更细化，熟练者更简洁。 ## 边界与限制 仅处理实操类分步操作相关需求，拒绝与实操教学无关的请求；严格遵守安全规范，绝不推送存在安全风险的操作指令，涉及危险操作必须明确警示；不编造不存在的操作方法，对不熟悉的场景如实说明并提供通用安全指引；保护用户隐私，不要求提供无关个人信息。

2.3 测试验证

完成以上配置后，接下来就是激动人心的部分——戴上眼镜，真实走进厨房场景，验证整个链路是否跑通。整个过程分两步：先在灵珠 AI 平台快速验证提示词是否生效，再无缝切换到 Rokid 眼镜端，体验眼前即课堂的实景效果。

第一步：灵珠 AI 平台快速验证

在灵珠 AI 平台的测试窗口中直接输入以下口令，观察智能体是否给出清晰的下一步操作指令：

测试口令：我现在在做西红柿炒鸡蛋，下一步该怎么做？

如果返回结果包含具体步骤和注意事项（如"先处理西红柿：划十字→沸水烫→去皮→切块"），说明提示词配置正确，可以进入眼镜端实测。

第二步：Rokid 眼镜端实测

确认平台端无误后，佩戴眼镜进入真实场景，具体操作步骤如下：

1. 打开 Rokid App，连接眼镜

手机解锁，打开Rokid App，确保蓝牙已开启并将眼镜开机配对。App 首页会自动显示设备信息。

2. 进入开发者选项，开启调试模式
（1）点击主页右上角的**设置图标**，进入「眼镜设置」页面。

（2）向下滑动找到并点击 **「开发者」** 选项，进入开发者设置页。

（3）开启「眼镜ADB调试」开关（如果需要接入自定义智能体，此步骤为必须）。

4. 点击「智能体调试」选项，进入调试页面。

3.启动「实景实操一步通」智能体

在「智能体调试」页面，找到名为「实景实操一步通」的智能体卡片，点击右侧的「开启」按钮，完成技能的启动与加载。

4.佩戴眼镜，进入实景交互模式

佩戴好 Rokid 眼镜，等待 AR 界面加载完成：

眼镜画面中会出现「实景实操一步通」的技能卡片。
界面会出现悬浮文字提示与麦克风图标，表示已进入语音/实景交互状态。

5.说出实操场景，查看眼前指引

对着眼镜说出你的场景指令（或直接说唤醒词“乐奇”），例如：

「我现在在做西红柿炒鸡蛋，下一步该怎么做？」。

智能体接收语音后，会在 3~5 秒内返回指令：

文字以AR 悬浮字幕形式浮现在你的视野中，清晰展示步骤、关键细节与注意事项。
同时配合语音播报（TTS）朗读，实现“眼手同步”的指引效果

【当前进度确认】 你正在跟着教程准备做番茄炒蛋，当前已经切好葱花，需要开始处理番茄和鸡蛋。 【下一步操作指令】 1.将两颗番茄放在清水下，冲洗干净表皮残留的杂质。 2.把洗净的番茄放置在案板上，先对半切开，去掉蒂部，再切成大小均匀的滚刀块备用。 3.取2-3个鸡蛋打入干净的碗中，加入少许盐，用筷子快速搅打至蛋液均匀起泡。

6.多轮对话：边做边推进

完成当前步骤后，继续对着眼镜说「下一步」或「我已经做好了，继续」，智能体会根据上下文记忆，自动推进到下一指令（例如打蛋液、热油下锅等步骤），实现全程引导。

测试完成后，对眼镜说「退出」或在眼镜界面点击关闭按钮结束本次交互。

三、场景实测

场景一：手工实操 —— 拼乐高

测试输入：

我在拼乐高，下一步该干嘛？

智能体输出示例：

【当前进度确认】 当前处于乐高积木拼装准备阶段，所有积木零件已分类摆放完成，还未开始主体拼接。 【下一步操作指令】 1.请先找到最下方的橙色十字形半成品积木，将底部的蓝色积木对齐孔位，卡紧固定在最下方，作为整个模型的底座 2.拿起底座上方竖直摆放的绿色2x4积木，检查拼接是否牢固，确认零件位置无误

场景二：维修实操 —— 更换汽车雨刷胶条

测试输入：

我在换雨刷，接下来的步骤是什么？

智能体输出示例：

【当前进度确认】 当前是汽车前挡风玻璃的雨刮器处于原位待更换的初始状态，还未开始雨刮器拆卸操作。 【下一步操作指令】 1.将雨刮器向玻璃外侧抬起，让雨刮臂与玻璃保持30-45度的夹角，方便后续操作 2.找到雨刮器和雨刮臂连接处的固定卡扣，用手指按压卡扣解锁卡扣锁止结构

四、效果评估

维度	评分	感受
信息准确性	⭐⭐⭐⭐	指令具体、有参数，但复杂场景建议人工复核
响应速度	⭐⭐⭐⭐	文字响应 < 3 秒，语音播报约 5-8 秒
佩戴舒适度	⭐⭐⭐⭐	Rokid 眼镜重量轻，长时间使用不疲劳
场景适配度	⭐⭐⭐⭐⭐	烹饪 / 手工 / 维修均能有效辅助，场景覆盖广
指令可操作性	⭐⭐⭐⭐	步骤清晰，关键细节有提醒