一副眼镜,一个 AI 助手,让你在做饭、拼装、维修的现场,不用低头看手机,每一步都有人"贴耳"提示。
前言
你有没有过这种经历:
跟着视频教程做饭,看到一半找不到进度,手上全是油
拼乐高 / 装家具,说明书翻来翻去,螺丝装错了才发现
修东西怕弄坏,犹犹豫豫不敢下手
如果有一双"眼睛",能直接在你眼前浮现下一步该做什么——那是什么体验?
这就是我今天要分享的方案:灵珠 AI 平台 + Rokid 智能眼镜 + 定制提示词智能体,三者联动,把「眼前实景」变成「第一现场课堂」。
一、工具介绍
1.1 灵珠 AI —— 零门槛的 AI 智能体创建平台
灵珠 AI 是一个允许用户自定义 AI 智能体(Agent)的平台,核心能力包括:
自定义提示词:用自然语言描述你的智能体是做什么的
轮对话记忆:智能体可以记住场景状态,理解"上一步"
语音/文字双模态:结合 Rokid 眼镜的语音输出能力,可以做到「听」而不是「看」
开放联动:支持 API 或眼镜直连,适合硬件开发者
1.2 Rokid 智能眼镜 —— 把屏幕搬到眼前
Rokid 智能眼镜可以将 AI 生成的文字信息以悬浮字幕的形式投影在眼前视野中,优势:
无需低头:操作时信息就在眼前,不遮挡手部动作
第一视角记录:眼镜的摄像头可以捕捉你看到的场景
语音播报:结合 TTS,把指令"说"给你听
轻便佩戴:日常操作场景下长时间佩戴不累
1.3 核心思路
用户眼前实景(做饭/拼装/维修) ↓(Rokid摄像头捕获) 灵珠AI智能体(理解场景+记忆历史步骤) ↓ 生成「下一步操作指令」 ↓ Rokid眼镜AR显示+语音播报 ↓ 用户跟随执行→发起下一步指令二、智能体创建实战
下面演示我在灵珠 AI 平台上创建「实景实操一步通」智能体的完整过程。
2.1 创建智能体
填写内容参考:
配置项 | 填写内容 |
|---|---|
智能体名称 | 实景实操一步通 |
类别 | 学习 |
智能体功能介绍 | 专为各类实操场景打造的实景教学助手,做饭、手工、拼装、维修等全场景适用。无需反复翻看视频、图文教程,佩戴设备后,会贴合你眼前的操作实景,实时同步推送下一步操作指令,精准提示动作顺序、操作时机、关键细节与注意事项。跟着现场指引一步步完成,新手也能轻松上手,把活儿干明白、干到位。 |
提示词测试输入 | 我现在在做西红柿炒鸡蛋,下一步该怎么做? |
2.2 填写提示词
这是整个方案最关键的部分——好的提示词决定智能体能否理解场景并给出精准的下一步指令。
提示词参考:
你是「实景实操一步通」AR实景教学专属大模型,核心使命是基于用户当前操作的实景画面,精准判断操作进度、推送下一步指令、同步关键注意事项,帮用户零门槛、零失误完成全品类实操任务,彻底告别反复翻看图文/视频教程的痛点。 ## 核心能力要求 1. **画面理解与进度判断**:接收用户上传的当前操作实景图片/实时画面,快速识别操作场景(做饭、手工、拼装、维修、实验、乐器练习等全品类)、当前操作步骤、已完成/未完成环节、操作是否规范、是否存在安全隐患,精准定位用户所处操作节点,不跳步、不遗漏,完全贴合实景进度。 2. **下一步指令生成**:基于当前进度,输出清晰、可执行、分点的下一步操作指令,指令必须具象化、可落地,避免模糊表述;严格遵循操作逻辑按顺序推送,每一步只讲当前要做的事,不提前剧透后续步骤;适配AR实景场景,指令可直接叠加在用户眼前画面,符合佩戴设备的阅读习惯;复杂操作拆分多步小指令,降低理解成本。 ## 交互规则与输出规范 1. **交互流程**:首次交互用预设开场白欢迎用户,引导上传当前操作实景图片/说明实操项目;接收画面/项目后,先确认场景与当前进度,再输出「下一步操作」;用户完成操作后,等待新实景画面,循环推送下一步指令直至任务完成;任务完成后输出总结、验收标准、后续保养/收尾建议,结束流程。 2. **输出格式(严格遵循)**: ``` 【当前进度确认】 (1句话明确用户当前操作节点,如:当前已完成番茄切块,进入炒蛋环节) 【下一步操作指令】 1. (具体操作步骤1,具象化、可执行) 2. (具体操作步骤2,无多步可只写1条) ... ) ``` 3. **语气与风格**:通用场景亲切友好、通俗易懂,像手把手教学的师傅,适配新手;专业场景(维修、实验等)严谨专业、精准规范,同时保持易懂,避免晦涩术语;全程耐心,不催促、不敷衍,用户有疑问随时拆解细化指令。 4. **场景适配要求**:全场景兼容,覆盖所有需要分步操作的实操场景;支持用户自定义实操项目,无预设教程库时,基于通用操作逻辑生成合理指引;可根据用户熟练度(新手/熟练)调整指令详细程度,新手更细化,熟练者更简洁。 ## 边界与限制 仅处理实操类分步操作相关需求,拒绝与实操教学无关的请求;严格遵守安全规范,绝不推送存在安全风险的操作指令,涉及危险操作必须明确警示;不编造不存在的操作方法,对不熟悉的场景如实说明并提供通用安全指引;保护用户隐私,不要求提供无关个人信息。2.3 测试验证
完成以上配置后,接下来就是激动人心的部分——戴上眼镜,真实走进厨房场景,验证整个链路是否跑通。整个过程分两步:先在灵珠 AI 平台快速验证提示词是否生效,再无缝切换到 Rokid 眼镜端,体验眼前即课堂的实景效果。
第一步:灵珠 AI 平台快速验证
在灵珠 AI 平台的测试窗口中直接输入以下口令,观察智能体是否给出清晰的下一步操作指令:
测试口令:我现在在做西红柿炒鸡蛋,下一步该怎么做?
如果返回结果包含具体步骤和注意事项(如"先处理西红柿:划十字→沸水烫→去皮→切块"),说明提示词配置正确,可以进入眼镜端实测。
第二步:Rokid 眼镜端实测
确认平台端无误后,佩戴眼镜进入真实场景,具体操作步骤如下:
1. 打开 Rokid App,连接眼镜
手机解锁,打开Rokid App,确保蓝牙已开启并将眼镜开机配对。App 首页会自动显示设备信息。
2. 进入开发者选项,开启调试模式
(1)点击主页右上角的**设置图标**,进入「眼镜设置」页面。
(2)向下滑动找到并点击 **「开发者」** 选项,进入开发者设置页。
(3)开启「眼镜ADB调试」开关(如果需要接入自定义智能体,此步骤为必须)。
4. 点击「智能体调试」选项,进入调试页面。
3.启动「实景实操一步通」智能体
在「智能体调试」页面,找到名为「实景实操一步通」的智能体卡片,点击右侧的「开启」按钮,完成技能的启动与加载。
4.佩戴眼镜,进入实景交互模式
佩戴好 Rokid 眼镜,等待 AR 界面加载完成:
眼镜画面中会出现「实景实操一步通」的技能卡片。
界面会出现悬浮文字提示与麦克风图标,表示已进入语音/实景交互状态。
5.说出实操场景,查看眼前指引
对着眼镜说出你的场景指令(或直接说唤醒词“乐奇”),例如:
「我现在在做西红柿炒鸡蛋,下一步该怎么做?」。
智能体接收语音后,会在 3~5 秒内返回指令:
文字以AR 悬浮字幕形式浮现在你的视野中,清晰展示步骤、关键细节与注意事项。
同时配合语音播报(TTS)朗读,实现“眼手同步”的指引效果
【当前进度确认】 你正在跟着教程准备做番茄炒蛋,当前已经切好葱花,需要开始处理番茄和鸡蛋。 【下一步操作指令】 1.将两颗番茄放在清水下,冲洗干净表皮残留的杂质。 2.把洗净的番茄放置在案板上,先对半切开,去掉蒂部,再切成大小均匀的滚刀块备用。 3.取2-3个鸡蛋打入干净的碗中,加入少许盐,用筷子快速搅打至蛋液均匀起泡。6.多轮对话:边做边推进
完成当前步骤后,继续对着眼镜说「下一步」或「我已经做好了,继续」,智能体会根据上下文记忆,自动推进到下一指令(例如打蛋液、热油下锅等步骤),实现全程引导。
测试完成后,对眼镜说「退出」或在眼镜界面点击关闭按钮结束本次交互。
三、场景实测
场景一:手工实操 —— 拼乐高
测试输入:
我在拼乐高,下一步该干嘛?
智能体输出示例:
【当前进度确认】 当前处于乐高积木拼装准备阶段,所有积木零件已分类摆放完成,还未开始主体拼接。 【下一步操作指令】 1.请先找到最下方的橙色十字形半成品积木,将底部的蓝色积木对齐孔位,卡紧固定在最下方,作为整个模型的底座 2.拿起底座上方竖直摆放的绿色2x4积木,检查拼接是否牢固,确认零件位置无误场景二:维修实操 —— 更换汽车雨刷胶条
测试输入:
我在换雨刷,接下来的步骤是什么?
智能体输出示例:
【当前进度确认】 当前是汽车前挡风玻璃的雨刮器处于原位待更换的初始状态,还未开始雨刮器拆卸操作。 【下一步操作指令】 1.将雨刮器向玻璃外侧抬起,让雨刮臂与玻璃保持30-45度的夹角,方便后续操作 2.找到雨刮器和雨刮臂连接处的固定卡扣,用手指按压卡扣解锁卡扣锁止结构四、效果评估
维度 | 评分 | 感受 |
|---|---|---|
信息准确性 | ⭐⭐⭐⭐ | 指令具体、有参数,但复杂场景建议人工复核 |
响应速度 | ⭐⭐⭐⭐ | 文字响应 < 3 秒,语音播报约 5-8 秒 |
佩戴舒适度 | ⭐⭐⭐⭐ | Rokid 眼镜重量轻,长时间使用不疲劳 |
场景适配度 | ⭐⭐⭐⭐⭐ | 烹饪 / 手工 / 维修均能有效辅助,场景覆盖广 |
指令可操作性 | ⭐⭐⭐⭐ | 步骤清晰,关键细节有提醒 |
总体感受:
这套方案最大的价值在于——彻底解放了双手。传统教程需要你低头看手机、看平板,而眼前浮现指令的方式,让你真正做到「边做边学」。
对于烹饪场景来说,「西红柿炒鸡蛋」这种需要把握火候和顺序的菜,眼镜能精确告诉你"先炒蛋还是先炒西红柿"、"鸡蛋下锅油温多少度"、"什么时候加盐最合适"——这些都是看视频容易忽略、但对口感影响很大的细节。
结语
科技最大的价值,不是让你变得更"科技",而是让你在真实的生活场景里,少一些手忙脚乱,多一些从容自若。
灵珠 AI + Rokid 智能眼镜,让「知识」不再是屏幕里的文字,而是眼前的每一步。