进阶教程

Rokid AI Glasses灵珠智能体开发全流程实战指南

2026-05-31

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

旅行中最扫兴的时刻是什么？站在古建筑面前，掏出手机翻百科，等抬头一看，旁边的旅行

旅行中最扫兴的时刻是什么？站在古建筑面前，掏出手机翻百科，等抬头一看，旁边的旅行团早就走远了。有没有一种方式，不低头、不跟团，抬头就能直接听到眼前景点的故事？

基于这个痛点，我们在 Rokid 灵珠上开发了一个智能体——「随身导游·景点讲解助手」。它运行在 Rokid AI Glasses 上，用户只需看向景点，问一句“乐奇，帮我解说下这个景点”，眼镜立刻通过摄像头识别当前景观，并将解说内容直接显示在镜片上。真正实现了“解放双手、沉浸式游览”。

下面，从产品构思、灵珠智能体配置、人设与回复逻辑搭建，到真机调试与演示，完整还原这款智能体的开发链路。

一、产品构想：为什么要做“随身导游”？

传统景点解说的痛点很清晰：跟团游时间固定、节奏受限，想多停留一分钟都不行；手机搜索需要反复低头刷屏，完全打断观景的连贯性；租用的语音导览设备内容千篇一律，毫无个性化可言。

Rokid AI Glasses 提供了理想的载体——轻量级 AI 眼镜形态，内置摄像头实时捕捉画面，镜片支持叠加文字信息，同时支持语音交互。结合灵珠的智能体开发能力，打造一款“看到即讲解”的 AI 导游，成了顺理成章的突破方向。

核心功能设计锁定两个方向：第一，景点图像识别与确认——用户通过摄像头拍摄景点画面后，智能体调用图像识别模型，识别景点名称及所在区域。若识别置信度低于 80%，则礼貌地请用户确认，而非强行猜测。第二，内容生成与语音播报适配——讲解内容控制在 150-200 字，语言简洁口语化，适配语音播报节奏，避免长句和专业术语堆砌。

二、灵珠智能体搭建全流程

进入开发者模式

首先在灵珠平台进入开发者页面，完成开发者认证后，即可进入项目开发界面。

创建智能体

在灵珠的「项目开发」页面，选择创建「灵珠智能体」，需填写以下关键信息：

智能体名称：随身导游·景点讲解助手（限制 20 字以内）
类别：选择「生活」类，定位日常出行场景应用
智能体功能介绍：简要描述核心功能——“无需跟团。支持三种讲解风格自由切换：正式讲解（适合深度游）、幽默风趣（轻松有趣）、历史深度（专注文化与历史背景）。解放双手，沉浸感受每一处风景，让 AI 成为你的随身私人导游。”（限制 500 字）
图标：创建智能体时的必填项。我们设计了一个以山水风景为主题的图标，包含山峦、太阳和定位标记元素，既体现“导游”属性，也暗示 AI 的识别定位能力。

创建完成后，可在右侧「提示词测试」区域输入测试语句（如“给我讲解下故宫”）并点击「立即测试」验证基础功能。测试通过后会显示绿色的「测试通过」标记。

配置入参类型和技能

智能体核心功能是识别景点图片，因此入参类型必须设置为“图片（首轮传递）”。这意味着用户首次交互时，Rokid AI Glasses 会自动拍摄当前画面并作为图片参数传入智能体，供视觉模型分析识别。

选择视觉大模型

模型选型上，我们采用 doubao-seed-1-6-vision-250815，这是一款支持视觉理解的多模态大模型，能精准识别建筑物、景点等图像内容，并结合知识库生成高质量讲解文本。

三、人设与回复逻辑：让 AI 拥有真正的导游灵魂

智能体的灵魂在于「人设与回复逻辑」的编排。这部分我们反复调试了多轮，下面分享最终的设计方案。

角色定义

角色定义明确了三个关键信息：运行环境是 Rokid AI Glasses、核心任务是景点讲解、数据来源是摄像头画面。

目标设定

核心目标是为用户提供精准、风格化的景点讲解，提升移动游览体验。具体方向包括确保图像识别准确性、讲解风格一致性及内容简洁性，完美适配语音播报场景。

技能模块拆解

智能体的能力被拆分为四个技能模块：

技能 1：景点图像识别与确认——接收用户通过 Rokid AI Glasses 摄像头拍摄的景点画面，调用景点图像识别模型，识别景点名称及所在地区。若识别结果置信度低于 80%，立即礼貌询问：“您当前看的是哪个景点？” 不进行主观猜测。

技能 2：讲解风格管理——首次使用时主动询问用户偏好的讲解风格，提供三个选项。接收用户“换个风格”指令时，立即切换至对应风格并回复确认：“已切换为[风格名称]讲解”。

技能 3：景点讲解内容生成——基于已识别景点，调用景点知识库获取景点简介、核心看点、冷知识/历史背景三类信息。按用户所选风格整合内容，篇幅严格控制在 150-200 字，语言简洁口语化，符合语音播报节奏（避免长句及专业术语堆砌）。

技能 4：多场景问题处理——当用户询问周边餐饮、交通等非讲解类问题时，调用本地生活服务接口获取简要信息（不超过 50 字）。

配置技能插件

在技能配置区域，需要挂载乐奇 AI 眼镜控制插件中的 notify_take_photo 插件。该插件用于通知设备端拍照——当智能体需要获取用户视野中的景点画面时，通过该插件指令 Rokid AI Glasses 执行拍照操作，并将照片传回后端进行识别分析。

此外还有 notify_agent_off（通知设备退出当前智能体）和 notify_take_navigation（通知设备导航至目的地）等插件可供扩展使用。

四、真机调试：从灵珠到眼镜

智能体发布与提审

在灵珠完成所有配置后，点击右上角的「提审」按钮提交智能体。个人开发者创建的智能体在未提审通过前，仅自己可见可用，不会公开发布。

Rokid AI App 端配置

在手机上打开 Rokid AI App，进入设置 → 开发者页面。该页面提供三个选项：「眼镜 ADB 调试」用于开发调试、「门店演示模式」用于线下展示，以及关键的「智能体调试」入口。

点击进入「智能体调试」，即可看到在灵珠创建的智能体列表。找到「随身导游·景点讲解助手」，点击「开启」即可将该智能体加载到 Rokid AI Glasses 上。

实测演示：从景点识别到三种风格切换

为验证智能体的完整交互链路，我们以天安门为测试对象（通过对准电脑屏幕上的天安门图片进行模拟测试），完整走了一遍从景点识别到风格切换的全流程。

第一步：景点识别

戴上 Rokid AI Glasses，对准屏幕上的天安门图片，发出语音指令：“乐奇，这是什么景点？”

眼镜自动拍摄画面并传入智能体，几秒后，镜片上叠加显示了识别结果与初步介绍——智能体准确识别出天安门广场，并简要描述了其作为明清皇城正门与新中国象征的双重身份，提到广场每天的升旗仪式、城楼正中的毛主席画像，以及周边故宫、国家博物馆等文化地标，最后还补充“来北京必打卡的地方，逛完还能去故宫、国家博物馆继续探索”，交互感自然流畅。

第二步：切换幽默风趣风格

识别完成后，发出指令：“请以幽默风趣的风格来给我讲解。”

风格切换响应迅速，智能体立刻以截然不同的腔调重新讲解天安门——称其为北京的“超级C位明星”、皇城的“形象代言人”，调侃广场每天熙熙攘攘全是来打卡升旗的小伙伴，说城楼旁边的标语“仿佛在说‘咱就是这么受欢迎，世界朋友都爱来玩’”。旁边故宫被形容为“皇上家的豪华大宅院”，国博则藏着超多“历史宝藏”等你挖。整段讲解轻松诙谐，完全不像在背导览稿，更像一个熟悉北京的朋友在跟你聊天。

第三步：切换正式讲解风格

随后发出指令：“以正式的角度来给我讲解。”

智能体回复“已切换为正式讲解”，随即进入严谨规范的讲解模式：从天安门始建于明永乐十五年（1417年）说起，追溯其原名“承天门”的由来，介绍清顺治八年（1651年）改建更名的历史沿革，阐述其作为明清两代皇城正门的象征意义，并提及1949年10月1日开国大典这一历史节点。内容结构清晰，措辞严谨，适合希望深度了解景点历史背景的游览者。

第四步：切换历史深度风格

最后，发出指令：“请以聚焦历史文化背景的角度来给我讲解一遍。”

智能体切换为历史深度讲解，视角明显更为厚重：着重讲述天安门始建于明永乐十五年、初名“承天门”、取“承天启运、受命于天”之意，明英宗时被焚毁后重建，清顺治八年改建并正式定名“天安门”的演变历程；深入解析城楼建筑融合明清宫式建筑风格的内涵，指出每一处斗拱、彩绘都承载着600余年的历史变迁，见证了王朝兴衰与时代巨变；最后上升至文化象征层面，指出天安门是中华民族历史记忆的重要载体。这一风格适合对历史文化有浓厚兴趣、希望获得深度解读的游览者。

四步演示完整覆盖了“识别确认→风格选择→内容切换”的核心交互链路。三种讲解风格在用词、结构、视角上差异显著，用户可根据自身游览节奏和兴趣偏好随时切换，真正实现了个性化的随身导游体验。

结语

从一个简单想法到可在 Rokid AI Glasses 上运行的智能导游，整个开发流程并不复杂。灵珠提供了从智能体创建、人设编排、插件挂载到真机调试的完整链路，大幅降低了 AI 眼镜应用的开发门槛。

这个项目最大的收获不是技术实现本身，而是切实感受到 AI 眼镜在垂直场景中的巨大潜力。当你戴着眼镜走在故宫、天坛、颐和园里，抬头就能听到专属于你的讲解，那种体验是手机和传统导览设备无法比拟的。

来源：互联网

上一篇 OpenClaw工具错误快速修复指南：告别日志排查 下一篇 免备案CDN推荐：AIWCLOUD过移动屏蔽不限内容

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。