Rokid AI Glasses灵珠智能体开发全流程实战指南
摘要
旅行中最扫兴的时刻是什么?站在古建筑面前,掏出手机翻百科,等抬头一看,旁边的旅行

旅行中最扫兴的时刻是什么?站在古建筑面前,掏出手机翻百科,等抬头一看,旁边的旅行团早就走远了。有没有一种方式,不低头、不跟团,抬头就能直接听到眼前景点的故事?
基于这个痛点,我们在 Rokid 灵珠上开发了一个智能体——「随身导游·景点讲解助手」。它运行在 Rokid AI Glasses 上,用户只需看向景点,问一句“乐奇,帮我解说下这个景点”,眼镜立刻通过摄像头识别当前景观,并将解说内容直接显示在镜片上。真正实现了“解放双手、沉浸式游览”。
下面,从产品构思、灵珠智能体配置、人设与回复逻辑搭建,到真机调试与演示,完整还原这款智能体的开发链路。
一、产品构想:为什么要做“随身导游”?
传统景点解说的痛点很清晰:跟团游时间固定、节奏受限,想多停留一分钟都不行;手机搜索需要反复低头刷屏,完全打断观景的连贯性;租用的语音导览设备内容千篇一律,毫无个性化可言。
Rokid AI Glasses 提供了理想的载体——轻量级 AI 眼镜形态,内置摄像头实时捕捉画面,镜片支持叠加文字信息,同时支持语音交互。结合灵珠的智能体开发能力,打造一款“看到即讲解”的 AI 导游,成了顺理成章的突破方向。
核心功能设计锁定两个方向:第一,景点图像识别与确认——用户通过摄像头拍摄景点画面后,智能体调用图像识别模型,识别景点名称及所在区域。若识别置信度低于 80%,则礼貌地请用户确认,而非强行猜测。第二,内容生成与语音播报适配——讲解内容控制在 150-200 字,语言简洁口语化,适配语音播报节奏,避免长句和专业术语堆砌。
二、灵珠智能体搭建全流程
进入开发者模式
首先在灵珠平台进入开发者页面,完成开发者认证后,即可进入项目开发界面。
创建智能体
在灵珠的「项目开发」页面,选择创建「灵珠智能体」,需填写以下关键信息:
- 智能体名称:随身导游·景点讲解助手(限制 20 字以内)
- 类别:选择「生活」类,定位日常出行场景应用
- 智能体功能介绍:简要描述核心功能——“无需跟团。支持三种讲解风格自由切换:正式讲解(适合深度游)、幽默风趣(轻松有趣)、历史深度(专注文化与历史背景)。解放双手,沉浸感受每一处风景,让 AI 成为你的随身私人导游。”(限制 500 字)
- 图标:创建智能体时的必填项。我们设计了一个以山水风景为主题的图标,包含山峦、太阳和定位标记元素,既体现“导游”属性,也暗示 AI 的识别定位能力。
创建完成后,可在右侧「提示词测试」区域输入测试语句(如“给我讲解下故宫”)并点击「立即测试」验证基础功能。测试通过后会显示绿色的「测试通过」标记。

配置入参类型和技能
智能体核心功能是识别景点图片,因此入参类型必须设置为“图片(首轮传递)”。这意味着用户首次交互时,Rokid AI Glasses 会自动拍摄当前画面并作为图片参数传入智能体,供视觉模型分析识别。

选择视觉大模型
模型选型上,我们采用 doubao-seed-1-6-vision-250815,这是一款支持视觉理解的多模态大模型,能精准识别建筑物、景点等图像内容,并结合知识库生成高质量讲解文本。

三、人设与回复逻辑:让 AI 拥有真正的导游灵魂
智能体的灵魂在于「人设与回复逻辑」的编排。这部分我们反复调试了多轮,下面分享最终的设计方案。
角色定义
角色定义明确了三个关键信息:运行环境是 Rokid AI Glasses、核心任务是景点讲解、数据来源是摄像头画面。
目标设定
核心目标是为用户提供精准、风格化的景点讲解,提升移动游览体验。具体方向包括确保图像识别准确性、讲解风格一致性及内容简洁性,完美适配语音播报场景。
技能模块拆解
智能体的能力被拆分为四个技能模块:
技能 1:景点图像识别与确认——接收用户通过 Rokid AI Glasses 摄像头拍摄的景点画面,调用景点图像识别模型,识别景点名称及所在地区。若识别结果置信度低于 80%,立即礼貌询问:“您当前看的是哪个景点?” 不进行主观猜测。
技能 2:讲解风格管理——首次使用时主动询问用户偏好的讲解风格,提供三个选项。接收用户“换个风格”指令时,立即切换至对应风格并回复确认:“已切换为[风格名称]讲解”。
技能 3:景点讲解内容生成——基于已识别景点,调用景点知识库获取景点简介、核心看点、冷知识/历史背景三类信息。按用户所选风格整合内容,篇幅严格控制在 150-200 字,语言简洁口语化,符合语音播报节奏(避免长句及专业术语堆砌)。
技能 4:多场景问题处理——当用户询问周边餐饮、交通等非讲解类问题时,调用本地生活服务接口获取简要信息(不超过 50 字)。

配置技能插件
在技能配置区域,需要挂载乐奇 AI 眼镜控制插件中的 notify_take_photo 插件。该插件用于通知设备端拍照——当智能体需要获取用户视野中的景点画面时,通过该插件指令 Rokid AI Glasses 执行拍照操作,并将照片传回后端进行识别分析。
此外还有 notify_agent_off(通知设备退出当前智能体)和 notify_take_navigation(通知设备导航至目的地)等插件可供扩展使用。

四、真机调试:从灵珠到眼镜
智能体发布与提审
在灵珠完成所有配置后,点击右上角的「提审」按钮提交智能体。个人开发者创建的智能体在未提审通过前,仅自己可见可用,不会公开发布。

Rokid AI App 端配置
在手机上打开 Rokid AI App,进入设置 → 开发者页面。该页面提供三个选项:「眼镜 ADB 调试」用于开发调试、「门店演示模式」用于线下展示,以及关键的「智能体调试」入口。

点击进入「智能体调试」,即可看到在灵珠创建的智能体列表。找到「随身导游·景点讲解助手」,点击「开启」即可将该智能体加载到 Rokid AI Glasses 上。

实测演示:从景点识别到三种风格切换
为验证智能体的完整交互链路,我们以天安门为测试对象(通过对准电脑屏幕上的天安门图片进行模拟测试),完整走了一遍从景点识别到风格切换的全流程。
第一步:景点识别
戴上 Rokid AI Glasses,对准屏幕上的天安门图片,发出语音指令:“乐奇,这是什么景点?”
眼镜自动拍摄画面并传入智能体,几秒后,镜片上叠加显示了识别结果与初步介绍——智能体准确识别出天安门广场,并简要描述了其作为明清皇城正门与新中国象征的双重身份,提到广场每天的升旗仪式、城楼正中的毛主席画像,以及周边故宫、国家博物馆等文化地标,最后还补充“来北京必打卡的地方,逛完还能去故宫、国家博物馆继续探索”,交互感自然流畅。

第二步:切换幽默风趣风格
识别完成后,发出指令:“请以幽默风趣的风格来给我讲解。”
风格切换响应迅速,智能体立刻以截然不同的腔调重新讲解天安门——称其为北京的“超级C位明星”、皇城的“形象代言人”,调侃广场每天熙熙攘攘全是来打卡升旗的小伙伴,说城楼旁边的标语“仿佛在说‘咱就是这么受欢迎,世界朋友都爱来玩’”。旁边故宫被形容为“皇上家的豪华大宅院”,国博则藏着超多“历史宝藏”等你挖。整段讲解轻松诙谐,完全不像在背导览稿,更像一个熟悉北京的朋友在跟你聊天。

第三步:切换正式讲解风格
随后发出指令:“以正式的角度来给我讲解。”
智能体回复“已切换为正式讲解”,随即进入严谨规范的讲解模式:从天安门始建于明永乐十五年(1417年)说起,追溯其原名“承天门”的由来,介绍清顺治八年(1651年)改建更名的历史沿革,阐述其作为明清两代皇城正门的象征意义,并提及1949年10月1日开国大典这一历史节点。内容结构清晰,措辞严谨,适合希望深度了解景点历史背景的游览者。

第四步:切换历史深度风格
最后,发出指令:“请以聚焦历史文化背景的角度来给我讲解一遍。”
智能体切换为历史深度讲解,视角明显更为厚重:着重讲述天安门始建于明永乐十五年、初名“承天门”、取“承天启运、受命于天”之意,明英宗时被焚毁后重建,清顺治八年改建并正式定名“天安门”的演变历程;深入解析城楼建筑融合明清宫式建筑风格的内涵,指出每一处斗拱、彩绘都承载着600余年的历史变迁,见证了王朝兴衰与时代巨变;最后上升至文化象征层面,指出天安门是中华民族历史记忆的重要载体。这一风格适合对历史文化有浓厚兴趣、希望获得深度解读的游览者。

四步演示完整覆盖了“识别确认→风格选择→内容切换”的核心交互链路。三种讲解风格在用词、结构、视角上差异显著,用户可根据自身游览节奏和兴趣偏好随时切换,真正实现了个性化的随身导游体验。
结语
从一个简单想法到可在 Rokid AI Glasses 上运行的智能导游,整个开发流程并不复杂。灵珠提供了从智能体创建、人设编排、插件挂载到真机调试的完整链路,大幅降低了 AI 眼镜应用的开发门槛。
这个项目最大的收获不是技术实现本身,而是切实感受到 AI 眼镜在垂直场景中的巨大潜力。当你戴着眼镜走在故宫、天坛、颐和园里,抬头就能听到专属于你的讲解,那种体验是手机和传统导览设备无法比拟的。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。