菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > AI资讯新闻 > 小红书×剑桥联合研发:HyperEyes并行多模态搜索智能体深度测评
技术资讯 小红书 小红书×剑桥联合研发

小红书×剑桥联合研发:HyperEyes并行多模态搜索智能体深度测评

2026-05-21
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

HyperEyes:重新定义多模态搜索的并行智能体 在AI智能体领域,一个长期存在的效率瓶颈在于

HyperEyes:重新定义多模态搜索的并行智能体

在AI智能体领域,一个长期存在的效率瓶颈在于“看”与“查”的割裂。传统方法需要先裁剪图片中的目标,再逐一搜索,过程繁琐且容易出错。如今,一项名为HyperEyes的技术,正试图从根本上碘伏这一流程。

它由小红书与剑桥大学联合推出,其核心在于一个首创的“UGS范式”。简单来说,它把视觉定位和检索这两个步骤,融合成了一个单一的“原子动作”。这意味着,面对一张包含多个实体的复杂图片,模型可以在单轮交互内,并发地定位并搜索所有目标。这不仅仅是流程上的优化,更是一种底层范式的重构。

HyperEyes – 小红书联合剑桥推出的并行多模态搜索智能体

HyperEyes是什么

HyperEyes是一个并行多模态搜索智能体。它的最大亮点是提出了UGS(统一有依据搜索)范式,将视觉定位与检索融合为单一动作,从而实现了单轮多实体并发搜索。在技术实现上,它采用了双粒度效率感知强化学习框架进行训练。效果如何?其30B参数的版本在6个主流基准测试中,准确率超越了同规模最强的开源模型9.9%,而工具调用轮次更是减少了惊人的5.3倍,真正在准确率与效率之间达到了帕累托最优。

HyperEyes的主要功能

那么,这个智能体具体能做什么?它的功能设计完全围绕“并行”与“高效”展开:

  • 并行多模态搜索:这是核心。传统串行“裁剪-搜索”流程被彻底抛弃,取而代之的是在单轮内并发定位并检索图片中的多个实体。
  • 统一有依据搜索:视觉定位框不再是独立步骤,而是直接嵌入到检索动作的参数中。一次函数调用,就能携带多个目标框信息出去搜索。
  • 渐进式拒绝采样:用于构建高质量训练数据。方法是在递增的轮次预算下,提纯出高效的行动轨迹,最终构建了3万条零冗余的并行种子数据。
  • 双粒度效率感知RL:训练框架的两大支柱。TRACE负责在轨迹级别动态收紧效率标尺;OPD则负责在失败轨迹上注入Token级别的纠正信号。
  • IMEB基准评估:为了公正评估,团队发布了包含300个实例的多实体视觉评测集,并配套了CAS评分,用以联合量化准确率与搜索效率。
  • 多工具协同:它并非单打独斗,而是集成了图像搜索与文本搜索工具,支持同时获取视觉和文字两种证据。

HyperEyes的技术原理

实现上述功能,背后是一套精巧的技术设计。理解其原理,就能明白它为何能突破效率瓶颈:

  • UGS动作空间重构:这是基石。将视觉定位从独立的前置步骤,转化为检索动作的内嵌参数,从物理层面打通了单轮多目标并发的通路。
  • 并行数据合成流水线:巧妇难为无米之炊。通过多类图片拼接来合成多实体查询场景,并基于知识图谱随机游走构造复杂的多约束问题,同时剔除那些有“捷径”可走的简单样本。
  • TRACE动态参考奖励:训练中的效率“教练”。它以当前已知的最优轨迹为动态标尺,只有模型表现得比这个标尺更高效时,才会给予奖励,并且每轮自动收紧标准,推动模型不断进化。
  • OPD非对称策略蒸馏:训练中的精准“纠错”。当轨迹最终答错时,会启动一个235B参数的“教师模型”,为这段失败轨迹提供密集的Token级监督,目的是保护模型已经学会的高效并发本能,只修正错误部分。
  • 联合优化目标:采用GRPO方法,结合轨迹级的效率奖励和Token级的蒸馏损失,同步优化策略网络的准确率与效率,两手抓,两手都要硬。
  • CAS成本感知评分:评估的“指挥棒”。其公式为 Acc²×100/(N_tok+2N_tool+1),巧妙地将准确率、Token消耗和工具调用轮次统一为一个综合效率指标,引导模型向真正实用的方向发展。

如何使用HyperEyes

如果你对这项技术感兴趣,想要亲自尝试,可以遵循以下步骤:

  • 获取开源资源:项目已在GitHub上开源,仓库地址为 https://github.com/DeepExperience/HyperEyes 。
  • 准备基础模型:需要下载并部署Qwen3-VL-30B或235B作为视觉语言模型的主干网络,并确保GPU显存满足相应的推理需求。
  • 配置外部检索工具:接入图像搜索与文本搜索的API(例如Bing Image Search、Google Custom Search),这些将作为智能体执行UGS并行搜索的外部工具。
  • 输入多实体查询:上传一张包含多个实体的复杂图片,并输入自然语言问题。HyperEyes会自动执行UGS搜索,单轮并发定位并检索所有目标。
  • 查看并行搜索结果:模型会返回结构化的检索结果与最终答案,其中包含每个实体的视觉证据与文本证据。
  • 评估搜索效率:可以使用前述的CAS(成本感知评分)指标,来量化评估整个过程的准确率、Token消耗与工具调用轮次的综合效率。

HyperEyes的核心优势

与现有方案相比,HyperEyes的优势是全方位的,主要体现在以下几个维度:

  • 效率飞跃:其30B版本平均工具调用轮次仅需2.2次,这仅仅是同规模最强开源模型的五分之一,实现了5.3倍的效率提升。
  • 准确率领先:在6个基准测试上,它超越了最强的开源同规模模型9.9%。其235B版本更是以仅1.1%的微小差距,逼近了Gemini-3.1-Pro的水平。
  • 抗噪声鲁棒:并行策略有效规避了过度检索导致的幻觉问题。在真假证据混合的测试中,其准确率提升了3.7%到5.8%。
  • 消除错误级联:UGS范式彻底消除了对串行裁剪的依赖,这意味着前置的定位偏差不会再污染后续的搜索结果,从根本上切断了错误传递链。
  • 帕累托最优:在准确率-效率的联合优化前沿上,它实现了全面占优,其CAS评分达到了次优开源模型的7.6倍。
  • 全栈效率重塑:这不是某个模块的修修补补,而是从动作空间定义、数据合成到强化学习训练的全栈底层重构,系统性地解决了串行困局。

HyperEyes的项目地址

  • GitHub仓库:https://github.com/DeepExperience/HyperEyes
  • arXiv技术论文:https://arxiv.org/abs/2605.07177

HyperEyes的同类竞品对比

口说无凭,我们将其与市场上同类型的智能体放在一起对比,优势便一目了然:

对比维度 HyperEyes-30B DeepEyes-V2 VDR
开发团队 小红书/剑桥大学 小红书 未公开
搜索范式 并行并发(UGS) 串行裁剪-搜索 串行深度搜索
平均工具轮次 2.2 3.6 11.6
6基准平均准确率 64.0% 39.1% 54.1%
IMEB准确率 46.7% 18.0% 21.2%
CAS效率评分 0.910 0.119 0.014
核心机制 TRACE+OPD双粒度RL 工具奖励激励 多轮深度推理
错误级联风险 免疫(原子动作) 高风险 中等风险

HyperEyes的应用场景

如此强大的并发搜索能力,能用在哪些地方?其应用场景非常广泛:

  • 多人物视觉推理:识别合影中特定人物的身份、职业与历史事件,并发检索多人的生平信息。
  • 电商商品比对:对包含多个商品的复杂场景图进行并发搜索,一次性获取所有商品的价格、品牌与用户评价信息。
  • 跨模态知识问答:回答涉及图片中多个物体、地标、艺术品之间关系的复杂查询,例如“这幅画中左侧的雕塑和右侧的建筑分别建于什么时代?”。
  • 新闻事实核查:对包含多人物、多场景的新闻图片进行并发检索,快速验证事件真实性、人物身份及背景信息。
  • 学术图表解析:对论文截图中的多个图表、公式、引用进行并行定位与内容检索,辅助快速阅读和理解。
  • 社交媒体审核:对复杂图片中的多个实体(如文字、logo、人物)进行并发搜索,快速判断是否存在违规或误导性内容。

总的来说,HyperEyes不仅仅是一个效率更高的工具,它代表了一种解决多模态搜索问题的新思路。通过将定位与检索原子化,它打破了串行处理的固有范式,为AI智能体在复杂现实场景中的实用化,推开了一扇新的大门。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多