技术资讯小红书小红书×剑桥联合研发

小红书×剑桥联合研发：HyperEyes并行多模态搜索智能体深度测评

2026-05-21

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

HyperEyes：重新定义多模态搜索的并行智能体在AI智能体领域，一个长期存在的效率瓶颈在于

HyperEyes：重新定义多模态搜索的并行智能体

在AI智能体领域，一个长期存在的效率瓶颈在于“看”与“查”的割裂。传统方法需要先裁剪图片中的目标，再逐一搜索，过程繁琐且容易出错。如今，一项名为HyperEyes的技术，正试图从根本上碘伏这一流程。

它由小红书与剑桥大学联合推出，其核心在于一个首创的“UGS范式”。简单来说，它把视觉定位和检索这两个步骤，融合成了一个单一的“原子动作”。这意味着，面对一张包含多个实体的复杂图片，模型可以在单轮交互内，并发地定位并搜索所有目标。这不仅仅是流程上的优化，更是一种底层范式的重构。

HyperEyes是什么

HyperEyes是一个并行多模态搜索智能体。它的最大亮点是提出了UGS（统一有依据搜索）范式，将视觉定位与检索融合为单一动作，从而实现了单轮多实体并发搜索。在技术实现上，它采用了双粒度效率感知强化学习框架进行训练。效果如何？其30B参数的版本在6个主流基准测试中，准确率超越了同规模最强的开源模型9.9%，而工具调用轮次更是减少了惊人的5.3倍，真正在准确率与效率之间达到了帕累托最优。

HyperEyes的主要功能

那么，这个智能体具体能做什么？它的功能设计完全围绕“并行”与“高效”展开：

并行多模态搜索：这是核心。传统串行“裁剪-搜索”流程被彻底抛弃，取而代之的是在单轮内并发定位并检索图片中的多个实体。
统一有依据搜索：视觉定位框不再是独立步骤，而是直接嵌入到检索动作的参数中。一次函数调用，就能携带多个目标框信息出去搜索。
渐进式拒绝采样：用于构建高质量训练数据。方法是在递增的轮次预算下，提纯出高效的行动轨迹，最终构建了3万条零冗余的并行种子数据。
双粒度效率感知RL：训练框架的两大支柱。TRACE负责在轨迹级别动态收紧效率标尺；OPD则负责在失败轨迹上注入Token级别的纠正信号。
IMEB基准评估：为了公正评估，团队发布了包含300个实例的多实体视觉评测集，并配套了CAS评分，用以联合量化准确率与搜索效率。
多工具协同：它并非单打独斗，而是集成了图像搜索与文本搜索工具，支持同时获取视觉和文字两种证据。

HyperEyes的技术原理

实现上述功能，背后是一套精巧的技术设计。理解其原理，就能明白它为何能突破效率瓶颈：

UGS动作空间重构：这是基石。将视觉定位从独立的前置步骤，转化为检索动作的内嵌参数，从物理层面打通了单轮多目标并发的通路。
并行数据合成流水线：巧妇难为无米之炊。通过多类图片拼接来合成多实体查询场景，并基于知识图谱随机游走构造复杂的多约束问题，同时剔除那些有“捷径”可走的简单样本。
TRACE动态参考奖励：训练中的效率“教练”。它以当前已知的最优轨迹为动态标尺，只有模型表现得比这个标尺更高效时，才会给予奖励，并且每轮自动收紧标准，推动模型不断进化。
OPD非对称策略蒸馏：训练中的精准“纠错”。当轨迹最终答错时，会启动一个235B参数的“教师模型”，为这段失败轨迹提供密集的Token级监督，目的是保护模型已经学会的高效并发本能，只修正错误部分。
联合优化目标：采用GRPO方法，结合轨迹级的效率奖励和Token级的蒸馏损失，同步优化策略网络的准确率与效率，两手抓，两手都要硬。
CAS成本感知评分：评估的“指挥棒”。其公式为 Acc²×100/(N_tok+2N_tool+1)，巧妙地将准确率、Token消耗和工具调用轮次统一为一个综合效率指标，引导模型向真正实用的方向发展。

如何使用HyperEyes

如果你对这项技术感兴趣，想要亲自尝试，可以遵循以下步骤：

获取开源资源：项目已在GitHub上开源，仓库地址为 https://github.com/DeepExperience/HyperEyes 。
准备基础模型：需要下载并部署Qwen3-VL-30B或235B作为视觉语言模型的主干网络，并确保GPU显存满足相应的推理需求。
配置外部检索工具：接入图像搜索与文本搜索的API（例如Bing Image Search、Google Custom Search），这些将作为智能体执行UGS并行搜索的外部工具。
输入多实体查询：上传一张包含多个实体的复杂图片，并输入自然语言问题。HyperEyes会自动执行UGS搜索，单轮并发定位并检索所有目标。
查看并行搜索结果：模型会返回结构化的检索结果与最终答案，其中包含每个实体的视觉证据与文本证据。
评估搜索效率：可以使用前述的CAS（成本感知评分）指标，来量化评估整个过程的准确率、Token消耗与工具调用轮次的综合效率。

HyperEyes的核心优势

与现有方案相比，HyperEyes的优势是全方位的，主要体现在以下几个维度：

效率飞跃：其30B版本平均工具调用轮次仅需2.2次，这仅仅是同规模最强开源模型的五分之一，实现了5.3倍的效率提升。
准确率领先：在6个基准测试上，它超越了最强的开源同规模模型9.9%。其235B版本更是以仅1.1%的微小差距，逼近了Gemini-3.1-Pro的水平。
抗噪声鲁棒：并行策略有效规避了过度检索导致的幻觉问题。在真假证据混合的测试中，其准确率提升了3.7%到5.8%。
消除错误级联：UGS范式彻底消除了对串行裁剪的依赖，这意味着前置的定位偏差不会再污染后续的搜索结果，从根本上切断了错误传递链。
帕累托最优：在准确率-效率的联合优化前沿上，它实现了全面占优，其CAS评分达到了次优开源模型的7.6倍。
全栈效率重塑：这不是某个模块的修修补补，而是从动作空间定义、数据合成到强化学习训练的全栈底层重构，系统性地解决了串行困局。

HyperEyes的项目地址

GitHub仓库：https://github.com/DeepExperience/HyperEyes
arXiv技术论文：https://arxiv.org/abs/2605.07177

HyperEyes的同类竞品对比

口说无凭，我们将其与市场上同类型的智能体放在一起对比，优势便一目了然：

对比维度	HyperEyes-30B	DeepEyes-V2	VDR
开发团队	小红书/剑桥大学	小红书	未公开
搜索范式	并行并发(UGS)	串行裁剪-搜索	串行深度搜索
平均工具轮次	2.2	3.6	11.6
6基准平均准确率	64.0%	39.1%	54.1%
IMEB准确率	46.7%	18.0%	21.2%
CAS效率评分	0.910	0.119	0.014
核心机制	TRACE+OPD双粒度RL	工具奖励激励	多轮深度推理
错误级联风险	免疫（原子动作）	高风险	中等风险

HyperEyes的应用场景

如此强大的并发搜索能力，能用在哪些地方？其应用场景非常广泛：

多人物视觉推理：识别合影中特定人物的身份、职业与历史事件，并发检索多人的生平信息。
电商商品比对：对包含多个商品的复杂场景图进行并发搜索，一次性获取所有商品的价格、品牌与用户评价信息。
跨模态知识问答：回答涉及图片中多个物体、地标、艺术品之间关系的复杂查询，例如“这幅画中左侧的雕塑和右侧的建筑分别建于什么时代？”。
新闻事实核查：对包含多人物、多场景的新闻图片进行并发检索，快速验证事件真实性、人物身份及背景信息。
学术图表解析：对论文截图中的多个图表、公式、引用进行并行定位与内容检索，辅助快速阅读和理解。
社交媒体审核：对复杂图片中的多个实体（如文字、logo、人物）进行并发搜索，快速判断是否存在违规或误导性内容。

总的来说，HyperEyes不仅仅是一个效率更高的工具，它代表了一种解决多模态搜索问题的新思路。通过将定位与检索原子化，它打破了串行处理的固有范式，为AI智能体在复杂现实场景中的实用化，推开了一扇新的大门。

来源：互联网

上一篇 Agora-1多智能体世界模型深度测评：Odyssey首发的技术革新与潜力解析 下一篇 智谱AI与清华联合研发：下一代大模型推理架构ZCube深度解析

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。