多模态深度研究助手权威评测 中国人民大学团队打造
摘要
中国人民大学团队研发的多模态深度研究助手PTAH,通过规划、调研、撰稿与审核多智能体
这项由中国人民大学高岭人工智能学院牵头的研究,于2026年5月以预印本形式公开,论文编号为arXiv:2605.29861v1。想深挖技术细节,可以直接通过该编号检索原文。
设想一个典型场景:你向AI提问,期望它返回一份逻辑严密、图文并茂的深度研究报告,就像顶尖咨询公司交付的成果。然而,当前绝大多数AI工具交出的只是一大段纯文字。数据图表、支撑论点的截屏、示意性图示,通通不存在。更关键的问题是,AI所陈述的内容到底有没有可信的来源?这恰恰是这项研究试图解决的核心痛点。
研究团队推出的系统名为PTAH——取自埃及神话中的创造之神与工匠守护神。这个名字的寓意很清晰:将零散的文字碎片与视觉素材精密组装成一件完整的作品。PTAH的目标简单且明确:基于用户给出的单一指令,自动生成一份可直接在浏览器中阅读、图文交织、每条引用都可追溯的网页版深度研究报告。与此同时,团队还开发了一套配套的评估体系PTAHEval,专门用来量化这类多模态报告的综合质量,填补了现有评估工具只能给文字打分、对图片部分全无判断的空白。
为什么AI生成专业报告,比想象中复杂得多
提到“让AI查资料写报告”,脑海中浮现的画面往往是一个全能助理:几分钟内扫遍几十个网页,提炼关键情报,再组织成一篇条理清晰的长文。这类系统在学术圈被称为“深度研究”(Deep Research),与只回答单一具体问题的“深度搜索”(Deep Search)有本质区别。
深度搜索就像在图书馆查一个确切词条——你问“珠穆朗玛峰多高”,它答“8848.86米”。对错立即可验。而深度研究更像是在撰写一篇综述论文:没有唯一标准答案,需要综合多方信源,判断哪些信息重要、哪些存在矛盾,最终以清晰且有说服力的方式呈现出来。
这就引出两个极端棘手的挑战。第一,缺乏标准答案。深度研究报告不像数学题,对错一目了然,其质量难以用简单指标衡量。一旦前期信息采集出现偏差,后续所有内容都会被污染。第二,图文配合。真正的专业报告绝非纯文字堆砌:趋势折线图用于展示技术演进,架构示意图用于解读复杂系统的运作机制,原始文献的截屏用于提供实证。但现有AI系统大多把图片当作写完报告后随手贴上的装饰品,图文关联松散,甚至配图与正文讲的完全不是一件事。
研究团队将这两个挑战比作“深度研究的两道门槛”,而PTAH的设计思路,正是在架构层面同时跨越这两道门槛。
PTAH如何运作:一个角色明确的多智能体协作团队
理解PTAH最直观的方式,是把它想象成一个正在完成咨询项目的专业小组。这个小组里有项目经理、多名独立调研员、一名主笔撰稿人,以及一个随时待命、专挑毛病的质控审核员。
第一步由“规划师”完成。规划师拿到用户问题后,不会直接开始查找资料,而是先进行前期探索,产出一份详尽的研究计划书。这份计划书不仅列出报告各章节的结构,还明确标注了每个章节需要哪种类型的图——是展示趋势的数据图表,是解释原理的架构示意图,还是用于佐证的实物截屏。将视觉需求前置写入计划书,是PTAH区别于大多数现有系统的关键特征之一。
计划书写完后,会进入“审核员”的第一轮审查。审核员通过两种方式判断计划书是否合格:一是机械式的规则检查,比如格式是否正确、工具调用是否符合规范;二是调用另一个语言模型,评估该计划是否真正覆盖了用户提问的方方面面,各章节逻辑是否连贯,视觉需求与文字论述是否匹配。如果未通过审核,规划师需要修改甚至重新搜索资料后再提交。
审核通过后,多名“调研员”同步并行工作,每人负责一个章节的深度调研。每位调研员搜索网页、阅读资料、整理发现,最终产出结构化的研究包,内含关键发现、支持论据、数据表格、引用来源以及给后续撰稿人的写作建议。
与此同时,调研员会系统性地从访问过的网页中提取图片,建立该章节专属的“视觉工作记忆”。这个工作记忆就像调研员顺手搭建的图片素材库,但绝非随意堆放——每张图片都附带其来源网址、所属章节以及在报告中应扮演的角色。在进入下一步之前,素材库会先经过规则筛选(剔除分辨率过低、比例极端、明显无关的图片),再通过视觉语言模型参照规划阶段设定的图片需求,进行更细致的相关性评估,最终确定保留或移除。
每位调研员提交的研究包,同样需要经过审核员的审查。这次的核查重点在于:引用URL是否真实有效、数字数据是否前后一致、图片与章节内容的相关性是否达标。不合格的研究包会被退回,要求对应调研员补充或修正。
从素材到报告:撰稿人如何编制图文交织的完整作品
调研结束后,撰稿人手中已有的资源包括:一份全局研究计划、所有章节经过审核的研究包,以及各章节对应的视觉工作记忆素材库。
撰稿人的工作方式并非先写完所有文字再回头考虑构图。相反,它采用一种“声明式多模态写作”策略:在撰写文字内容的同时,直接在被认为应该出现图片的位置嵌入图片指令标签,明确说明该位置需要的图片类型、作用以及获取方式。
图片获取有三条路径。优先级最高的是从视觉工作记忆中直接复用调研阶段已收集并筛选过的原始网页图片,因为这些图片与正文内容来源高度一致。如果现有素材库中找不到合适的,则启动额外的图片搜索,从网络中检索相关图片。如果报告需要某种原创的可视化内容——比如根据数据绘制的趋势图,或解释抽象概念的示意图——则可通过调用代码执行工具生成图表,或者调用图像生成模型来创作插图。
初稿完成后,PTAH并未急于交付,而是启动一个名为“测试时优化”的六步精炼流程。第一步是章节精炼,逐章检查文字的清晰度、证据覆盖情况和引用准确性。第二步是图片精炼,对每张图片做出“保留、删除或编辑”的决策,需要调整的图片会执行具体编辑指令。第三步是整体精炼,从全局视角审视各章节之间的一致性,以及图片与文字的整体协调性。第四步是生成HTML文档,将精炼后的报告转换为带有布局和样式设计的网页格式。第五步是HTML精炼,进一步调整网页的排版细节、间距与视觉呈现。第六步是最终渲染,在浏览器中生成可直接阅读的用户端多模态报告。
这六步精炼的价值不仅在于“修正拼写错误”,更在于确保最终呈现给用户的内容不仅在事实上正确,而且在视觉上易于阅读。图片的放置位置和方式必须真正服务于理解,而非沦为堆砌的装饰品。
如何量化图文报告的质量:PTAHEval评估体系
现有的深度研究基准测试,如DeepResearch Bench和DeepConsult,主要评估报告的文字质量——内容是否全面、分析是否深入、是否符合指令要求、文字是否流畅。这些维度对于纯文字报告游刃有余,但面对图文交织的多模态报告,它们完全无法评价图片部分的质量。
PTAHEval的设计思路是在保留原有文字评估维度的基础上,新增两个专门针对多模态内容的评估维度。
第一个维度称为“图片内容质量”(ICQ),负责评估报告里每一张具体图片的质量。评估时,系统将包含图片及其周围文字的内容一同送入视觉语言模型进行判断。具体而言,ICQ从四个角度进行评分:图片本身是否清晰易读(视觉清晰度);图片的语义内容是否与周围文字一致,放置位置是否合理(跨模态对齐);图片是否传递了文字难以单独表达的有价值信息(信息互补性);图片是否为正文章节中的论点和结论提供了佐证(证据支撑性)。每个角度采用1到5分的五级量表。
第二个维度称为“多模态呈现质量”(MPQ),评估整份报告渲染成网页后,读者实际看到的界面质量。评估时,系统将报告网页渲染出来,截取宽1000像素、高2000像素的首屏截图,再送入视觉语言模型进行打分。MPQ同样从四个角度评估:信息密度与视觉清晰度的平衡(密度可读性平衡);关键信息和结构要素是否通过视觉层次感得到有效突出(信息显著性);是否使用了表格、图标、图表、示意图等多种视觉形式辅助理解(视觉编码多样性);排版间距、视觉节奏、对齐方式是否降低了阅读负担(视觉工效)。
这种将“内容正确性”与“呈现质量”分离评估的思路,使PTAHEval能够从多个维度全面衡量一份多模态报告的实际水准。
实验结果:PTAH在各项评估中的表现
研究团队在DeepResearch Bench(100道博士级研究任务,覆盖22个领域,中英文各50道)和DeepConsult(102道商业咨询类问题)两个基准上进行了评测,并与多个基线系统进行了对比。参与比较的系统包括:直接让语言模型生成报告(不进行任何搜索)、三种单智能体文字搜索系统(ReAct、Search-o1、WebThinker),以及一种能够生成多模态内容的智能体方法LLM-I。
在文字质量方面,PTAH在DeepResearch Bench上的综合评分为45.16,在所有参与系统中得分最高,尤其在分析深度和报告可读性两个维度上表现突出。在DeepConsult上,PTAH的平均分为16.18,比第二名WebThinker(7.35)高出超过一倍,指令遵循、完整性和写作质量上的提升尤为显著。
在图片质量方面,PTAH在ICQ的四个维度上全面领先,其中跨模态对齐的得分尤其接近满分。这背后有两个关键因素:一是从真实网页提取的图片本身与网页内容高度相关;二是测试时优化机制进一步强化了图文的一致性。相比之下,LLM-I的ICQ平均得分仅为1.97,与PTAH的4.39相差悬殊,这充分说明缺乏系统性验证机制的多模态生成,其图片质量远不稳定。
在报告可信度方面,PTAH的引用准确率达到87.53%,平均每篇报告包含9.64条有效引用,搜索工具调用次数(12.82次)也明显多于其他系统。对照组实验显示,在没有审核员模块的情况下,ReAct和Search-o1等基线系统频繁生成无效甚至虚构的URL,而PTAH的审核员机制有效确保了每一条引用都指向真实可访问的来源。
人工评估结果进一步验证了自动评估的可靠性。研究团队从DeepResearch Bench中随机抽取25道题,由四名标注员(两名AI博士生和两名本科生)以匿名对比的方式比较PTAH与基线系统的报告质量。标注员在图片内容质量上对PTAH的支持率达到88%-96%,在多模态呈现质量上对PTAH的支持率达到80%-100%,结果与自动评估结果高度吻合。
此外,研究团队专门围绕审核员的作用进行了消融实验。去掉审核员后,100道测试题中有14道在规划阶段就因格式错误或工具调用失败而无法继续,剩余86道中又有18道在调研阶段失败,最终只有68道能够完整生成报告。这表明审核员对整个流程的稳定性至关重要。对于成功生成的68份报告,引用准确率从87.53%骤降至30.29%,充分说明审核员在保障事实可信度方面扮演着关键角色。
测试时优化机制的效果同样经过了单独验证。去掉这个六步精炼流程后,报告的综合文字得分下降了3.03分,ICQ平均分从4.39降至2.77,MPQ平均分从3.71降至3.49。同时,去掉精炼流程后,报告中图片的平均数量从3.76增加到5.06,但无效图片的比例也从0.12上升到0.38。这说明精炼流程并非仅仅在数量上筛选图片,而是在质量上大幅提升了图片的可用性。
用户体验评估方面,研究团队让四名评估者对比PTAH和WebThinker生成的报告,从可读性、易用性、信息获取效率和整体偏好四个维度做出判断。PTAH的胜出或持平率分别为88.75%、88.75%、96.25%和95.00%。其中信息获取效率的高胜出率表明,图文穿插的呈现方式确实能帮助读者更快地定位和理解关键信息。
针对视觉元素本身的贡献,研究团队还设计了一个“去图版PTAH”实验,使用完全相同的流程,只是最终报告中不加入任何图片。去图版PTAH的文字综合评分(45.10)与完整版(45.16)几乎相同,但MPQ平均分从3.71降至3.29。这说明图片对文字评分几乎没有负面影响,但对多模态呈现质量有实质性的提升贡献。
系统的时间成本与效率设计
研究团队在DeepResearch Bench上对PTAH的运行效率进行了细致分析。完整流程平均耗时约1015秒(大约17分钟),其中调研阶段是最耗时的部分,平均459秒,因为它涉及对多个网页的开放式搜索、内容解读和图片池构建。测试时优化阶段平均243秒,规划阶段192秒,写作阶段121秒。
多名调研员并行工作的设计带来了显著的效率提升。如果改为顺序执行,调研阶段的平均耗时将从459秒膨胀到1328秒,增加近三倍。并行设计在不牺牲报告质量的前提下,将调研时间压缩了65%。
不同强度的审核员也会影响整体速度。研究团队测试了用DeepSeek-R1替换当前审核员的效果,发现规划阶段耗时从192秒增加到853秒,调研阶段从459秒增加到1408秒。更强的推理模型意味着更严格的审核和更多轮的修改迭代,因此在报告质量和生成速度之间存在明显的权衡关系。研究团队最终选定当前版本的审核员,作为质量与效率之间的平衡配置。
归根结底,PTAH这项研究回答了一个极为具体的问题:当我们希望AI不只输出一段文字,而是真正生成一份像样的专业报告时,需要在架构设计上做哪些事情。研究团队给出的答案是:分阶段拆解任务,让专业化的智能体各司其职;将图片处理从事后装饰提升为前期规划中的核心要素;在每个关键环节设置审核检查点,防止错误的累积与传播;最后,通过多轮精炼将内容质量与视觉呈现质量都打磨到位。
这套思路本身并不复杂,但要完整落地需要解决大量的工程细节与设计取舍,而实验结果表明这些努力确实有效。对于普通用户而言,这意味着未来借助类似系统产出的研究报告,将不再是一大段孤零零的文字,而是能够将数据图表、示意图、实物截屏与文字论述有机融合。每一张图都说明问题,每一条引用都指向真实来源。
如果你想了解PTAH背后更完整的技术细节,可以通过arXiv编号2605.29861检索原论文。该工作由中国人民大学高岭人工智能学院的研究团队完成。
Q&A
Q1:PTAH系统中的“视觉工作记忆”是什么,有什么作用?
A:视觉工作记忆是PTAH在调研阶段为每个章节建立的一个图片素材库。调研员在访问网页时会系统性地提取其中的图片,先经过分辨率过滤和视觉语言模型的相关性筛选,然后将每张保留的图片连同其来源网址、所属章节以及预期用途一起存储。这样做的好处在于,撰稿阶段可以直接复用这些来源可追溯的图片,而不是临时随意搜索或生成,从而保证图片与文字内容之间的高度一致性。
Q2:PTAHEval评估体系与现有AI报告评估方法有什么不同?
A:现有深度研究评估基准(如DeepResearch Bench)主要只评估文字内容的质量,完全忽略了报告中是否有图片以及图片的质量如何。PTAHEval在保留文字评估的基础上新增了两个维度:图片内容质量(ICQ,评估每张图片的清晰度、与文字的对齐度、信息互补性和证据支撑性)和多模态呈现质量(MPQ,通过截取网页首屏截图来评估整体版面的可读性、信息显著性、视觉多样性和排版舒适度),并由视觉语言模型打分。
Q3:去掉PTAH的审核员模块会发生什么?
A:去掉审核员后,系统的稳定性会大幅下降。在100道测试题中,有14道在规划阶段就因格式或工具调用错误而卡住无法进行,剩余的86道中又有18道在调研阶段失败,最终只有68道能够完整生成报告。更为关键的是,成功生成的68份报告,其引用准确率从87.53%骤降至30.29%。这表明审核员不仅保障了流程的稳定,还是确保报告引用真实可信的关键机制。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。