其他资讯 VAREX基准测试

IBM VAREX基准测试：AI解读政府表格的权威测评与实战指南

2026-05-14

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

IBM Research于2026年3月在arXiv预印本服务器（论文编号：arXiv:2603 15118v1）上发布了一项研究，

IBM Research于2026年3月在arXiv预印本服务器（论文编号：arXiv:2603.15118v1）上发布了一项研究，提出了一个名为VAREX的全新基准测试。该基准旨在系统性地评估各类AI模型在解析与提取政府表格信息方面的实际效能。

IBM Research推出VAREX：让AI读懂政府表格的新基准测试

将AI视为处理文档的智能体，其核心能力之一便是从税务申报、项目申请等各类政府表格中精准提取结构化数据。然而，如何量化评估AI在面对海量非标准化文档时的真实表现？VAREX基准正是为了解决这一行业痛点而生。

在企业级场景中，每日需处理大量格式各异的政府表格，传统人工录入效率低且易错。尽管AI自动化提供了解决方案，但业界始终缺乏一个可靠、标准化的评估体系来衡量不同模型在实际应用中的鲁棒性与可靠性。

研究团队指出，现有评估方法存在根本性局限：它们大多基于有限的固定模板进行测试，这无法反映模型应对真实世界文档多样性的能力。更重要的是，这些测试往往只关注参数量庞大的顶级模型，而忽略了参数量在40亿（4B）以下的小型模型。

小型模型为何关键？它们是成本敏感场景或边缘计算部署中的“经济适用型”选择。然而，我们对这些轻量级模型处理复杂文档任务的实际潜力，认知尚不充分。

VAREX的突破在于其“反向标注”方法。不同于传统上先收集表格图像再人工标注的繁琐流程，研究团队首先收集了3300份美国政府机构的空白表格模板，随后通过程序自动填入符合逻辑的合成数据并生成标准答案。

这一过程类似于创建标准化试卷：基于既定模板和规则生成绝对准确的参考答案。经过三重质量校验，最终数据集的准确率达到98.5%。

最终构成的VAREX基准包含1777份结构独特的文档，共计需要提取21084个信息字段。文档被划分为三类：结构简单的“平铺型”、包含层级关系的“嵌套型”以及具有行列结构的“表格型”。为全面测试，每份文档均以四种格式呈现：

1. 纯文本：按阅读顺序排列内容，丢失所有布局信息。
2. 空间文本：通过添加空格保留原始表格的粗略列对齐等空间布局。
3. 图像格式：渲染为200 DPI的PNG图片。
4. 图像+空间文本：同时提供视觉信息与空间布局线索。

这种设计使研究人员能够精确分离“输入格式”变量对模型性能的影响。

一、小型模型：真正的瓶颈是“格式”，而非“理解”

对20个不同AI模型的测试揭示了一个反直觉结论：对于4B以下的小型模型，主要障碍并非语义理解，而是无法严格遵循指定的JSON格式输出结果。

研究人员将这种现象定义为“模式回声”，具体表现为两种形式：一是“纯模式复制”，即模型原样输出输入的JSON模板而不填入数据；二是“包装式提取”，即模型提取了正确信息，却使用了错误的JSON结构进行封装。

一个关键发现是，当JSON模式中包含“$defs”（引用定义）关键字时，小型模型尤其容易出错。而将这些引用直接展开到模式中后，问题得到显著改善。以Qwen3-VL 2B模型为例，此项调整使其准确率从27.4%跃升至91.8%。

另一个问题是“提取不足”：模型在处理文档后半部分字段时，准确率明显下降。例如，h2oVL系列模型在处理前25%字段时的准确率，比处理后25%字段时高出2.1倍，显示出类似注意力衰减的现象。

然而，最积极的发现是这些问题并非不可克服。专为文档提取训练的NuExtract 2.0（仅2B参数）完全避免了模式回声，达到了90.8%的准确率。这有力证明，小型模型的局限更多在于“指令遵循”能力，而非根本性的理解缺陷。

二、输入格式：被低估的“空间文本”

对比不同输入格式的结果出人意料：为模型提供保留空间布局的文本，比直接提供图像带来的提升更为显著。从纯文本切换到空间文本，模型准确率普遍提升了3到18个百分点，这一增益超过了其他单一改进措施。

可以这样理解：纯文本如同将餐桌上的所有物品按顺序排成一列，物品齐全但空间关系丢失。空间文本则通过空格大致保留了相对位置，为AI理解文档结构提供了关键线索。

相比之下，从空间文本切换到图像，或从单图像切换到“图像+文本”组合，带来的性能提升则有限得多，通常在0.5到2.2个百分点之间。这一发现具有重要的工程实践价值。

更有趣的是，一些纯文本模型在处理空间文本时，其表现甚至能超越视觉-语言模型处理图像的效果。例如，Qwen 2.5 72B在空间文本格式下达到了95.9%的准确率，略高于GPT-4o处理图像格式的94.8%。

这意味着，企业无需部署昂贵复杂的视觉-语言模型，仅通过能够提供词级边界框的OCR引擎生成空间文本，即可在可控成本下显著提升文档信息提取的准确率。

三、模型规模：并非简单的“越大越好”

研究描绘了模型规模与性能关系的复杂图景。在2B到4B参数区间，存在一个明显的“能力拐点”：在此之前，模型的主要错误是格式错误；在此之后，则开始出现真正的信息提取错误。

InternVL3.5系列清晰地展示了这一跃迁：其1B版本准确率仅28.2%，而2B版本骤升至85.6%。这暗示在该参数区间，模型能力发生了质变。

然而，规模绝非唯一决定因素。针对性的训练同样关键，甚至更为重要。NuExtract 2.0通过专门的文档提取训练，将其基础模型从几乎无效的9.7%准确率，提升至实用的90.8%。这证明，正确的训练方法可以极大弥补模型规模的不足。

在8B参数以上的“大型模型”竞技场，性能差异变得微妙。值得注意的是，8B参数的Qwen3-VL模型取得了96.6%的准确率，超过了参数量更大的Llama 4 Ma verick（17B×128E，95.6%）和GPT-4o（94.8%）。这表明，在高端性能层面，模型架构设计与训练质量的重要性，已开始超越单纯的参数数量比拼。

四、图像质量：API服务与开源模型的“稳定性分水岭”

为测试模型面对低质量文档的鲁棒性，研究进行了“分辨率压力测试”：将标准200 DPI的图像降至50 DPI（相当于故意模糊化）。

结果揭示了API服务与开源模型之间的一道鸿沟。Gemini系列模型展现了出色的稳定性，准确率仅下降1.7到3.5个百分点。

相比之下，8B到17B参数范围的开源模型则遭遇了显著下滑，准确率暴跌38到40个百分点，从90%以上的优秀水平直接跌至50%左右。即便是GPT-4o这类API模型，也出现了29个百分点的下降。

一个有趣的例外是InternVL3.5 2B，作为开源小模型，其准确率仅下降4.7个百分点，展现出与其规模不符的抗干扰能力。这可能源于其视觉编码器对图像高频细节的依赖较低，这也解释了为何它在空间文本格式上的表现反而优于图像格式。

五、文档结构：复杂度如何影响不同水平的模型

VAREX将文档按结构复杂度分为平铺型、嵌套型和表格型三类。对于准确率超过90%的顶级模型，这三类文档的难度差异微乎其微，表现波动通常在1个百分点内。这说明，一旦AI能力达到一定高度，结构复杂度便不再是主要障碍。

然而，对于准确率在70%到90%之间的中等水平模型，表格型文档开始显现出其挑战性。这类模型处理平铺型与表格型文档的准确率差距可达8到20个百分点。这反映的是真正的“结构理解”能力缺陷。

在不同类型的字段中，“格式敏感型”字段（如货币数值、电子邮件地址）的性能差异最大。例如，货币数值的提取准确率在不同模型间差异可达15个百分点，这关乎小数点定位和数字识别的精确度。电子邮件地址的处理也有17个百分点的差异。

相对而言，邮政编码、州名缩写等格式固定的简单字段，跨模型性能差异则小得多，通常在10个百分点以内。这表明，对AI而言，某些信息类型天生就比其他类型更容易处理。

六、实践启示：在性能、成本与部署间寻找平衡

VAREX基准的核心价值，在于为实际技术选型提供了数据驱动的决策依据。企业需要根据自身场景，在性能、成本和部署难度之间做出权衡：

追求极致性能与稳定性：若预算充足且对准确性要求极高，Gemini 2.5 Pro等顶级API模型是首选。它们提供顶级的专业服务，价格昂贵但质量与稳定性俱佳。

平衡性能与成本：对于需要在本地部署或考虑成本的企业，8B参数级别的开源模型（如Qwen3-VL）提供了绝佳的平衡点。96%以上的准确率对绝大多数应用已足够，且一次部署可长期使用。

挖掘小型模型潜力：对于愿意投入专项训练资源的团队，小型模型可能是性价比最高的选择。NuExtract 2.0的成功表明，通过针对性训练，2B模型也能达到接近大模型的性能。

善用“空间文本”格式：这一发现为无法使用视觉模型的应用场景提供了“捷径”。任何具备精确OCR能力的系统都能生成空间文本，技术门槛和计算成本大幅降低，却能带来显著的性能提升。

七、局限与展望

当然，VAREX基准也有其局限性。首先，其文档结构的复杂度上限受限于用于模式发现的24B参数模型的能力，一些对AI而言真正棘手的复杂结构可能未被充分涵盖。

其次，由于模式由AI生成，可能无意中偏向于“AI友好型”结构，而真实世界中可能存在一些对人类自然、但对AI极具挑战的文档模式。

此外，基准目前仅包含单页、英文的美国**表格，缺乏手写体、扫描伪影、多语言内容等现实挑战，且表格行数（中位数3行）远低于企业级应用的实际规模。

尽管存在这些局限，VAREX仍为文档理解领域提供了一个至关重要的标准化评估工具。它像一套为AI模型设计的“综合体检项目”，帮助我们系统性地洞察其能力边界。

这项研究揭示了一个核心洞见：对于许多小型AI模型而言，处理政府表格的主要瓶颈并非“看不懂”，而是“不按格式写”。这为模型优化指明了清晰方向——提升指令遵循与格式规范性，有时比盲目扩大规模更有效。

而“空间文本”格式的优异表现，则提供了一个高性价比的实用方案，有望降低AI文档处理技术的应用门槛。随着研究团队将全部数据集与评估代码开源，可以预见，将有更多开发者在此基础上构建出更智能、更可靠的文档理解系统。

Q&A

Q1：VAREX基准测试是什么，为什么要开发它？
A：VAREX是由IBM Research开发的、专门用于评估AI模型从政府表格中提取信息能力的基准。现有测试多使用固定模板，无法反映AI处理真实世界多样文档的能力，尤其缺乏对小型模型的评估。VAREX包含1777份结构独特的文档，旨在提供更贴近实际、更全面的评估标准。

Q2：小型AI模型在文档处理方面有什么主要问题？
A：研究发现，4B参数以下的小型模型核心问题在于“指令遵循”而非“内容理解”，表现为“模式回声”——即无法按指定格式输出答案，导致准确率骤降。但这一问题可通过专门训练解决，例如NuExtract 2.0模型经训练后，准确率从9.7%提升至90.8%。

Q3：什么样的输入格式对AI处理文档最有效？
A：研究表明，“空间文本”格式（即用空格保留原始表格粗略布局的文本）效果最为显著，能带来3-18个百分点的准确率提升，其效果甚至优于直接提供图像。该格式可由普通OCR引擎生成，成本低、易实现，为实际应用提供了高性价比的解决方案。

来源：互联网

上一篇 上海人工智能实验室三维视觉技术测评：革命性突破如何让机器理解空间 下一篇 Epalea人工智能法律证据分析：多重证据处理突破性方法深度解析

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。