AI报税系统Tax AI深度测评:准确率86%能否替代人工?
摘要
OpenAI近期低调上线了一个细节,细品之下意味深长。 一套AI系统,未触发任何模型重训,未
OpenAI近期低调上线了一个细节,细品之下意味深长。
一套AI系统,未触发任何模型重训,未修改一行代码,六周内准确率从25%自主攀升至86%。
OpenAI将完整实施方案写在官方博客,白纸黑字,未做任何遮掩。

回看2026年2月GPT-5.3-Codex“参与自身构建”,4月Symphony开源,5月MOSS实现源码级自我改写——一条被OpenAI藏了半年的暗线终于浮出水面。AI自我进化已在生产环境中落地运行,不再是概念,而是事实。
180小时→15小时,六周准确率翻三倍
这套AI报税系统名为Tax AI,由OpenAI与Thrive Holdings联合构建,服务于Crete会计师联盟旗下30余家事务所。
先看一个具体案例。
去年,Crete一位资深会计师仅为一位客户准备税表便耗费整整180小时。今年同样的工作量,15小时完成。节省出的时间让她做了一件此前完全不可能的事:逐一给每位客户致电,亲自讲解报税细节。剩余精力全部投入新客户开发。
整个赛季Tax AI处理了7000份税表,最高准确率97%,产能提升约50%。
真正令人震撼的不是这些数字,而是增长曲线。六周前只能处理最简单的W-2和1099表格,K-1这类稍复杂的表格无法应对。六周后,字段完成准确率从25%飙升至86%。系统越用越强,且加速变强。

Bug自主修复,测试报告自动生成
关键路径是什么?
Thrive Holdings的创始人Joshua Kushner同时也是OpenAI最大投资方之一。去年12月OpenAI入股Thrive Holdings,直接将工程团队派驻到会计师办公桌旁,面对真实税表、真实数据、真实报错,联合打磨六个月。
传统AI产品改进流程:上线→出bug→用户投诉→工程师排查→改代码→重新部署。该循环极其缓慢,每一步都卡在人力环节。
Tax AI采用三招,将循环中绝大部分环节自动化。
第一招:将从业者的每次纠错转化为结构化数据。会计师审核Tax AI输出时,每修改一个字段,系统完整记录三件事:AI预测了什么、会计师改成了什么、最终报税采用了什么。关键在于,系统将每次修改视为改进起点而非终点。
第二招:生产环境每一步都留痕。从源文件上传到字段提取、引用溯源、税务引擎映射、会计师纠正、最终报税,整条链路每个节点均有trace。出错时能精确定位:是OCR误读手写笔记,字段映射逻辑存在gap,还是表格类型完全不支持。

第三招:用Codex将发现转化为修复。当系统检测到某类错误反复出现(如Tax AI经常漏掉租赁房产的“公平出租天数”字段,而会计师每次手动补上),该pattern被打包成一个具有明确成功标准的工程任务,丢给Codex。
Codex接收到的不是模糊的bug报告,而是完整的生产trace、出错源文件样本、期望输出、相关代码路径,外加一套专为此问题设计的eval测试集。随后Codex自行检查提取逻辑、映射规则、评分器,提出修复方案,运行targeted eval验证,再执行回归测试确认未引入新问题,最后生成一个PR等待人类工程师审查。若证据模糊,任务会路由回产品团队,而非硬塞入流程。
换句话说,Bug修完了,还自带测试报告。

效果立竿见影。租赁房产相关字段处理从几乎不可用提升至90%精确率和召回率,仅用六周。而这六周积累的抽象能力和eval规范,又让后续支持Schedule C和Schedule A变得更加快速。系统越用,能处理的问题越复杂;越复杂的问题被解决,每份税表节省的人工时间越多。这是一条加速曲线。
AI进入自我改进时代
2月OpenAI发布GPT-5.3-Codex时写道:“GPT-5.3-Codex是我们第一个在创造自身过程中发挥了关键作用的模型。”Codex团队使用该模型的早期版本调试自身训练流程、管理部署、诊断测试结果。模型参与了自身的构建。

4月OpenAI开源了Symphony——一个将Codex与Linear项目管理工具连接起来的编排层。起因很实际:OpenAI工程师发现一个人同时管理3到5个Codex会话已是极限,再多就陷入上下文切换泥潭。人的注意力成了Agent产能的天花板。Symphony的思路很直接:别管Agent了,管工作本身。它监控issue tracker,为每个ticket分配独立的Agent工作空间,Agent自行干活、跑CI、生成PR。工程师只负责审查产出物。当Agent失败时,工程师不去修改prompt让其“再试一次”,而是思考“它缺了什么能力、什么上下文、什么结构”,然后修harness,而不是修prompt。

OpenAI内部使用Symphony后,部分团队工程产出直接翻倍。同样在4月,学术界跟进——ICLR 2026在里约专门举办了“AI递归自我改进”workshop。紧接着5月,一项名为MOSS的研究将此事推到更极端位置:让Agent不仅修改prompt或workflow配置,而是直接改写自身源代码。在OpenClaw平台上,MOSS在一个无人干预的进化周期内,将四个任务的平均评分从0.25提升至0.61。

论文地址:https://arxiv.org/abs/2605.22794
Tax AI并非孤例。“Agent自我改进”已成为2026年上半年最密集的技术主线。
- 模型层面:GPT-5.3-Codex参与自身构建。
- 工程层面:Symphony叠加Tax AI的生产闭环。
- 学术层面:MOSS实现源码级自我改写。
不动模型权重,照样越来越强
这里有一个关键区分。过去谈论AI进化,指的是fine-tuning、RLHF、修改模型权重——那条路需要海量数据、大量GPU、专业团队,门槛极高。现在OpenAI展示的路径完全不同:模型权重纹丝不动。改变的是模型周围的一切——提取逻辑、映射规则、eval标准、工作流配置,甚至Agent自身代码。
打个比方:模型是引擎,harness是车身。即使不换引擎,也能让车跑得更快——改底盘、调悬挂即可。

这样一来,自我改进的门槛大幅降低。你不需要自己训练模型,只需要三件事:设计好eval体系、保留生产trace、让一个足够强的coding agent去跑“发现→定位→修复→验证”的闭环。
模型智能是起点,系统智能才是终局
回到Tax AI。如果只看“AI帮人报税”这个表层叙事,竞争壁垒看起来很薄——换一个大模型接上去似乎也能干。但如果你看到底层那套自我改进闭环,结论完全不同。
Tax AI的全部知识产权归Thrive Holdings所有。OpenAI派驻了半年工程师,最后连IP都没留下。这在硅谷大厂的AI合作中极其罕见。Thrive Capital是OpenAI最大投资方之一,去年12月OpenAI反手入股Thrive Holdings,不给现金,给工程师、给模型、给深度集成,最终产品归你。
OpenAI图什么?答案就藏在Tax AI的增长曲线里。每处理一份税表,每收到一次会计师的纠正,系统就多了一份改进自身的证据。这个飞轮一旦转起来,OpenAI就拿到了一个完整的、经过生产验证的Agent自我进化范式。一个报税产品的IP不值钱。一套可复制的自我改进方法论,才是真正的战略资产。
现在范式跑通了。Thrive Holdings已经在将同样的闭环复制到记账、审计、IT运维领域。

另一边,Anthropic也没闲着。Conway——那个7x24小时永不下线的Agent平台——底层搭载了Memory Files持久记忆加上Dreams异步整合。说白了,也是在给Agent装上一个能自我维护、自我进化的“永久大脑”。两条路线,殊途同归。OpenAI用Codex驱动的eval闭环,让Agent在生产中自己修bug。Anthropic用文件记忆加梦境机制,让Agent在会话间自己整理经验。方法不同,赌的是同一件事:Agent能否从“一次性工具”变成“越用越强的系统”。
在通往ASI的路上,模型智能只是起点。真正的终局,是系统智能——一个能从环境中持续学习、持续进化、持续变强的整体。

参考资料:
https://openai.com/index/building-self-improving-tax-agents-with-codex/
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。