其他资讯 AI报税系统Tax

AI报税系统Tax AI深度测评：准确率86%能否替代人工？

2026-06-06

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

OpenAI近期低调上线了一个细节，细品之下意味深长。一套AI系统，未触发任何模型重训，未

OpenAI近期低调上线了一个细节，细品之下意味深长。

一套AI系统，未触发任何模型重训，未修改一行代码，六周内准确率从25%自主攀升至86%。

OpenAI将完整实施方案写在官方博客，白纸黑字，未做任何遮掩。

回看2026年2月GPT-5.3-Codex“参与自身构建”，4月Symphony开源，5月MOSS实现源码级自我改写——一条被OpenAI藏了半年的暗线终于浮出水面。AI自我进化已在生产环境中落地运行，不再是概念，而是事实。

180小时→15小时，六周准确率翻三倍

这套AI报税系统名为Tax AI，由OpenAI与Thrive Holdings联合构建，服务于Crete会计师联盟旗下30余家事务所。

先看一个具体案例。

去年，Crete一位资深会计师仅为一位客户准备税表便耗费整整180小时。今年同样的工作量，15小时完成。节省出的时间让她做了一件此前完全不可能的事：逐一给每位客户致电，亲自讲解报税细节。剩余精力全部投入新客户开发。

整个赛季Tax AI处理了7000份税表，最高准确率97%，产能提升约50%。

真正令人震撼的不是这些数字，而是增长曲线。六周前只能处理最简单的W-2和1099表格，K-1这类稍复杂的表格无法应对。六周后，字段完成准确率从25%飙升至86%。系统越用越强，且加速变强。

Bug自主修复，测试报告自动生成

关键路径是什么？

Thrive Holdings的创始人Joshua Kushner同时也是OpenAI最大投资方之一。去年12月OpenAI入股Thrive Holdings，直接将工程团队派驻到会计师办公桌旁，面对真实税表、真实数据、真实报错，联合打磨六个月。

传统AI产品改进流程：上线→出bug→用户投诉→工程师排查→改代码→重新部署。该循环极其缓慢，每一步都卡在人力环节。

Tax AI采用三招，将循环中绝大部分环节自动化。

第一招：将从业者的每次纠错转化为结构化数据。会计师审核Tax AI输出时，每修改一个字段，系统完整记录三件事：AI预测了什么、会计师改成了什么、最终报税采用了什么。关键在于，系统将每次修改视为改进起点而非终点。

第二招：生产环境每一步都留痕。从源文件上传到字段提取、引用溯源、税务引擎映射、会计师纠正、最终报税，整条链路每个节点均有trace。出错时能精确定位：是OCR误读手写笔记，字段映射逻辑存在gap，还是表格类型完全不支持。

第三招：用Codex将发现转化为修复。当系统检测到某类错误反复出现（如Tax AI经常漏掉租赁房产的“公平出租天数”字段，而会计师每次手动补上），该pattern被打包成一个具有明确成功标准的工程任务，丢给Codex。

Codex接收到的不是模糊的bug报告，而是完整的生产trace、出错源文件样本、期望输出、相关代码路径，外加一套专为此问题设计的eval测试集。随后Codex自行检查提取逻辑、映射规则、评分器，提出修复方案，运行targeted eval验证，再执行回归测试确认未引入新问题，最后生成一个PR等待人类工程师审查。若证据模糊，任务会路由回产品团队，而非硬塞入流程。

换句话说，Bug修完了，还自带测试报告。

效果立竿见影。租赁房产相关字段处理从几乎不可用提升至90%精确率和召回率，仅用六周。而这六周积累的抽象能力和eval规范，又让后续支持Schedule C和Schedule A变得更加快速。系统越用，能处理的问题越复杂；越复杂的问题被解决，每份税表节省的人工时间越多。这是一条加速曲线。

AI进入自我改进时代

2月OpenAI发布GPT-5.3-Codex时写道：“GPT-5.3-Codex是我们第一个在创造自身过程中发挥了关键作用的模型。”Codex团队使用该模型的早期版本调试自身训练流程、管理部署、诊断测试结果。模型参与了自身的构建。

4月OpenAI开源了Symphony——一个将Codex与Linear项目管理工具连接起来的编排层。起因很实际：OpenAI工程师发现一个人同时管理3到5个Codex会话已是极限，再多就陷入上下文切换泥潭。人的注意力成了Agent产能的天花板。Symphony的思路很直接：别管Agent了，管工作本身。它监控issue tracker，为每个ticket分配独立的Agent工作空间，Agent自行干活、跑CI、生成PR。工程师只负责审查产出物。当Agent失败时，工程师不去修改prompt让其“再试一次”，而是思考“它缺了什么能力、什么上下文、什么结构”，然后修harness，而不是修prompt。

OpenAI内部使用Symphony后，部分团队工程产出直接翻倍。同样在4月，学术界跟进——ICLR 2026在里约专门举办了“AI递归自我改进”workshop。紧接着5月，一项名为MOSS的研究将此事推到更极端位置：让Agent不仅修改prompt或workflow配置，而是直接改写自身源代码。在OpenClaw平台上，MOSS在一个无人干预的进化周期内，将四个任务的平均评分从0.25提升至0.61。

论文地址：https://arxiv.org/abs/2605.22794

Tax AI并非孤例。“Agent自我改进”已成为2026年上半年最密集的技术主线。

模型层面：GPT-5.3-Codex参与自身构建。
工程层面：Symphony叠加Tax AI的生产闭环。
学术层面：MOSS实现源码级自我改写。

不动模型权重，照样越来越强

这里有一个关键区分。过去谈论AI进化，指的是fine-tuning、RLHF、修改模型权重——那条路需要海量数据、大量GPU、专业团队，门槛极高。现在OpenAI展示的路径完全不同：模型权重纹丝不动。改变的是模型周围的一切——提取逻辑、映射规则、eval标准、工作流配置，甚至Agent自身代码。

打个比方：模型是引擎，harness是车身。即使不换引擎，也能让车跑得更快——改底盘、调悬挂即可。

这样一来，自我改进的门槛大幅降低。你不需要自己训练模型，只需要三件事：设计好eval体系、保留生产trace、让一个足够强的coding agent去跑“发现→定位→修复→验证”的闭环。

模型智能是起点，系统智能才是终局

回到Tax AI。如果只看“AI帮人报税”这个表层叙事，竞争壁垒看起来很薄——换一个大模型接上去似乎也能干。但如果你看到底层那套自我改进闭环，结论完全不同。

Tax AI的全部知识产权归Thrive Holdings所有。OpenAI派驻了半年工程师，最后连IP都没留下。这在硅谷大厂的AI合作中极其罕见。Thrive Capital是OpenAI最大投资方之一，去年12月OpenAI反手入股Thrive Holdings，不给现金，给工程师、给模型、给深度集成，最终产品归你。

OpenAI图什么？答案就藏在Tax AI的增长曲线里。每处理一份税表，每收到一次会计师的纠正，系统就多了一份改进自身的证据。这个飞轮一旦转起来，OpenAI就拿到了一个完整的、经过生产验证的Agent自我进化范式。一个报税产品的IP不值钱。一套可复制的自我改进方法论，才是真正的战略资产。

现在范式跑通了。Thrive Holdings已经在将同样的闭环复制到记账、审计、IT运维领域。

另一边，Anthropic也没闲着。Conway——那个7x24小时永不下线的Agent平台——底层搭载了Memory Files持久记忆加上Dreams异步整合。说白了，也是在给Agent装上一个能自我维护、自我进化的“永久大脑”。两条路线，殊途同归。OpenAI用Codex驱动的eval闭环，让Agent在生产中自己修bug。Anthropic用文件记忆加梦境机制，让Agent在会话间自己整理经验。方法不同，赌的是同一件事：Agent能否从“一次性工具”变成“越用越强的系统”。

在通往ASI的路上，模型智能只是起点。真正的终局，是系统智能——一个能从环境中持续学习、持续进化、持续变强的整体。

参考资料：
https://openai.com/index/building-self-improving-tax-agents-with-codex/

来源：互联网

上一篇 高通Computex重磅：边缘计算vs终端计算，终极对决

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

AI报税系统Tax AI深度测评：准确率86%能否替代人工？

摘要

相关文章推荐