技术资讯人工智能大模型

Text-to-SQL技术路线：大模型ChatBI实现详解

2026-06-02

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

Text-to-SQL技术经历了从规则到深度学习再到大模型的三阶段演进。早期依赖规则系统如NaLIR

从规则到智能：Text-to-SQL的技术演进全解析

ChatBI的核心价值，在于把原本复杂的数据分析过程，变成了一场用户与机器之间的自然对话。这意味着，即便没有专业的数据分析技能，用户也能轻松获取数据洞察——这无疑会大幅降低数据分析的门槛，并显著提升效率。而支撑这一功能的核心技术，就是Text-to-SQL。它的任务，是把用户的自然语言“翻译”成机器能执行的SQL语句。这个过程听起来简单，却是整个ChatBI实现中最棘手的一环。

从技术演进的角度来看，Text-to-SQL大致走过了三个阶段：2017年之前，主要依赖规则；2017到2022年，机器学习与深度学习成为主流；而2023年之后，随着大模型的出现，业界开始转向基于大语言模型的新范式。下面，本文将串联每个阶段的代表性工作，以帮助大家更清晰地理解这项技术的演变脉络。

第一阶段：基于规则的初步探索

Text-to-SQL技术路线阶段图示

NaLIR：早期基于规则的方法中，NaLIR是一个典型的通用交互式自然语言界面。它能处理逻辑复杂的英语句子，并将其转换为包括聚合、嵌套、多表连接在内的SQL查询。虽然远谈不上完美，但NaLIR在实际应用中对各类领域的复杂查询已经表现出相当的可操作性。同时，它还设计了交互式纠错机制，能将误解风险降到最低，这在当时是一大亮点。

ATHENA：这是一个本体驱动的系统，用于对复杂关系数据库进行自然语言查询。它的独特之处在于采用了两阶段方法：先把自然语言查询转换成一种中间查询语言（OQL），然后再映射为SQL。这相当于把数据的物理布局和语义查询解耦，提高了系统对异构数据的适应能力。在实际测试中，ATHENA在GEO和MAS两个数据集上实现了100%的精确度，在FIN数据集上也达到了99%——召回率则分别稳定在87.2%、88.3%和88.9%。可以说，当时这套方案的成熟度已经相当高了。

Analyza：这个系统面向的是非专业用户，它已经在两个大型现实系统中落地：一个是电子表格产品中的问答功能，另一个为大型销售团队提供了便捷的收入与库存数据库访问。两个场景中，用户基本都不具备编程背景，Analyza的成功部署也证明了基于规则的方案在特定场景下是可行的。

SQLizer：SQLizer试图从自然语言中自动合成SQL查询。它的核心创新是将语义解析与类型定向程序合成、自动修复结合起来。简单说，它会从一个程序草图开始，经过一个“概率类型推断—自动草图修复”的迭代循环，最终生成完整的SQL。整个过程自动化运行，无需额外定制，也无需用户了解底层数据库模式。在大约450多个自然语言查询的测试中，接近90%的情况下，目标SQL能排在前五位，性能甚至超越了之前在VLDB'14上获得最佳论文的NaLIR。

第二阶段：机器学习与深度学习驱动时代

2017年之后，数据驱动的思路逐渐占据主导。随着大规模标注数据集（如WikiSQL、Spider）的出现，基于深度神经网络的Text-to-SQL技术迎来了爆发期。

Seq2SQL：这是较早将深度神经网络引入该领域的项目之一。它的思路是，利用SQL查询的结构化特性来约束输出空间，同时用强化学习来训练生成查询中“无序部分”（如WHERE子句的排序）的策略。研究团队还发布了WikiSQL数据集，包含超过8万个手工标注的查询示例，规模比同类数据集大了一个数量级。借助该数据集，Seq2SQL将执行准确率从35.9%提升至59.4%，逻辑形式准确率也从23.4%提升至48.3%。

TypeSQL：TypeSQL将自然语言转SQL的任务定义为“槽填充”，并重点利用类型信息来识别问题中的罕见实体和数字。在WikiSQL上的测试显示，相比当时的最先进方法，TypeSQL在更短的处理时间内获得了5.5%的执行准确率提升，最终达到了82.6%——如果进一步访问数据库内容，性能还能提高17.5%。

IRNet：针对更复杂的跨领域场景，IRNet采用了一种三阶段策略，而不是直接端到端合成SQL。它先对问题和数据库模式进行“模式链接”，然后用一个基于语法的神经模型合成一种中间表示SemQL，最后借助领域知识将其确定性地转化为SQL。在极具挑战的Spider数据集上，IRNet取得了46.7%的准确率，较之前最先进方法提升了19.5%，一度在排行榜上排名第一。

SLSQL：SLSQL的作者观察到，此前很多模型对“模式链接”（schema linking）的重视程度不够。他们为此专门构建了一个标注语料库，并用一个BERT-based的基础模型（SLSQL）来系统验证模式链接在Text-to-SQL中的核心作用。结果发现，只要模式链接做得好，即使是结构简单的模型也能在Spider上表现不俗。这也为后续研究敲响了重点：模式链接的质量直接决定了最终效果。

NatSQL：NatSQL提出了一种叫做Natural SQL的中间表示法。它的目标是缩小自然语言描述和SQL查询之间的鸿沟。具体来说，它去掉了GROUP BY、HA VING、JOIN ON等用户通常难以在自然语言中直接对应的操作符，同时消除了嵌套子查询等复杂结构。这样一来，模式链接变得更简单，模型也更容易学习和生成。在Spider数据集上，NatSQL被证明能显著提升多个SOTA模型的性能，还使那些原本不生成可执行SQL的模型也能生成可执行的查询。

第三阶段：大模型带来范式革命

2023年以来，大语言模型的涌现彻底改写了Text-to-SQL的技术图谱。微调模型和基于提示的方法之间的性能差距逐渐缩小，甚至被反超。

Din-SQL：Din-SQL的研究核心在于任务分解。他们发现，把生成SQL这个复杂任务拆解成一系列更小的子任务，并将每个子问题的答案再喂给LLM，是显著提升性能的有效手段。在三个LLM上进行的实验表明，这种方法能将简单小样本性能稳定提高约10%。最终在Spider的保留测试集上，Din-SQL的执行准确率达到了85.3%，在没有使用大量微调模型的情况下，依然比许多经过大量微调的模型高出至少5%。

DAIL-SQL：DAIL-SQL对当时的提示工程方法做了系统性的横向对比，包括问题表示、示例选择和示例组织。基于这些实验分析，他们提出了一套集成的解决方案DAIL-SQL，并在Spider上以86.6%的执行准确率刷新了排行榜。同时，论文还探讨了开源LLM的潜力，指出通过监督微调可以进一步提高性能，但也要注意微调过度可能带来的问题。

ACT-SQL：ACT-SQL关注的焦点是提升LLM在生成SQL时的推理能力。他们采用了一种自动生成思维链（Auto-CoT）示例的方法，整个过程无需人工标注。用户只需一次API调用，就能获得一个SQL查询。这种设计节省了成本，且能扩展到多轮对话场景。在现有的上下文学习方法中，ACT-SQL在Spider开发集上实现了当时的SOTA性能。

C3-SQL：C3-SQL提出了一种基于ChatGPT的零样本方法，核心在于提示工程的系统设计。它由三个部分构成：清晰提示（CP）、提示校准（CH）和一致输出（CO），分别对应模型输入、模型偏差和模型输出。在Spider保留测试集上，C3-SQL的执行准确率达到82.3%，成为当时最先进的零样本Text-to-SQL方法。

CRUSH4SQL：CRUSH4SQL主要应对的是大型数据库场景——当数据库包含数万列时，把整个模式与用户文本一起编码变得极不现实。他们设计了一个两阶段检索流程：先让LLM“幻想”出一个最小化的、足以回答查询的数据库模式，再基于这个幻觉模式去实际数据库中检索子集。虽然在传统观点里“幻觉”是个麻烦，但在这里反倒成了一种有用的桥接手段。为了测试，他们还引入了三个包含最多17844个模式元素的大型基准，研究表明该方法的召回率显著优于基于SOTA检索的增强方法。

MAC-SQL：MAC-SQL构建了一个多智能体协作框架。核心是一个分解器agent负责生成SQL，同时配备两个辅助agent：一个用来通过外部工具缩小数据库子集，另一个负责纠正错误的SQL。在BIRD基准上，MAC-SQL+GPT-4的执行准确率达到59.59%，在其保留测试集上创造了新的SOTA。此外，他们还用Code Llama 7B微调了一个开源版本SQL-Llama，执行精度达到43.94，与普通GPT-4的46.35仅差毫厘，证明开源模型在这一领域也有巨大的追赶空间。

京东零售数据分析场景大模型实践

来源：互联网

上一篇 AIPC对比普通电脑：五大体验升级深度评测 下一篇 KG与LLM双轮驱动智能平台助力Ontotext营销

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

Text-to-SQL技术路线：大模型ChatBI实现详解

摘要

从规则到智能：Text-to-SQL的技术演进全解析

第一阶段：基于规则的初步探索

第二阶段：机器学习与深度学习驱动时代

第三阶段：大模型带来范式革命

相关文章推荐