进阶教程智能体数据智能体范式跃迁

数据智能体范式跃迁：DataWorks Agent自主能力评测

2026-06-04

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

DataWorksDataAgent实现从增强到自主的范式跃迁，采用CLI与Claw双模式，共享统一上下文。CLI专

从痛点到跃迁：数据智能体的进化之路

周五下午五点半，你正准备收拾东西享受周末，运营同学突然冒出一句：“周一能看见这周末新增的运营指标数据吗？”你心里咯噔一下，这意味着得对齐口径、翻历史数据、查文档、写SQL、补数据、做报表——一个完美的周末，就这么没了。

凌晨两点四十七分，连续不断的报警声把你从梦里拽出来。你想赶紧处理，但又没有十足的把握。为了那10%的准确性，你得登录平台看日志、翻代码，最后发现其实只需要重跑一下任务就能解决。这两个场景，恰恰是DataWorks DataAgent要解决的核心问题。接到需求，CLI模式的Agent可以端到端帮你搞定；半夜被报警吵醒，Claw模式（龙虾模式）会自动分析问题，给出建议，你只需要回复一个“好”，后续的运维流程就全部自动流转了。

五阶段演进：从辅助到自主的范式转变

DataWorks在AI这块已经摸爬滚打了两年多，一个清晰的五阶段演进路线逐渐浮现出来。

第一阶段是代码补全——写完一行代码按回车，系统自动提示下一步该写什么。

第二阶段进化到了问答与代码辅助——用几句大白话描述需求，AI就能给出解释和建议，实现快速复制粘贴式的开发。

第三阶段是IDE Copilot——AI不仅能生成代码，还能通过注释理解、代码翻译这些功能，帮你完成30%到40%的代码工作。

第四阶段是ChatBI——运营、运维人员也能通过自然语言快速查到数据或生成简单报表。不过这个阶段最让人头疼的问题，是“准不准”。

第五阶段，就是现在发布的DataWorks DataAgent，实现了从“增强”到“自主”的跃迁。前面几个阶段本质上都是助手模式，像副驾驶或陪练。DataWorks DataAgent则完全是全自动驾驶——给它一个目标，它就能端到端全部搞定，包括需求理解、数据探查、代码编写、任务上线，甚至上线后的归因分析。这不是简单的模式调整，而是从“会问”“会写”到真正“会做”的范式级跨越。

双引擎架构：两类场景，一颗大脑

DataWorks DataAgent采用了双模式设计：CLI模式和Claw模式（龙虾模式）。这两种模式并不是两个独立的产品，而是共享同一个上下文的智能体系统。

CLI模式擅长代码编写和复杂任务处理。它能读取你的工程文件、表的变更日志（ChangeLog），执行非常复杂的指令来完成任务。你只需要在命令行或IDE里的CLI中输入：“帮我把某张表的数据加工成这个样子”。

CLI Agent会读取你工程里的所有文件，找到相关表，读取表的内容以及变更记录。它还会做数据洞察，帮你分析上下游依赖，最终生成一个可行的方案。基于这个方案，它会自动编写代码、调试、生成单元测试、设置质量规则。整套工作完成后交给你审查，确认无误后就能发布上线。

Claw模式则在生态集成方面很有优势。它可以和钉钉、企业微信、飞书等社交软件结合，也能与各种告警链路打通。它更适合处理点状的、突发的问题，或者通过自然语言聊天来快速确认和执行任务。

在钉钉群或企业微信群里，你可以直接问“这个任务为什么没处理好”。系统会识别出异常，读取执行记录、日志和错误信息，简单处理数据并进行归因分析。出于安全管控的考虑，系统会把所有信息整理好，告诉你它想做什么，但需要你确认。你只需要回复确认，它就开始执行。

从DataWorks的实践来看，CLI专注代码和工程编写，Claw模式处理点状突发事件或需要聊天快速响应的场景。虽然入口不同，但两个模式的能力是互通的——它们共享同一份数据语义与上下文。

统一技术内核：从产品到架构的深度设计

DataWorks DataAgent的技术架构，并不是简单地把通用Code Agent和龙虾嵌入到一个执行引擎里，而是构建了一套真正统一的运行时内核。

最上层是标准的ACP网关，能够智能路由你的语义和需求。比如你说“希望把某张表的数据拆分成三张表”，系统会识别出这是Code类型任务，下发到Code Agent处理；如果你说“帮我诊断一下昨天某个任务为什么报错、影响是什么”，系统就会下发到Claw模式，最终结果可以通过钉钉群或企业飞书推送给你。

这两个Agent共享一个非常强大的统一上下文。它们懂数据、懂代码、懂整体的安全权限体系。如果你在Code Agent里运行了某个任务，这个上下文会被持久化；当龙虾里收到报警时，它可以读取Code Agent开发过的所有内容——它知道前一天谁、什么时候改过什么代码、做了什么变更，恰好引发了这次报警。然后你可以让它回滚代码，Code Agent就会接收这个消息并执行。

整个底层对于模型、容器、引擎、加密、权限、可观测性都是统一的，只是模式不同。这才是DataAgent的核心技术特点——不只是做了一个聊天框，而是构建了受控的执行内核，且这个内核可以被多种模式共享和使用。

完整的产品架构体系

在用户交互层，DataWorks DataAgent提供了非常丰富的选择。既有Chat界面，也支持纯命令行的TUI（文本用户界面）——对于专业研发工程师来说，黑白屏的CLI体验反而更友好。此外还支持IM集成，甚至可以通过手机扫码的方式在微信等移动端处理日常流程。

在能力层，DataWorks DataAgent内置了多个专家级Agent：数据开发Agent、数据治理Agent、数据分析Agent、运维Agent。每个Agent都集成了DataWorks多年在大数据领域沉淀下来的功能，这些能力都是开箱即用的。

系统还开放了第三方MCP Skill、知识库和语义接入，让平台内容与用户内容进行有机连接。在模型支持方面，Data Agent支持阿里云通义千问、GLM、DeepSeek等国内主流模型，并针对大数据场景做了Text-to-SQL模型的微调，让它更适合生成阿里云自研大数据引擎的SQL。如果企业因特殊原因不能使用公开模型，系统也支持独立部署专属模型。

开放生态与全托管底座：企业级落地的双重保障

多端协同的统一内核

DataWorks DataAgent不仅仅服务于CLI和IM，它的设计理念是一个统一的智能内核服务于多端场景。

除了CLI和IM，Data Agent还支持IDE集成和API调用。因为AI发展非常快，除了龙虾之外，未来还会出现更多形态的Agent。DataWorks认为Data Agent的内核应该是固定的、持续沉淀的，这个内核应该不断适应AI的变化，而不是每出现一种新模式就重新开发，那样永远没有积累。

基于MCP的开放Skill生态

DataWorks DataAgent构建了一套开放的Skill生态系统。基于MCP协议，引擎团队、合作伙伴、客户都能扩展Data Agent的能力。Skill一次注册，就可以在各个场景中处处可用。这种开放架构让DataWorks DataAgent不仅仅是一个封闭的产品，而是一个可以持续扩展的平台。

全托管运行底座

DataWorks DataAgent的运行底座完全基于DataWorks现有的基础设施。系统基于DataWorks资源组与云原生运行时，统一承载Agent的调度、执行与负载。这意味着Data Agent完全复用了DataWorks现有的计算资源、网络建设、工作空间绑定和代码权限体系，实现了冷启动零成本。

CPU-GPU联合优化的技术洞察

很多人认为Agent性能优化主要靠GPU加速，但实际上Tool处理对CPU的消耗对Agent工作负载的执行延迟有重大影响，这凸显了CPU-GPU联合优化的必要性，而不是仅仅依赖GPU加速。DataWorks团队与AMD、Intel等硬件厂商进行了深度协作，针对Agent对CPU消耗高的特点，优化物理核频率与线程吞吐，从而提升Agent的整体执行效率。

总结：不是终点，是新的起点

DataWorks DataAgent的发布，标志着企业级数据智能体从“增强模式”向“自主模式”的重大跃迁。通过CLI与Claw双引擎架构、统一的运行时内核、开放的Skill生态，Data Agent真正实现了“一句目标，数据链路端到端自动完成”的愿景。

这不是终点，而是新的起点。接下来，DataWorks将继续深化客户实践场景，扩展大数据引擎团队的能力边界，让数据智能体成为企业大数据领域真正的“数字员工”。

来源：互联网

上一篇 Playwright AI智能体：Web自动化测试自写自修自断言 下一篇 DeepSeek V4 Agent：全能编程助手开发与工具调用

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。