技术资讯

数据引擎排行榜：推动AGI产业共生的十大路径

2026-06-01

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

“数据要素”已经成为政、产、学、研各方共同聚焦的热门议题。不过，要深入探讨这个话

“数据要素”已经成为政、产、学、研各方共同聚焦的热门议题。不过，要深入探讨这个话题，或许应该先设立一个前提——系统且科学地理解“数据要素究竟是如何创造价值的”。所谓“科学理解”，既要兼顾微观具象与宏观抽象的全局视角，也要保持动态思考、不断更新的理性态度。不妨从产业实践出发，梳理过去二十多年数字化进程中数据要素创造价值的具体特点，再展望未来十年，结合生成式人工智能（大模型）为代表的技术特征，总结出数据要素创造价值的新模式。

01 数据要素创造价值的三种模式

“实践是检验真理的唯一标准”，中国社科院信息化研究中心主任姜奇平据此提出，“使用是检验（数据要素）价值的唯一标准”。要理解数据要素的价值，最朴素也往往最有效的方式，就是回到价值创造的现场去仔细观察。

先看看中国快递行业。

2000年，中国快递业务量刚刚突破1亿件。到了2023年，这个数字飙升至1320.7亿件，占全球快递总量的60%以上。包裹数量在增长，配送速度也在稳步提升，消费者的体验越来越好。

以这二十多年的高质量发展为参照，阿里云智能副总裁安筱鹏博士从经济学视角，总结出数据要素创造价值的三种模式，在现实中一一得到了验证。

第一，投入替代。数据要素可以用更少的物质资源创造更多的物质财富和服务。菜鸟集团2014年推出电子面单，经过研发推广，逐渐成为全行业的数字化基础设施。一张小小的热敏纸电子面单取代了传统的五联单，不仅大幅提高了配送准确率，也明显减少了资源消耗。据统计，仅2021年，因电子面单推广节省的纸张，就相当于少砍伐10万棵树木，约等于一片90万平方米的森林。

第二，价值倍增。数据要素融入劳动、资本、技术等每一个单一要素，使这些要素的价值产生倍增效应。手持PDA和配套应用让今天的快递员被数字化软硬件充分“武装”。和二十年前相比，快递员并没有“跑得更快”，但数据在为他们提效，可以实现“送得更多”。

第三，资源优化。数据要素提高了劳动、资本、技术、土地等传统要素之间的资源配置效率。基于用户消费习惯、道路交通效率等大数据，优化物流仓库选址和路径规划，已成为全行业的主流做法。科学选址在降低建设与运营成本的同时，实现了物流网络整体效能的最优化。

在中国快递行业飞速发展的历程中，数据要素创造的价值巨大而清晰。不仅仅是物流，数据要素正以投入替代、价值倍增和资源优化这三种模式，在千行百业中发挥作用。这正是过去二十年里，中国步入数字化生活和生产方式背后的源动力。

02 从人工智能发展历程看数据要素价值创造

2022年末到2024年初，从ChatGPT惊艳亮相到Sora面世，短短时间内，人类对智能的认知边界被不断刷新。这段时间里，数据价值的放大效应有目共睹：大模型从数据中学习人类的语言习惯和推理逻辑，在文本生成、语言翻译、情感分析、复杂任务分解与完成等多个领域取得革命性进步，甚至在视频生成中体现出对物理规律的模拟，因而被称为“世界模拟器”。数据不仅是训练这些复杂模型的基石，也是持续推动它们进化的动力。对此，OpenAI的联合创始人伊尔亚·苏茨克维（Ilya Sutskever）曾用一句抽象的话来概括：“The models just want to learn！”这并不是说模型真的具备学习意愿，而是说明模型的设计逻辑就是从尽可能多的数据中自动学习隐式规则与经验，并通过算法和算力的优化不断改进学习的效率和范围。

时间拉回到1970年代，美国国防部高级研究计划局（DARPA）赞助的语音识别竞赛中，参赛队伍选择了两种截然不同的设计思路。一种是利用人类已有的知识，依赖于对人类语言的深入理解，使用手工编写的规则来描述语音和语言的结构，比如将音节组合成单词，或根据上下文确定单词的发音。另一种是依赖数据，采用统计方法从大量语音中抽取特征，尽管人类研究者也无法完全解读这些特征和规律。最终，基于数据的新方法显示出明显优势，特别是在处理大量、复杂和多变的语音数据时，能够更好地适应不同的口音、方言和噪声条件。这次竞赛的结果直接导致自然语言处理技术路径发生重大转变，统计学与计算能力逐渐成为该领域的主导力量。

2004年，DARPA再次发起无人驾驶挑战赛。第一年的比赛如同一系列车祸现场，被形容为“沙漠溃败”。一年半后第二次赛事启动，但这次依然出现了两种技术路线：一种依赖人类已有的经验和总结，例如事先探查沙漠路径，为车辆设计突破障碍物的专门程序；另一种依然依赖数据，以机器学习学习道路特征进行导航和脱障，同时加强对道路数据的实时采集，让无人车能够“随机应变”。这一次，依赖数据的第二条技术路线再次获胜，并奠定了现代自动驾驶的架构基础。

后续的人工智能赛事逐渐为全球所熟知。例如2016年AlphaGo以数百万局人类棋手的对局数据训练，学习了高水平的棋局策略和模式；而第二个版本AlphaGo Zero则完全依赖于自我对弈生成的数据迭代训练，产生了超越人类棋手的知识和经验，达到了前所未有的围棋水平。

这每一次不同类型的比赛——算法从统计、机器学习发展到深度学习，算力从单片机发展到GPU——都呈现出同一个趋势：人类经验逐步让渡于海量数据。这也是人类带着数据冲击机器智能新上限的经历。

03 AGI的发展遵循扩展定律

AlphaGo展示了深度学习令人惊艳的能力，但仅限于单一任务——围棋对弈。随后，人工智能广泛应用于产业实践，从淘宝的“猜你喜欢”到城市大脑计算和疏导交通流量，都是一个特定模型解决一个具体问题。这种“一事一模”的方式，让人工智能科学家和工程师陷在碎片化的场景里，延缓了产业数字化的进程，也限制了数据继续发挥价值的效率。

为什么不能用一个模型解决所有问题？扩展定律（Scaling Law）成为人工智能产业内环的破局共识：用更大的模型、更多的算力，从更多的数据中学到更多的隐式知识和通用能力。从GPT-1到GPT-3，参数规模提升了100倍，训练数据量提升了50倍，GPT-3.5（ChatGPT）出现了能力“涌现”。全球超过1亿用户涌入，验证了模型可以像人类一样理解上下文和对话，而模型还具备更深层的泛化（generalization）和思维链（chain of thought）能力，可以对未知情况做出合理推断，把复杂问题拆解成简单任务分步解决。这正是人类期待的AGI雏形：一个基础通用的大模型可以写诗作画，可以改造程序编码、文档编辑等各种工具软件，可以“附身”于机器人以具身智能加快研发进程，甚至改变了科研范式，在生物医学、材料科学、工业仿真等领域带来新的突破。OpenAI团队对此总结并发表了著名论文《自然语言模型的扩展定律》（Scaling Laws for Neural Language Models）。

中国的大模型发展道路也在验证这一点。以阿里巴巴通义千问为例，2023年8月以来，连续发布7B、14B、72B和200B参数版本。伴随参数规模的扩大，模型能力显著增强。另一家大模型独角兽企业月之暗面的创始人杨植麟给出了更为直接的判断：“AI研究了七八十年，唯一有效的东西其实是scaling law，就是不断放大数据、算力和算法这几样生产要素。”

04 新模式：从解决单一问题到激发通用“智能”

前文提到的数据要素创造价值的三种模式——价值倍增、投入替代、资源优化——在当下和未来相当长的时间里都持续有效。但这里想重点描述的，是遵循Scaling Law、从依赖人类既定经验转向从数据中学习规律、从解决单一问题转为激发通用“智能”的新模式。

在大模型技术出现之前，针对某一特定场景，需要特定的数据要素与特定的其他要素融合，从而解决单个问题，实现单一价值。而今天，数据要素的价值不再以特定场景为起始锚点，而是展现出“全能选手”的实力与潜力。以AI独角兽Jasper AI为观察样本，这家辅助生成广告文案的明星企业，2022年营收7500万美元，估值达到15亿美元。但ChatGPT发布后，生成性能远超Jasper AI，其网站访问流量随即下降了近40%。7个月后，Jasper AI开始发布裁员通告。在大模型发展的道路上，每一次通用大模型能力的“跃迁”，都会形成对散点应用和解决方案的“碾压”。但换个视角来看，大模型通用“智能”带来的价值成效，将超过若干个碎片化场景应用的总和。

基于这些发现与认识，重新审视数据要素议题的“前提”——即“数据要素如何创造价值”时，可以形成两点面向未来的思考。

第一，大模型发展与数据要素价值创造互为因果。2007年，图灵奖获得者吉姆·格雷（Jim Gray）在生前最后一次演讲中提出了著名的“第四范式”。他认为人类开展科学研究的范式经历了实验观察、理论推理、计算机模拟三个阶段后，因新型信息技术的进步，催生出全新范式——“数据密集型科学发现”（data-intensive scientific discovery）。大模型的出现本身就证明了“第四范式”论断的正确性，同时大模型的发展与应用也是“第四范式”付诸实践的有效载体。大模型的发展以数据要素投入为前提。数据不仅是人工智能模型的输入原料，也为模型的持续创新提供推动力，发挥着创新要素的作用。而大模型正在驱动数据要素以“激发通用智能”的新模式创造价值。因此，如何整合大规模高质量数据用于大模型训练，既是推动大模型发展的切入口，也会成为进一步挖掘数据要素价值的胜负手。

第二，厘清数据要素催化大模型发展的投入优先级。当前，大模型已经成为中美竞争的焦点之一。通用大模型的研发与场景应用从来就不是选择题。我们需要大模型“作诗”，也需要“做事”——加快大模型与实体经济深度融合，助力实现高质量发展。事实上，大模型既能“作诗”又能“做事”，正是克服了上一代人工智能“一事一模”的发展缺陷，是聚合碎片化场景、加速数据服务千行百业的关键。如果把训练大模型比作培养孩子的过程，那么优先级不在于培养其背唐诗或弹钢琴等特定技能，而在于通过数据与算力的投入，直接提高孩子的“智商”（通用能力）。因为“智商”提高了，各类技能（场景应用）将快速掌握。需要遵循人工智能在过去数十年发展习得的经验，更值得警醒的是，不要割裂甚至对立“作诗”与“做事”。技术和市场规律会帮助我们最终筛选出中国发展AGI的特色道路。

数据要素的价值已经被足够重视和期待，但数据要素价值的新模式还没有被充分认知和接受。如同人类当年矢志不渝地向月球迈进，今天我们同样怀揣着对通用人工智能（AGI）技术研发、对“数据二十条”与产业碰撞结合的坚定信念——数据要素将如同推动登月计划的燃料，推动人类既有智慧和全新科技力量交融共生。MI·专题

来源：互联网

上一篇 1人团队1天速成深度长文：B2B内容生产流水线搭建 下一篇 AI公司适用性指南：老板必读的理性评估

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

数据引擎排行榜：推动AGI产业共生的十大路径

摘要

01 数据要素创造价值的三种模式

02 从人工智能发展历程看数据要素价值创造

03 AGI的发展遵循扩展定律

04 新模式：从解决单一问题到激发通用“智能”

相关文章推荐