六大行动:国家首次系统部署高质量数据集建设
摘要
国家层面首次系统部署行业高质量数据集建设,聚焦科学研究、工业制造、低空经济等关键
(来源:第一财经资讯)
一个核心判断:行业高质量数据集是“人工智能+”真正落地、赋能千行百业的基础性资源。缺乏它,再强的AI也如同缺失燃料的引擎,无法驱动实际应用。
国家数据局近日(8日)正式印发指导性文件——《关于推进行业高质量数据集建设行动的实施方案》。这是国家层面首次系统部署如何以数据赋能人工智能发展进程。换言之,这一议题已被列为国家级重点工程。
国家数据发展研究院院长胡坚波给出了详细解读:该方案相当于为数据集建设绘制了一张“全链条”施工蓝图。它摒弃“撒胡椒面”式的泛化推进,而是精准聚焦科学研究、工业制造、低空经济、具身智能等核心与新兴领域,有步骤地推动数据集建设,同步带动数据标注行业的转型升级。根本目标:全面提升数据供给能力与质量水平。
部署六大专项行动
今年政府工作报告首次明确提出“建设高质量数据集”。什么是高质量数据集?它不是简单堆砌的原始数据,而是经过采集、清洗、标注等系统性处理后,能够直接用于AI模型开发与训练,且有效提升模型性能的行业数据集合。简言之,既包含行业通用的“通识”数据,也覆盖特定场景下的“专识”数据。
国家数据局局长刘烈宏此前曾形象比喻:高质量数据集如同数智化转型的“新型燃料”,而且是经过精炼的“高标号燃油”。在很大程度上,它决定了人工智能在制造业中能否跑得稳、跑得远、跑出实际效益。
方案明确了时间节点与目标:到2028年底,建成一批覆盖重点领域、经实战验证的行业高质量数据集;打造一批数据驱动AI创新发展的典型应用场景;培育一批具备领先优势的创新型数据企业和专业人才;形成一套行业高质量数据集的建设工具和标准体系。届时,数据从供给到价值释放将形成良性循环,数据赋能AI的效能将更加突出,数据产业与AI深度融合,持续催生智能经济新增长点。
中国信息通信研究院副院长魏亮借用了另一版本的“石油比喻”:数据之于大模型,如同石油之于汽车。原油需经过复杂“炼化”过程变为汽油,汽车才能驱动。同样,海量原始数据也必须“炼化”为高质量数据集,才能帮助大模型精准学习特征与规律,提升其对不同场景和任务的适应能力。可以说,数据集的质量直接决定了人工智能的“智商”上限。
魏亮进一步指出:行业大模型对数据的需求千差万别,不同行业、不同部门对场景数据的标准各不相同,这极大增加了数据处理的复杂性。当前问题在于,行业大模型实际建设中,构建和采购的数据缺乏统一衡量标准。不同行业、不同来源的数据,其完整性与准确性可能参差不齐,直接影响大模型训练效果和预测精度,也造成了算力资源的浪费。
因此,《方案》聚焦国民经济发展重点行业与战略性新兴产业,围绕行业高质量数据集供给、流通、应用等关键环节,部署六大专项行动:强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放。目标明确:形成“场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值”的“数据飞轮”,加速构建数据要素与人工智能协同演进的共生生态。
为AI发展应用提供充足“燃料”
在强基扩容行动中,《方案》顺应AI加速向行业渗透的趋势。AI正从简单的对话模式,向多模态生成、决策执行、具身智能、物理交互等更高范式跃迁。因此,必须拓宽数据供给渠道,丰富数据供给类型,加快建设行业高质量数据集,为AI发展和应用提供充足“燃料”。
具体聚焦哪些领域?方案列得很清晰:科学研究、工业制造、农业农村、智慧能源、交通运输、金融服务、医疗卫生、教育教学、电子商务、人力资源、文化旅游、应急管理、气象服务、绿色低碳、公共安全、城市治理、住房建设、自然资源、社会信用等重点领域。同时,低空经济、具身智能、智能驾驶、智慧海洋、生物制造等创新领域,也需加快推进行业高质量数据集建设。
数据标注是保障数据质量的关键环节。它是对原始数据进行采集、清洗、分类、标记、质量检验等专业数据治理的活动。方案明确引导数据标注从“以人为主”向“人机协同、专家深度参与”的多层次标注模式转变,推动数据标注向专业化、智能化跃升。
值得关注的是,早在2024年4月,全国数据工作会议首次提出“探索建设国家级数据标注基地”;同年5月,国家数据局公布首批7个国家级数据标注基地名单。12月,国家发展改革委、国家数据局等联合发布《关于促进数据标注产业高质量发展的实施意见》,明确到2027年产业年均复合增长率要超过20%。数据标注产业正进入高速发展期。
在价值释放方面,《方案》提出了更具想象力的方向:释放数据要素价值,推动数据集商业化、资产化,培育“为数据付费”的市场共识,并探索以词元(Token)为基础的价值体系。同时,鼓励探索数据集质押融资、作价入股、资产证券化、数据信托、数据保险等多元资产化创新模式,拓宽数据价值转化通道。
词元(Token)是大模型处理文本、代码、图像、音频、视频等所有信息时采用的最小运算单元。AI应用落地的每一个场景,背后都是词元的巨量调用。今年3月,我国日均词元调用量已超过140万亿,相比2024年初的1000亿增长了1000多倍;相比2025年底的100万亿,三个月内又增长了40%以上。这一增速本身就是最佳佐证。
国家数据局日前专门召开了词元经济座谈会,明确将推动词元经济发展纳入工作体系。核心抓手有两个:行业高质量数据集建设和全国一体化算力网建设。通过深入推进数据要素市场化配置改革,推动词元经济高质量发展。
中国工业互联网研究院政策研究所高级工程师朱光认为,词元串联了智能经济的核心要素——数据、算法、算力“铁三角”。它将算力消耗、模型运算、服务供给统一转化为可度量、可流通的价值单元。这意味着,智能服务将从定制化“奢侈品”转变为普惠化“必需品”。同时,词元还将催生出模型服务、算力调度、数据运营、智能体应用等一系列原生新业态,成为智能经济价值转化与商业闭环的核心纽带。

来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。