数据价值体系可定价构建:国家最新政策与实施路径全解析
摘要
国家数据局发布实施方案,目标到2028年底建成一批行业高质量数据集,并探索词元交易等
行业高质量数据集建设迎来实质性提速。
6月8日,国家数据局正式发布《关于推进行业高质量数据集建设行动的实施方案》(以下简称《实施方案》),为未来几年数据建设明确了清晰的推进时间表。核心目标是:到2028年底,建成一批覆盖关键领域且通过实际验证的行业高质量数据集;打造一批由数据驱动的人工智能创新应用场景;同时培育一批具备竞争力的数据企业与专业人才,并形成配套的建设工具与标准体系。但整份方案中最具突破性的提法,莫过于——探索词元(Token)交易等新型交易模式,尝试构建以Token为基础、可量化、可定价的数据价值体系。

重点聚焦哪些领域与创新赛道?
《实施方案》开篇即点明“行业高质量数据集”的核心定义:所谓高质量数据集,是经过采集、清洗、标注等一系列数据加工流程后,可直接用于AI模型开发与训练的数据集合。它既包含行业通识类数据,也涵盖行业专识类数据。简而言之,这相当于为AI大脑量身定制的“优质训练材料”——材料的质量,直接决定了AI能力的上限。
文件系统部署了六大专项行动:强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放。其中贯穿的核心逻辑,用一个词概括便是——“数据飞轮”。场景驱动数据汇聚,数据优化模型性能,模型赋能实际应用,应用创造商业价值。这一闭环一旦运转起来,数据要素与人工智能将形成共生演进的良性生态。
具体而言,AI正加速向各行各业渗透,从基础的对话交互跃迁至多模态生成、自主决策执行、具身智能以及物理交互等前沿方向。要跟上这一演进节奏,数据供给渠道必须持续拓宽,数据类型也需要更加多元。
那么,哪些领域是主攻方向?科学研究、工业制造、农业农村、智慧能源、交通运输、金融服务、医疗卫生、教育教学、电子商务、人力资源、文化旅游、应急管理、气象服务、绿色低碳、公共安全、城市治理、住房建设、自然资源、社会信用——这是核心战场。与此同时,低空经济、具身智能、智能驾驶、智慧海洋、生物制造等创新赛道也被明确要求加快数据建设布局。
此外,为匹配AI应用的多样化需求,数据集的形态正在持续丰富。文本、代码、图像、音频、视频、点云、时序数据、科学数据……多模态数据集的建设正全面推进,能够支撑AI预训练、指令微调、强化学习、模型测评等各阶段的资源需求。
数据标注如何走向专业化?
数据标注,虽常被视为“幕后工作”,实则是行业高质量数据集建设中不可替代的关键环节。数据标注的本质,就是将领域知识与实践经验“注入”训练数据的过程。
《实施方案》明确提出,要推动数据标注从“以人为主”的传统模式,转向“人机协同、专家深度参与”的进阶模式。这意味着,未来的标注格局将更加立体:模型预标注+人工校准、人工标注+模型检验、模型预标注+模型检验……多种模式协同发力,驱动标注工作向专业化、智能化方向快速跃升。
具体执行路径上,一方面加强科技创新,强化自动化标注工具与平台的研发及落地应用;另一方面,着力培养专家型标注服务能力。文件提出建立行业专家认证机制,鼓励专家深度介入指令微调、强化学习等阶段所需的知识标注,专门产出包含领域知识、逻辑推理在内的高价值数据集。目标非常明确:全面提升数据集的知识密度与专业含量。
在先行先试层面,首批七个城市将承担数据标注先行先试任务,持续做大做强数据标注产业。同时,面向创新能力强、产业基础好、特色优势明显的地区,梯次布局一批数据标注创新试验区。目标是培育一批数据标注龙头企业、独角兽企业、瞪羚企业,壮大整个产业生态。
人才供给也必须同步跟上。支持有条件的院校开设数据标注相关课程,通过产教融合、校企协同等方式培养专业人才;鼓励开展职业技能等级认定,强化继续教育与在职培训;建设一支专职与兼职相结合的专业标注人才梯队。此外,一项务实的安排是:鼓励高校毕业生等群体参与标注工作,通过灵活就业、项目协作、多元岗位供给等方式拓展就业渠道。
业内专家直言,数据是AI训练的“燃料”,高质量数据集的价值在于能够快速、显著地提升大模型性能。这一判断绝非夸张。
关键词:Token交易模式
在“价值释放行动”板块中,《实施方案》首次明确了一个新方向——探索以Token为基础的价值体系。释放数据要素价值、推动数据集商业化与资产化、培育“为数据付费”的市场共识——这些目标最终都指向一个更精细化的交易模式。
具体来看,除了鼓励数据集在数据交易所(中心)挂牌交易外,方案还提出了“订阅模式”“商场模式”“定制模式”等多元服务形态。商业模式需从基础数据包销售,向API调用、模型化解决方案以及全栈服务逐步升级。
而其中最富想象力的,正是探索Token交易等新型交易模式。这意味着,数据价值的计量单位将从“整个数据集”细化到“单个Token”,真正实现可量化、可定价。对数据流通、定价与交易而言,这或将带来底层逻辑的深层变革。
最后,文件还列出了几项关键保障措施:引导金融机构、耐心资本、产业基金加大数据建设投资力度;鼓励地方设立专项资金;在依法合规、风险可控的前提下开展创新探索;持续跟踪工作进展,完善监测指标体系;强化安全保障,严格落实数据安全法律法规,建立全流程安全治理机制,有效防范数据投毒、污染及泄露等风险。
根据最新数据,截至2026年3月底,全国已建成高质量数据集超过11.6万个,总数据量超过960PB。这一规模有多大?相当于中国国家图书馆数字资源总量的约336倍。基础已然夯实,方向也已清晰,接下来就看落地执行的速度了。
(北京商报综合报道)
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。