菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 资讯 > 面壁智能联合清华、OpenBMB开源两大最新数据集
其他资讯 开源社区 面壁智能联合清华

面壁智能联合清华、OpenBMB开源两大最新数据集

2026-05-29
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

2025年5月29日,面壁智能携手清华大学与OpenBMB开源社区,正式开源两大全新数据集:Ultra-Fine

2025年5月29日,面壁智能携手清华大学与OpenBMB开源社区,正式开源两大全新数据集:Ultra-FineWeb-L3 与 UltraData-SFT-2605。这并非常规迭代——Ultra-FineWeb-L3 提供高质量中英双语网页合成数据,总规模突破600B Tokens,其中中文数据高达200B+ Tokens,目前为开源社区规模最大的中文预训练合成数据集。UltraData-SFT-2605 则是国内首个千万级、同时包含深层推理与非思考标注的SFT数据集。

回顾MiniCPM5-1B的训练流程,可以发现这正是UltraData分级治理体系的一次完整落地。本次发布的两大数据集,已在MiniCPM5-1B的训练过程中获得充分验证,覆盖从预训练退火到后训练SFT的完整链条。换句话说,这不是停留在理论层面的产物,而是经过全流程跑通、经得起实操检验的工程成果。

面壁智能联合清华大学、OpenBMB开源社区联合发布并开源两大最新数据集

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多