OpenCSG开源中文版fineweb edu数据集国内独家首发
摘要
自然语言处理(NLP)技术的演进速度,尤其在中文场景下,正以前所未有的节奏重塑人工智
自然语言处理(NLP)技术的演进速度,尤其在中文场景下,正以前所未有的节奏重塑人工智能生态。从智能客服到自动化内容创作,从语音识别到机器翻译,NLP的能力边界持续扩展。预训练模型之所以能成为这一变革的核心引擎,关键在于其从海量语料中习得的语言规律与语义抽象能力,为下游任务提供了坚实的基座。
然而,一个常被低估的决定性因素是:预训练模型的表现高度依赖其训练数据的质量。优质数据集能让模型学到更精准、更丰富的语言表征,从而在真实场景中保持稳定输出。现实是,全球范围内高质量预训练数据集严重偏向英文,中文领域的高质量资源极度稀缺。尽管国内部分机构与企业已着手建设中文数据集,但数量有限且质量参差不齐,难以支撑中文NLP应用的规模化落地。
正是基于这一痛点,OpenCSG算法团队启动了中文版Fineweb Edu数据集的开发。Huggingface的Fineweb Edu数据集在国际上已建立口碑,其英文版本广泛用于教育相关的NLP任务。但中文环境一直缺乏具有同等质量水平的对标资源。为填补空白,OpenCSG团队将Fineweb Edu的构建方法论迁移至中文语境,并根据中文语言特性和教育领域需求,进行了深度本地化适配与优化。
此次发布的中文版Fineweb Edu数据集,不仅缓解了中文预训练数据集的短板,更标志着OpenCSG开源社区在推动中文NLP技术演进上迈出实质性一步。它为全球研究者提供了一个高效工具,助力教育类NLP任务取得更优成果。作为国内大模型开源社区的代表,OpenCSG的目标清晰:持续将高质量数据与模型资源推向全球AI开发者,加速人工智能技术的迭代与落地。
02 Huggingface Fineweb数据集详解
Huggingface团队于2024年5月31日首次发布FineWeb数据集——一个面向大语言模型预训练的大规模开源语料,旨在驱动NLP领域的研究突破。该数据集整合了来自CommonCrawl的96个快照,累计超过15万亿个token,占用约44TB磁盘空间。数据覆盖2013年至2024年的互联网页面,凭借精心设计的处理管线,FineWeb提供了丰富且多样化的高质量语料。
FineWeb的价值不仅体现在数据体量上,更在于其精细的加工流程。在数据提取与清洗阶段,Huggingface团队部署了先进的过滤策略以保障质量:包括基于语言分类和URL过滤剔除非英语及不适宜内容,同时利用启发式过滤器移除过度重复或者断句异常的文档。这些措施确保数据集在维持规模的同时,内容质量得到严格把控。
为提升模型训练效率,FineWeb在去重环节采用了MinHash模糊哈希技术。该技术能够高效识别并消除重复数据,降低模型对冗余内容的记忆偏差,从而增强其在多样化文本上的泛化能力。具体实现上,FineWeb执行了逐快照去重与全局去重相结合的多层策略,确保数据集的唯一性与质量。
此外,FineWeb还衍生出一个聚焦教育内容的子集——FineWeb-Edu。该子集利用Llama-3-70B-Instruct模型生成的合成注释进行分类与过滤,最终形成1.3万亿token的教育类数据集,尤其适合MMLU、ARC和OpenBookQA等教育领域的基准测试任务。
03 国内主流开源预训练数据集概览
构建高性能中文预训练模型时,数据集的选择直接决定模型上限。以下梳理了几个与本次数据源相关的国内主流开源中文预训练数据集——它们虽提供了海量中文数据,但质量与处理方法差异显著,可谓良莠不齐。
1. CCI2-Data
为缓解中文高质量安全数据集的稀缺问题,BAAI于2023年11月29日开源了CCI(Chinese Corpora Internet)数据集,随后在此基础上扩展数据来源并升级清洗方法,推出CCI 2.0。该数据集由来自可信互联网源的高质量数据构成,经过严格清洗、去重和质量过滤。处理流程包括基于规则的关键词与垃圾信息过滤、基于模型的低质量内容剔除,以及内部与跨数据集的去重。最终发布的CCI 2.0语料库总容量501GB,被视为高质量且安全的中文数据集标杆。
2. SkyPile-150B
SkyPile-150B是专为大语言模型预训练打造的综合中文数据集,涵盖来自公开中文互联网的海量网页。为确保质量,它经历了严格的过滤、大规模去重以及全面的敏感数据清除,并引入fastText和BERT等工具辅助低质量数据过滤。公开部分包含约2.33亿个独立网页,平均每页超1000汉字,总token数约1500亿,纯文本数据容量达620GB。
3. IndustryCorpus
IndustryCorpus由BAAI发布,是一个多行业中文预训练数据集,旨在提升行业模型性能。总数据量约3.4TB,覆盖医疗、教育、法律、金融等18个行业。数据来自Wudao等多个大型数据集,经过22项行业特定的数据清洗与过滤操作,最终生成1TB中文高质量数据与2.4TB英文数据。因其丰富的行业覆盖和严格的处理流程,该数据集特别适用于行业专用语言模型的训练。
4. Tele-AI
TeleChat-PTD从电信星辰大模型TeleChat预训练语料中抽取,是一个综合性大规模中文数据集。原始大小约1TB,压缩后为480GB,共189个文件。数据主要源于网页、书籍及官方媒体等渠道,采用规则与模型结合的过滤方式及相似性去重。但若要训练出高性能模型,仍需更精细的处理。
5. MAP-CC
MAP-CC(Massive Appropriate Pretraining Chinese Corpus)是专门为中文大模型训练设计的庞大数据集,含800亿个token,由多个子集构成,每个子集来源不同,如博客、新闻、百科、论文、图书等。尽管执行了去重和低质量筛除,但客观而言数据质量仍偏低,通常需要二次筛选才能用于训练。
04 Chinese Fineweb Edu 数据集构建方法
数据集简介
Chinese Fineweb Edu数据集是专为教育领域NLP任务精心打造的高质量中文预训练语料。通过严格的筛选与去重流程,并借助少量数据训练打分模型进行评估,从海量原始数据中提取出高价值的教育相关内容。最终数据集包含约9000万条高质量中文文本,总大小约300GB。
数据集下载地址已开放,可通过OpenCSG和Huggingface社区获取。
筛选方法
数据筛选过程沿用了Fineweb-Edu的策略,重点聚焦教育价值与内容质量。具体步骤如下:
- 教育价值评估:首先使用csg-wukong-enterprise打分模型对样本的教育价值进行评分,依据内容的相关性与质量给出0-5分。初步筛选阶段,选取了约10万条高评分数据。
- 打分模型训练:利用这10万条样本训练一个BERT模型,用于对更大规模的预训练数据集进行文本打分。这一步确保模型能够有效识别高教育价值内容。
- 数据筛选:使用训练好的BERT模型对原始数据进行全面打分,仅保留得分大于4的数据。这一筛选极大提升了数据集的质量与相关性。
- MinHash去重:为避免重复内容干扰模型训练,采用MinHash算法对所有数据进行去重处理,确保数据的独特性,同时保留多样化的教育内容。
原始数据来源
Chinese Fineweb Edu的原始数据来源广泛,覆盖多个国内主流中文预训练数据集。这些数据集在规模与覆盖领域上各有侧重,但通过精细筛选与处理,最终为Chinese Fineweb Edu提供了坚实基础。主要数据来源包括:
- CCI2-Data:经过严格清洗、去重和质量过滤的高质量中文安全数据集。
- SkyPile-150B:来自中国互联网的1500亿token大规模数据集,经过复杂过滤和去重。
- IndustryCorpus:覆盖多个行业的中文预训练数据集,包含1TB中文数据。
- Tele-AI:从电信星辰大模型TeleChat预训练语料中提取的高质量大规模中文数据集,约2.7亿条纯中文文本。
- MAP-CC:规模庞大的中文预训练语料库,结合了多种来源的高质量数据。
这些多元化的数据源不仅提供了丰富的内容基础,还通过跨领域、跨来源的数据融合,增强了数据集的广泛适用性与全面性。
打分模型
采用OpenCSG的csg-wukong-enterprise企业版大模型作为打分模型,通过设计的prompt对每条预训练样本进行评分,分为0-5分共6个等级:
- 0分:网页毫无教育价值,内容完全由无关信息构成。
- 1分:网页提供了与教育主题相关的基础信息,但包含无关或非学术内容。
- 2分:网页涉及某些教育元素,但与教育标准不符,内容可能混杂或浅显。
- 3分:网页适合教育用途,介绍了与学校课程相关的关键概念,但内容可能不全面或不连贯。
- 4分:网页对中学及以下教育目标高度相关,写作风格清晰一致,内容连贯且重点突出。
- 5分:摘录在教育价值上表现卓越,完全适合小学或中学教学,写作风格易于理解,对主题提供深刻而全面的见解。
记录了10万条数据及其得分,形成fineweb_edu_classifier_chinese_data。将得分作为标签,训练了一个中文Bert模型fineweb_edu_classifier_chinese,能够为每条输入文本给出0-5分的得分。未来,OpenCSG算法团队计划将这两个资源开源,进一步推动社区发展与交流。
消融实验
为对比Chinese-fineweb-edu与传统中文预训练语料的效果差异,设计了一组消融实验。从CCI2-Data、SkyPile-150B、TeleChat-PTD、IndustryCorpus和MAP-CC这五个数据集中,随机抽取与Chinese-fineweb-edu数据比例相同的样本,构建了对比数据集chinese-random-select。
实验使用一个2.1B参数规模的模型,预训练了65k步。训练过程中定期保存checkpoint,并在中文评测基准CEval和CMMLU上进行了验证。结果清晰显示,使用Chinese-fineweb-edu训练的数据集在两个评测任务中均显著优于chinese-random-select,尤其在训练后期表现出极大优势。
进一步分析发现,在训练靠后阶段,可能是因为进入了第2个epoch且学习率快速下降,训练效果开始涌现。此时,使用chinese-fineweb-edu训练的模型准确率明显上升,而使用随机抽取数据训练的模型则一直处于较低水平。这证明了chinese-fineweb-edu具有更高的数据质量,能在相同训练时间内更快地提升模型能力,这一结果与英文版fineweb-edu的表现是一致的。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。