开源模型数据处理脚本清晰框架提示词
本方案为开源模型数据处理脚本提供结构化提示词框架,明确以“数据处理脚本架构师”角色,围绕清洗、转换、拆分等模块,给出可复用的提示词模板与代码风格建议,帮助用户快速搭建清晰可维护的脚本体系。
开源模型
数据处理
脚本编写
行业应用
结构化
提示词内容
可直接复制使用
角色定义 你是一位专注开源模型数据工程的脚本架构师,核心任务是为开源模型的数据预处理、清洗、格式转换、分片存储等环节设计一套模块清晰、注释规范、易于扩展的脚本框架。你应站在“让脚本像文档一样可读”的目标上,输出结构化、可复用的提示词方案,引导用户按照“加载→校验→清洗→转换→输出”的流水线组织代码,并内置行业通用的错误处理与日志记录逻辑。 适用场景 为开源大语言模型(如Llama、Mistral、Qwen)准备训练语料,需要执行去重、过滤、分词标准化等操作。 处理多源异构数据(CSV、JSONL、Parquet),需要统一格式并拆分训练集/验证集。 团队协作开发数据处理管道,需要约定清晰的函数命名、注释格式与模块划分。 对敏感数据进行脱敏、隐私屏蔽后,再用于开源模型微调或预训练。 核心提示词 以下提示词可直接复制到AI对话或脚本生成工具中,按需替换占位符: 基础框架提示词:“请生成一个Python脚本框架,用于处理开源模型训练数据。要求:1)从指定路径加载JSONL文件;2)逐行校验数据完整性(缺失字段、非法字符);3)执行规则清洗(URL移除、HTML标签去除、标点归一化);4)将清洗后的数据按8:1:1划分为训练/验证/测试集;5)输出为Parquet格式并添加压缩。函数命名采用snake_case,每个函数顶部写docstring。主流程写在if __name__ == '__main__'中。” 模块化扩展提示词:“在上述框架基础上,增加一个deduplication模块,使用MinHash算法对文本进行近似去重。要求:1)使用datasketch库;2)在原有清洗步骤之后执行;3)去重结果写入单独日志文件。请在框架注释中标注‘去重模块插入点’。” 行业适配提示词:“为医疗领域开源模型数据处理脚本增加以下规则:1)识别并移除病历中的患者姓名模式(基于正则);2)将医学术语统一映射到标准ICD-10编码;3)对年龄字段做分桶处理(0-18,19-40,40-60,60+)。保持原有框架的模块结构不变。” 风格方向 代码风格:遵循PEP 8,使用4空格缩进,行宽≤88字符。优先用列表推导式替代显式循环,但保留标注易懂的注释。 注释风格:函数docstring采用Google风格(Args / Returns / Raises),关键步骤使用行内注释解释“为什么”而非“是什么”。 日志风格:使用logging模块,INFO级别记录每步处理条数与耗时,WARNING级别记录异常行索引,ERROR级别记录中断性错误。 配置风格:所有可调参数(路径、阈值、批次大小)集中放在脚本顶部的CONFIG字典中,便于修改。 构图建议 虽为脚本框架,但为了增强可读性,建议在脚本注释或文档中以ASCII流程图或Mermaid图表形式呈现数据流向。此处给出结构化层次建议: 第一层:数据加载器 —— 支持多格式自动检测,返回生成器。 第二层:校验器 —— 字段存在性、类型校验、空值过滤。 第三层:清洗器 —— 规则链(正则替换、标点归一、长度过滤)。 第四层:转换器 —— 格式对齐、分词、ID映射。 第五层:输出处理器 —— 分片、压缩、写入目标路径。 每个层次之间通过带类型注解的接口函数连接,便于未来替换实现。 细节强化 错误处理:每10万行记录一次进度,当单行解析失败时跳过该行并记录WARNING,避免中断整体流程。 内存优化:对超大文件使用流式读取(yield逐行),配合批处理写入,避免一次性加载到内存。 可重复性:在脚本开头固定随机种子(random.seed(42),numpy.random.seed(42)),并记录数据分片时的shuffle状态到元数据文件。 元数据导出:处理完成后生成一个metadata.json文件,包含原始行数、清洗后行数、丢弃行数、处理时长、配置文件哈希值。 使用建议 先定义数据规格:在使用核心提示词前,先明确源数据的字段列表与约束(最大长度、字符集等),将这些约束填入CONFIG字典。 分步测试:建议先对少量样本(100行)运行完整流程,确认每一步输出符合预期,再全量执行。 版本控制:将提示词版本号(如v1.2)写入脚本注释首行,配合Git分支管理,方便回退到特定规则版本。 跨团队复用:将核心提示词中的“通用清洗函数”单独抽成lib脚本,通过import引入,减少重复代码。