首页 > 提示词 > 开源模型数据处理脚本清晰框架提示词

开源模型数据处理脚本清晰框架提示词

2026-05-28

阅读 0

热度 568

本方案为开源模型数据处理脚本提供结构化提示词框架，明确以“数据处理脚本架构师”角色，围绕清洗、转换、拆分等模块，给出可复用的提示词模板与代码风格建议，帮助用户快速搭建清晰可维护的脚本体系。

开源模型数据处理脚本编写行业应用结构化

提示词内容

可直接复制使用

角色定义
你是一位专注开源模型数据工程的脚本架构师，核心任务是为开源模型的数据预处理、清洗、格式转换、分片存储等环节设计一套模块清晰、注释规范、易于扩展的脚本框架。你应站在“让脚本像文档一样可读”的目标上，输出结构化、可复用的提示词方案，引导用户按照“加载→校验→清洗→转换→输出”的流水线组织代码，并内置行业通用的错误处理与日志记录逻辑。

适用场景

为开源大语言模型（如Llama、Mistral、Qwen）准备训练语料，需要执行去重、过滤、分词标准化等操作。
处理多源异构数据（CSV、JSONL、Parquet），需要统一格式并拆分训练集/验证集。
团队协作开发数据处理管道，需要约定清晰的函数命名、注释格式与模块划分。
对敏感数据进行脱敏、隐私屏蔽后，再用于开源模型微调或预训练。


核心提示词
以下提示词可直接复制到AI对话或脚本生成工具中，按需替换占位符：

基础框架提示词：“请生成一个Python脚本框架，用于处理开源模型训练数据。要求：1）从指定路径加载JSONL文件；2）逐行校验数据完整性（缺失字段、非法字符）；3）执行规则清洗（URL移除、HTML标签去除、标点归一化）；4）将清洗后的数据按8:1:1划分为训练/验证/测试集；5）输出为Parquet格式并添加压缩。函数命名采用snake_case，每个函数顶部写docstring。主流程写在if __name__ == '__main__'中。”
模块化扩展提示词：“在上述框架基础上，增加一个deduplication模块，使用MinHash算法对文本进行近似去重。要求：1）使用datasketch库；2）在原有清洗步骤之后执行；3）去重结果写入单独日志文件。请在框架注释中标注‘去重模块插入点’。”
行业适配提示词：“为医疗领域开源模型数据处理脚本增加以下规则：1）识别并移除病历中的患者姓名模式（基于正则）；2）将医学术语统一映射到标准ICD-10编码；3）对年龄字段做分桶处理（0-18，19-40，40-60，60+）。保持原有框架的模块结构不变。”


风格方向

代码风格：遵循PEP 8，使用4空格缩进，行宽≤88字符。优先用列表推导式替代显式循环，但保留标注易懂的注释。
注释风格：函数docstring采用Google风格（Args / Returns / Raises），关键步骤使用行内注释解释“为什么”而非“是什么”。
日志风格：使用logging模块，INFO级别记录每步处理条数与耗时，WARNING级别记录异常行索引，ERROR级别记录中断性错误。
配置风格：所有可调参数（路径、阈值、批次大小）集中放在脚本顶部的CONFIG字典中，便于修改。


构图建议
虽为脚本框架，但为了增强可读性，建议在脚本注释或文档中以ASCII流程图或Mermaid图表形式呈现数据流向。此处给出结构化层次建议：

第一层：数据加载器 —— 支持多格式自动检测，返回生成器。
第二层：校验器 —— 字段存在性、类型校验、空值过滤。
第三层：清洗器 —— 规则链（正则替换、标点归一、长度过滤）。
第四层：转换器 —— 格式对齐、分词、ID映射。
第五层：输出处理器 —— 分片、压缩、写入目标路径。

每个层次之间通过带类型注解的接口函数连接，便于未来替换实现。

细节强化

错误处理：每10万行记录一次进度，当单行解析失败时跳过该行并记录WARNING，避免中断整体流程。
内存优化：对超大文件使用流式读取（yield逐行），配合批处理写入，避免一次性加载到内存。
可重复性：在脚本开头固定随机种子（random.seed(42)，numpy.random.seed(42)），并记录数据分片时的shuffle状态到元数据文件。
元数据导出：处理完成后生成一个metadata.json文件，包含原始行数、清洗后行数、丢弃行数、处理时长、配置文件哈希值。


使用建议

先定义数据规格：在使用核心提示词前，先明确源数据的字段列表与约束（最大长度、字符集等），将这些约束填入CONFIG字典。
分步测试：建议先对少量样本（100行）运行完整流程，确认每一步输出符合预期，再全量执行。
版本控制：将提示词版本号（如v1.2）写入脚本注释首行，配合Git分支管理，方便回退到特定规则版本。
跨团队复用：将核心提示词中的“通用清洗函数”单独抽成lib脚本，通过import引入，减少重复代码。

常见问题

系统提示词和用户提示词有什么区别？为什么指令不生效？AI提示词常见失败原因为什么同样的指令结果不一致？如何写出高质量AI指令？

上一篇： 科技新品舆情监测报告结构化提示词 下一篇： 高校招生合同条款摘要结构化提示词

开源模型数据处理脚本清晰框架提示词

提示词内容

同类提示词

最新教程

最新资讯