首页 > 提示词 > 实战型RAG知识库数据处理脚本提示词

实战型RAG知识库数据处理脚本提示词

2026-05-09

阅读 0

热度 430

本提示词方案旨在帮助开发者或数据工程师，以“实战型RAG知识库数据处理架构师”的角色，快速生成用于清洗、转换、增强和构建知识库文档的脚本代码。

RAG知识库数据处理脚本编写知识库构建专业版

提示词内容

可直接复制使用

角色定义与任务定位
请以“实战型RAG知识库数据处理架构师”的身份，运用你的脚本编写与数据管道构建专业知识。你的核心目标是：根据具体的数据处理需求，生成可直接运行或稍作修改即可使用的脚本代码（如Python脚本），以自动化、高效、可靠地完成知识库原始数据的预处理、质量提升与格式标准化，为后续的向量化与检索（RAG）流程奠定坚实基础。

适用场景

从多种格式（PDF、Word、HTML、Markdown、TXT）中提取并清洗文本。
对提取的文本进行分块（Chunking），并优化块大小与重叠策略。
清洗数据中的无关字符、乱码、冗余广告信息、页眉页脚。
为文本块自动生成摘要或关键问题，以增强检索效果。
将处理后的数据转换为标准的JSONL等格式，便于后续嵌入模型消费。
构建本地化的数据处理与验证流水线。


核心提示词
请基于以下任务描述，生成一个完整的Python脚本：

任务：编写一个Python脚本，用于处理`./raw_docs/`目录下的多格式文档（支持.pdf, .docx, .txt），执行文本提取、基于语义或固定长度的智能分块、基础清洗（去除多余空白、特殊乱码），并为每个文本块生成一个潜在问题。最终输出为符合LangChain文档结构的JSONL文件到`./processed/chunks.jsonl`。
要求：脚本需包含错误处理、日志记录、进度显示。分块策略采用递归字符文本分割器，目标块大小500字符，重叠50字符。提取的元数据（如源文件名、页码）需保留。


风格方向

代码风格：工业级、健壮、模块化。函数职责单一，包含清晰的注释和类型提示（Type Hints）。
输出风格：脚本应输出结构化的日志信息，便于跟踪每个文件的处理状态和可能出现的错误。
交付风格：生成的代码应是“开箱即用”的，用户只需安装必要的依赖（如`pypdf`, `python-docx`, `langchain`）并指定输入目录即可运行。


构图建议

脚本结构构图：遵循“导入模块 -> 定义配置参数 -> 实现核心处理函数（提取、清洗、分块、增强）-> 实现主流程函数 -> 主程序入口”的逻辑流。
数据处理流水线构图：在代码逻辑中，清晰地构建“原始文档 -> 文本提取 -> 文本清洗 -> 文本分块 -> 元数据/增强 -> 序列化输出”的数据流。


细节强化

依赖管理：在脚本开头或单独的`requirements.txt`中明确列出所有第三方库及其建议版本。
容错机制：对损坏文档、编码问题、意外结构进行捕获并记录警告，而非导致整个流程中断。
可配置性：将分块大小、重叠长度、输入输出目录等关键参数设计为易于修改的变量或命令行参数。
元数据丰富：除了基础信息，可考虑添加计算简单的特征，如文本长度、关键词（TF-IDF初步提取）等。


使用建议

直接复制生成的完整脚本代码到`.py`文件中。
根据实际需求，调整`核心提示词`部分中的具体参数（如目录路径、分块大小、输出格式）。
在运行前，请使用`pip install -r requirements.txt`安装所有依赖。
首次运行时，建议先用少量文档测试脚本的完整流程和输出结果是否符合预期。
可将此脚本集成到CI/CD流水线中，或作为知识库构建自动化工具链的一个核心组件。

常见问题

系统提示词和用户提示词有什么区别？为什么指令不生效？AI提示词常见失败原因为什么同样的指令结果不一致？如何写出高质量AI指令？

上一篇： 创意向新中式室内空间概念图提示词 下一篇： 专业版低代码应用低成本AI应用方案提示词

实战型RAG知识库数据处理脚本提示词

提示词内容

同类提示词

最新教程

最新资讯