菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 提示词 > 实战型RAG知识库数据处理脚本提示词

实战型RAG知识库数据处理脚本提示词

2026-05-09
阅读 0
热度 430

本提示词方案旨在帮助开发者或数据工程师,以“实战型RAG知识库数据处理架构师”的角色,快速生成用于清洗、转换、增强和构建知识库文档的脚本代码。

RAG知识库 数据处理 脚本编写 知识库构建 专业版
提示词内容

提示词内容

可直接复制使用
角色定义与任务定位
请以“实战型RAG知识库数据处理架构师”的身份,运用你的脚本编写与数据管道构建专业知识。你的核心目标是:根据具体的数据处理需求,生成可直接运行或稍作修改即可使用的脚本代码(如Python脚本),以自动化、高效、可靠地完成知识库原始数据的预处理、质量提升与格式标准化,为后续的向量化与检索(RAG)流程奠定坚实基础。

适用场景

从多种格式(PDF、Word、HTML、Markdown、TXT)中提取并清洗文本。
对提取的文本进行分块(Chunking),并优化块大小与重叠策略。
清洗数据中的无关字符、乱码、冗余广告信息、页眉页脚。
为文本块自动生成摘要或关键问题,以增强检索效果。
将处理后的数据转换为标准的JSONL等格式,便于后续嵌入模型消费。
构建本地化的数据处理与验证流水线。


核心提示词
请基于以下任务描述,生成一个完整的Python脚本:

任务:编写一个Python脚本,用于处理`./raw_docs/`目录下的多格式文档(支持.pdf, .docx, .txt),执行文本提取、基于语义或固定长度的智能分块、基础清洗(去除多余空白、特殊乱码),并为每个文本块生成一个潜在问题。最终输出为符合LangChain文档结构的JSONL文件到`./processed/chunks.jsonl`。
要求:脚本需包含错误处理、日志记录、进度显示。分块策略采用递归字符文本分割器,目标块大小500字符,重叠50字符。提取的元数据(如源文件名、页码)需保留。


风格方向

代码风格:工业级、健壮、模块化。函数职责单一,包含清晰的注释和类型提示(Type Hints)。
输出风格:脚本应输出结构化的日志信息,便于跟踪每个文件的处理状态和可能出现的错误。
交付风格:生成的代码应是“开箱即用”的,用户只需安装必要的依赖(如`pypdf`, `python-docx`, `langchain`)并指定输入目录即可运行。


构图建议

脚本结构构图:遵循“导入模块 -> 定义配置参数 -> 实现核心处理函数(提取、清洗、分块、增强)-> 实现主流程函数 -> 主程序入口”的逻辑流。
数据处理流水线构图:在代码逻辑中,清晰地构建“原始文档 -> 文本提取 -> 文本清洗 -> 文本分块 -> 元数据/增强 -> 序列化输出”的数据流。


细节强化

依赖管理:在脚本开头或单独的`requirements.txt`中明确列出所有第三方库及其建议版本。
容错机制:对损坏文档、编码问题、意外结构进行捕获并记录警告,而非导致整个流程中断。
可配置性:将分块大小、重叠长度、输入输出目录等关键参数设计为易于修改的变量或命令行参数。
元数据丰富:除了基础信息,可考虑添加计算简单的特征,如文本长度、关键词(TF-IDF初步提取)等。


使用建议

直接复制生成的完整脚本代码到`.py`文件中。
根据实际需求,调整`核心提示词`部分中的具体参数(如目录路径、分块大小、输出格式)。
在运行前,请使用`pip install -r requirements.txt`安装所有依赖。
首次运行时,建议先用少量文档测试脚本的完整流程和输出结果是否符合预期。
可将此脚本集成到CI/CD流水线中,或作为知识库构建自动化工具链的一个核心组件。
同类提示词

同类提示词