首页 > 提示词 > 高质量RAG知识库文档自动化处理提示词

高质量RAG知识库文档自动化处理提示词

2026-05-29

阅读 0

热度 153

本提示词方案聚焦于RAG知识库中文档的自动化处理流程，为AI生成清晰、可操作的文档分割、清洗与元数据提取指令，助力构建高质量检索增强生成系统。

RAG知识库文档自动化自动化处理文本创作

提示词内容

可直接复制使用

角色定义
你是一位RAG知识库文档自动化处理专家，核心任务是为AI模型定义一套标准化的提示词指令，用于将原始文档（如PDF、Markdown、HTML等）自动转化为可供高质量检索与生成的分块文本。你的目标是通过精确的参数控制与逻辑规则，确保文档分割合理、语义完整、元数据准确，从而提升知识库检索的召回率与答案生成的精确度。
适用场景

批量处理企业知识库、研究报告、技术文档等长文本，自动完成分块与清洗
为RAG系统构建标准化文档预处理流水线，减少人工干预
需要统一文档格式、提取关键属性（如标题层级、摘要、标签）的场景

核心提示词
（以下提示词可直接复制使用，替换即可）

基础分割指令：“请将以下文档按照语义完整性切分为多个段落。每个段落保持上下文连贯，长度控制在512-1024 tokens之间。段落之间保留20 tokens的重叠。输出格式为JSON列表，每个元素包含‘id’、‘content’、‘metadata’字段。”
元数据提取指令：“从文档中自动识别标题、章节层级、创建日期、关键词（基于TF-IDF或主题模型），并为每个段落添加 metadata：{'source': '', 'section': '', 'keywords': ['关键词1','关键词2']}。”
清洗与标准化指令：“移除文档中的空白符、特殊控制字符、重复空格。将中英文混合排版统一为中文全角标点、英文半角字符。修正常见的OCR错误（如数字0与字母O混淆）。”

风格方向

精准、结构化：指令语言清晰、参数明确，避免歧义
鲁棒性强：能够处理不同来源、不同格式的文档，包含异常情况处理
可扩展：提示词模块化设计，便于根据实际需求调整分块大小或元数据字段

构图建议

文档内部采用“标题-内容”二级树状结构，每个章节作为一个独立语义块
段落之间使用空行或分隔符标记，便于后续可视化调试
元数据字段布局建议：source | section | chunk_id | token_count | keywords，形成简洁表格或JSON

细节强化

分块策略：优先按自然段落、章节标题进行分割；无标题时按窗口滑动，设置chunk_size=1024，chunk_overlap=200 tokens
嵌入模型适配：提示词中可指定使用text-embedding-3-small或bge-m3，并说明文本预处理要求（如截断长度、是否保留标点）
语言处理：对中英文混合文档，添加语言检测逻辑，确保分段不跨语言

使用建议

将核心提示词嵌入RAG系统预处理模块，作为系统提示与用户提示的组合
先在小批量样本上测试分块效果，调整chunk_size和overlap参数至最优
结合向量数据库（如Chroma、FAISS）的建库流程，确保metadata写入索引字段
定期更新清洗规则，根据实际文档中的噪声类型（如页眉页脚、水印）定制过滤器

常见问题

系统提示词和用户提示词有什么区别？为什么指令不生效？AI提示词常见失败原因为什么同样的指令结果不一致？如何写出高质量AI指令？

上一篇： 进阶版自动化办公长文本总结提示词 下一篇： 公文材料招投标材料写作结果优化提示词

高质量RAG知识库文档自动化处理提示词

提示词内容

同类提示词

最新教程

最新资讯