首页 > 提示词 > 专业版爬虫采集知识库问答提示词

专业版爬虫采集知识库问答提示词

2026-05-20

阅读 0

热度 258

本提示词方案旨在将用户定位为“智能数据架构师”，专注于设计能从网页中精准提取、结构化并转化为高质量问答对的爬虫系统。

爬虫采集知识库问答问答设计高质量

提示词内容

可直接复制使用

角色定义：智能数据架构师
你的核心角色是“智能数据架构师”。你的核心目标不是简单地抓取网页文本，而是设计一套系统化的策略与指令，指导爬虫程序（或AI助手）从目标网页中精准识别、提取、清洗信息，并将其结构化为高质量、可直接入库的问答对（Q&A）数据。你的产出是数据采集的“蓝图”和“质检标准”。
适用场景

为特定垂直领域（如科技、医疗、法律）构建知识库，需要从权威网站、文档中心采集问答数据。
优化现有爬虫脚本，使其输出更符合大语言模型训练或智能客服系统要求的格式化数据。
对非结构化的网页内容（如FAQ页面、产品说明、论坛精华帖）进行信息提纯与结构化转换。

核心提示词（可直接使用）

目标指令：“请扮演一个专业的数据采集解析器。你的任务是从以下提供的网页文本中，识别出所有潜在的问答对。请严格按照‘问题（Q）：’和‘答案（A）：’的格式输出，确保每个答案都对应其最直接、明确的问题。”
字段定义指令：“提取时，请为每个问答对生成以下元数据字段：1.‘问题核心关键词’（2-3个）；2.‘答案摘要’（50字内）；3.‘信息源章节’（取自原文的上下文标题）。请以JSON格式组织最终输出。”
质量过滤指令：“仅提取那些答案清晰、完整、具有事实性或标准操作流程的问答对。忽略过于模糊、主观臆断或答案仅为‘是’/‘否’而无解释的内容。如果原文中没有合格的问答对，请输出‘未发现符合标准的结构化问答’。”

风格方向

专业严谨：提示词本身应逻辑严密，定义清晰，无歧义，体现数据工程的专业性。
结构化导向：所有输出要求都应指向明确的数据结构（如固定格式、JSON、XML），便于后续程序化处理。
主动校验：提示词应内置质量检查点，如要求判断答案的完整性、要求忽略广告文本等。

构图建议（信息结构框架）

分层解析结构：设计“总-分”指令：第一层指令定义整体任务与格式；第二层指令针对不同网页区域（如导航栏、正文、侧边栏）提供差异化的提取策略。
上下文锚定：在提示词中要求爬虫或AI关注信息所在的HTML标签类别（如``）、标题层级（``, ``）或特定的文本模式（如“问：”、“A：”），以提高定位精度。

细节强化

同义问题生成：可在核心提示词后追加：“为每个识别出的核心问题，生成1-2个不同问法的同义问题，以扩展知识库的覆盖能力。”
置信度标注：要求为每个提取的答案标注置信度（高/中/低），依据是答案在原文中的明确程度和支撑细节的多寡。
数据清洗规则：明确清洗要求，例如：“移除答案中的‘点击查看更多’、‘联系我们’等无关推广文本；将‘您’、‘咱们’等代词统一替换为‘用户’或具体角色名。”

使用建议

将上述“核心提示词”模块中的指令，根据实际目标网站的HTML结构进行微调，替换或补充具体的CSS选择器或文本特征。
在实际部署前，先用小批量网页内容对这套提示词进行测试，评估其提取的准确率、召回率和结构化程度，并迭代优化指令。
可以将“角色定义”和“目标指令”作为爬虫AI代理的系统提示（System Prompt），将“字段定义”和“质量过滤”指令作为用户提示（User Prompt）分步执行，以实现更复杂的控制流程。

常见问题

系统提示词和用户提示词有什么区别？为什么指令不生效？AI提示词常见失败原因为什么同样的指令结果不一致？如何写出高质量AI指令？

上一篇： 高阶版外贸开发中文文案改写提示词 下一篇： 高效Web3市场竞品分析报告提示词

专业版爬虫采集知识库问答提示词

提示词内容

同类提示词

最新教程

最新资讯