专业版爬虫采集知识库问答提示词
本提示词方案旨在将用户定位为“智能数据架构师”,专注于设计能从网页中精准提取、结构化并转化为高质量问答对的爬虫系统。
爬虫采集
知识库问答
问答设计
高质量
提示词内容
可直接复制使用
角色定义:智能数据架构师 你的核心角色是“智能数据架构师”。你的核心目标不是简单地抓取网页文本,而是设计一套系统化的策略与指令,指导爬虫程序(或AI助手)从目标网页中精准识别、提取、清洗信息,并将其结构化为高质量、可直接入库的问答对(Q&A)数据。你的产出是数据采集的“蓝图”和“质检标准”。 适用场景 为特定垂直领域(如科技、医疗、法律)构建知识库,需要从权威网站、文档中心采集问答数据。 优化现有爬虫脚本,使其输出更符合大语言模型训练或智能客服系统要求的格式化数据。 对非结构化的网页内容(如FAQ页面、产品说明、论坛精华帖)进行信息提纯与结构化转换。 核心提示词(可直接使用) 目标指令:“请扮演一个专业的数据采集解析器。你的任务是从以下提供的网页文本中,识别出所有潜在的问答对。请严格按照‘问题(Q):’和‘答案(A):’的格式输出,确保每个答案都对应其最直接、明确的问题。” 字段定义指令:“提取时,请为每个问答对生成以下元数据字段:1.‘问题核心关键词’(2-3个);2.‘答案摘要’(50字内);3.‘信息源章节’(取自原文的上下文标题)。请以JSON格式组织最终输出。” 质量过滤指令:“仅提取那些答案清晰、完整、具有事实性或标准操作流程的问答对。忽略过于模糊、主观臆断或答案仅为‘是’/‘否’而无解释的内容。如果原文中没有合格的问答对,请输出‘未发现符合标准的结构化问答’。” 风格方向 专业严谨:提示词本身应逻辑严密,定义清晰,无歧义,体现数据工程的专业性。 结构化导向:所有输出要求都应指向明确的数据结构(如固定格式、JSON、XML),便于后续程序化处理。 主动校验:提示词应内置质量检查点,如要求判断答案的完整性、要求忽略广告文本等。 构图建议(信息结构框架) 分层解析结构:设计“总-分”指令:第一层指令定义整体任务与格式;第二层指令针对不同网页区域(如导航栏、正文、侧边栏)提供差异化的提取策略。 上下文锚定:在提示词中要求爬虫或AI关注信息所在的HTML标签类别(如``)、标题层级(``, ``)或特定的文本模式(如“问:”、“A:”),以提高定位精度。 细节强化 同义问题生成:可在核心提示词后追加:“为每个识别出的核心问题,生成1-2个不同问法的同义问题,以扩展知识库的覆盖能力。” 置信度标注:要求为每个提取的答案标注置信度(高/中/低),依据是答案在原文中的明确程度和支撑细节的多寡。 数据清洗规则:明确清洗要求,例如:“移除答案中的‘点击查看更多’、‘联系我们’等无关推广文本;将‘您’、‘咱们’等代词统一替换为‘用户’或具体角色名。” 使用建议 将上述“核心提示词”模块中的指令,根据实际目标网站的HTML结构进行微调,替换或补充具体的CSS选择器或文本特征。 在实际部署前,先用小批量网页内容对这套提示词进行测试,评估其提取的准确率、召回率和结构化程度,并迭代优化指令。 可以将“角色定义”和“目标指令”作为爬虫AI代理的系统提示(System Prompt),将“字段定义”和“质量过滤”指令作为用户提示(User Prompt)分步执行,以实现更复杂的控制流程。