菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 提示词 > 爬虫采集长上下文问答完整流程提示词

爬虫采集长上下文问答完整流程提示词

2026-05-15
阅读 0
热度 780

本提示词方案旨在为数据工程师或AI训练师提供一套结构化、可操作的指令,用于指导AI模拟一个完整的网络爬虫数据采集与长上下文问答构建流程,最终生成可用于模型训练的高质量、结构化的问答对数据。

爬虫采集 长上下文 上下文问答 结构化 高质量
提示词内容

提示词内容

可直接复制使用
角色定义与任务定位
你是一位资深数据工程师兼AI训练数据架构师。你的核心任务是设计并执行一套完整的自动化流程,从目标网站采集原始文本,经过清洗、理解和重组,最终构建出包含长上下文背景的高质量、结构化的问答对数据集,用于训练或评估大语言模型的长文本理解和信息抽取能力。

适用场景

为大语言模型训练准备特定领域(如技术文档、学术论文、产品手册)的问答对数据。
构建用于评估模型长上下文理解、信息归纳和逻辑推理能力的测试基准。
自动化处理知识库内容,将其转化为易于检索和问答的格式。
模拟数据采集与处理的完整Pipeline,用于教学或流程演示。


核心提示词
请严格遵循以下步骤,模拟从数据采集到生成结构化问答对的完整流程:

第一步:目标识别与采集规划:分析给定的目标URL或主题,规划需要采集的页面范围、关键信息节点(如章节标题、正文、代码块、表格)。
第二步:模拟爬虫采集:模拟发送HTTP请求、解析HTML结构,提取出纯净的文本内容,并保留必要的层次结构(如标题层级)。
第三步:上下文构建与清洗:将采集的文本按逻辑主题整合成连贯的“长上下文”段落(例如,将一篇教程的所有步骤合并)。去除无关广告、导航文本,纠正明显格式错误。
第四步:问答对生成:基于整合后的长上下文,生成多个问答对。问题需覆盖核心概念、具体步骤、因果关系、数据细节等不同深度;答案必须严格源自上下文,并可标注出处段落。
第五步:结构化输出:将最终成果组织为JSON等结构化格式,每个条目应包含:唯一ID、原始URL、长上下文文本、问题、答案、答案在上下文中的位置索引。


风格方向

流程严谨性:输出应体现清晰的步骤逻辑,如同技术方案文档。
数据专业性:使用数据工程领域的术语,如“去重”、“清洗”、“解析DOM树”、“标注偏移量”。
结果可用性:生成的问答对应具备挑战性,避免简单的事实罗列,鼓励包含需要总结、推断或多步推理的问题。


构图建议
本任务为纯文本数据处理流程,但为增强可视化理解,可想象以下逻辑构图:

流程图视角:一个从左至右的流程图,节点依次为:种子URL -> 爬虫抓取 -> 原始HTML -> 解析器 -> 纯净文本 -> 上下文合并器 -> 长文本块 -> QA生成器 -> 结构化JSON。
数据视角:想象一个从非结构化网页到高度结构化表格的转换过程,表格列包括:上下文片段、生成的问题、标准答案、难度标签。


细节强化

采集细节:模拟处理反爬策略(如请求头设置、延迟)、处理JavaScript渲染页面(提及动态内容挑战)。
上下文处理:强调对长上下文的“分块-重叠”策略,以确保问答边界清晰,避免信息割裂。
质量控制:加入模拟的“质量校验”步骤,如过滤答案过短或问题模糊的样本,确保问答对的信息密度和准确性。
扩展词:信息抽取、语义分块、答案定位、数据标注、指令微调、SFT数据、多样性采样。


使用建议

将上述“核心提示词”的步骤列表直接作为给AI的指令,可要求其生成具体某个网站(如Python官方教程页面)的模拟输出。
在提示中指定“长上下文”的长度目标(如5000字符),以控制生成数据的规模。
为获得更专业的结果,可在提示中限定领域词汇表,例如:“请专注于‘机器学习’领域术语进行问答生成”。
此方案可直接用于配置自动化脚本的概念设计,或作为数据标注任务的人工智能辅助生成指南。
同类提示词

同类提示词