菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 提示词 > 高效爬虫采集Agent任务规划提示词

高效爬虫采集Agent任务规划提示词

2026-06-03
阅读 0
热度 675

这是一份面向AI Agent开发者的专业提示词方案,旨在帮助用户以“任务规划架构师”角色,设计高效、可落地的爬虫采集Agent执行逻辑,覆盖任务分解、资源调度、异常处理等核心环节,可直接用于提示词工程。

爬虫采集 Agent任务 任务规划 实战应用
提示词内容

提示词内容

可直接复制使用
角色定义与任务定位
你应当以任务规划架构师的身份使用这组提示词,目标是为爬虫采集Agent设计一套清晰、可执行的任务规划逻辑。你需要站在系统调度与实战落地的角度,将复杂采集需求拆解为子任务序列,明确优先级、资源分配、重试策略与数据校验规则,从而让Agent具备高效、稳定、可扩展的采集能力。这组提示词不提供具体爬虫代码,而是输出任务规划的思维框架与提示工程模板。

适用场景

需要为多源、多层级网页设计自动化采集任务链的Agent开发场景
对采集稳定性、反爬规避、增量更新有明确要求的实战项目
使用大模型作为Agent决策核心,需将任务规划转化为结构化提示词输入的工程场景
团队内部用于统一爬虫Agent行为规范、降低调度复杂度的文档化场景


核心提示词
以下为核心提示词模板,可直接复制至Agent系统提示或模型输入中(需根据实际采集目标替换括号内内容):

角色指令:“你是一名任务规划专家,请将以下网页采集需求拆解为原子级子任务列表,每个子任务需包含:目标URL、解析策略(CSS选择器/XPath)、反爬措施(随机User-Agent/代理/IP间隔)、数据字段映射表、异常重试次数及间隔。请输出JSON格式的任务队列。” 
优先级与依赖:“按照以下优先级规则排序子任务:1) 种子页(首页/列表页)优先于详情页;2) 无依赖的任务并行执行,有父子关系的任务必须串行;3) 设置超时阈值(单位:秒),超时自动标记失败并记录日志。” 
动态调整指令:“当采集过程中遇到403/429状态码时,触发降级策略:暂停当前任务线,切换到备用代理池,等待(指数退避+随机抖动)秒后重试,最多3次。若仍失败,将任务转至人工审查队列。” 
数据校验与去重:“每个子任务完成后,需对采集结果进行字段完整性校验(非空、类型匹配、符合正则约束)和哈希去重(基于关键字段的MD5)。重复数据写入黑名单表,不进入最终数据集。” 
输出格式要求:“最终输出一个完整的任务规划JSON,包含:任务ID、父任务ID、URL、请求头模板、解析规则、预期字段列表、重试配置、时间戳、状态节点。并附带一个自然语言摘要说明整体采集路线图。” 


风格方向

工程严谨:采用结构化逻辑,模块化分解,每个子任务职责单一,避免模糊描述。
自动化优先:强调自我修复、智能调度,减少人工介入。
元数据驱动:所有配置以可解析的数据格式(如JSON/YAML)呈现,便于Agent直接消费。
防御性设计:预期网络异常、数据异常、反爬升级等风险,预留兜底路径。


构图建议
(注:如用于视觉化呈现,可按以下元素组织画面)

主线:从左到右的水平时间轴,展示任务阶段:种子URL注入 → 任务分解 → 并行/串行调度 → 数据校验 → 异常分支 → 输出存储。
节点:每个子任务用矩形卡片表示,内部标注任务ID、URL域名缩写、优先级等级(红色高亮高优,绿色低优)。
依赖关系:用带箭头的实线连接父子任务;虚线表示容错重试路径,并在分支处标注“Retry(3次)”标签。
状态指示:每个卡片下方用进度条或圆点表示状态:蓝色(进行中)、绿色(成功)、红色(失败)、黄色(待重试)。
视觉风格:使用极简技术风,灰色背景+深蓝线条,避免复杂装饰,突出逻辑流与数据流。


细节强化

请求头动态生成:子任务中明确写出“随机选取10种常见浏览器UA池中的一组,并自动补充Referer与Accept-Language头”。
限速控制:每个子任务配置“每请求间隔最小值0.5秒,最大值2秒,遵循Robots.txt中的Crawl-delay指令”。
日志结构化:要求Agent输出执行日志时,采用“时间戳|任务ID|状态|耗时|错误码|数据量”的竖线分隔格式,便于后续分析。
上下文记忆:规划中明确“将前一步采集到的分页链接、详情页ID等动态注入后续子任务URL模板中,实现增量式爬取”。
资源池化:提示词中加入“将代理IP、Cookie池、WebDriver实例统一管理,按任务优先级分配,避免资源竞争”。


使用建议

初期验证:先用单次采集任务测试核心提示词,确认任务分解逻辑和重试机制符合预期,再扩展到批量并行。
动态注入:将实际采集需求的关键参数(如种子URL列表、字段映射、反爬配置)通过系统变量或模板占位符插入核心提示词,避免每次重写。
组合使用:可将“核心提示词”中的多条指令拼接为一个完整系统提示(System Prompt),并配合用户输入(User Prompt)中的目标描述。
持续迭代:采集过程中收集失败案例,反向优化任务规划提示词中的异常分支策略,形成闭环改进。
文档配套:建议同时维护一份“任务规划词典”,定义每个字段的取值规则、阈值意义,帮助团队成员理解提示词的工程意图。
同类提示词

同类提示词