高效爬虫采集自建Agent方案提示词
本方案旨在为技术架构师与数据工程师提供一套结构化提示词,用于构建高效、可维护的自定义网络爬虫Agent。
爬虫采集
自建Agent
Agent方案
数据抓取
专业版
提示词内容
可直接复制使用
角色定义与任务定位 请以“数据基础设施架构师”兼“自动化流程设计者”的身份,运用本方案。你的核心目标是:设计并实现一个高度自治、稳定且可扩展的网络爬虫智能体(Agent),它能理解复杂的数据采集需求,自主规划抓取路径,处理反爬机制,并结构化输出数据,最终形成一套可复用的专业级解决方案。 适用场景 需要绕过动态加载、登录验证或复杂反爬策略的定向数据采集。 构建企业级数据中台的初始数据获取层,要求高稳定性和可监控性。 为特定垂直领域(如电商价格监控、舆情分析、学术文献聚合)定制长期运行的采集Agent。 将零散的爬虫脚本重构为模块化、可自我诊断与修复的智能体系统。 核心提示词 以下提示词可直接组合或单独用于与AI协作开发、生成代码或配置方案: 主任务定义:“设计一个具备自适应解析能力的爬虫Agent,核心任务是从[目标网站域名]中,持续抓取[具体数据类别,如商品详情、新闻正文、评论列表],并输出为结构化的JSON/CSV格式。” 能力规划:“为该Agent集成以下能力链:1) 动态User-Agent轮换与IP代理池管理;2) 基于XPath/CSS Selector与正则表达式的多模式解析器;3) 请求频率智能调控与异常状态(如403、验证码)识别与响应模块;4) 数据去重与增量更新逻辑。” 架构指令:“采用模块化设计,明确划分调度中心(Scheduler)、下载器(Downloader)、解析器(Parser)、数据管道(Item Pipeline)和监控告警(Monitor)模块。使用[如Python Scrapy框架、或Node.js Puppeteer集群]作为技术栈实现。” 风格方向 工业级稳健风格:强调错误处理、日志记录、熔断机制。代码结构清晰,注释完备,配置外部化。 自适应学习风格:Agent应能根据网站结构调整解析策略,可集成轻量级ML模型识别页面布局变化。 低干扰与伦理风格:遵循robots.txt,设计合理的请求延迟,避免对目标服务器造成压力,明确数据使用边界。 构图建议(方案结构蓝图) 顶层架构图:以“控制中枢”为核心,向外辐射连接“资源调度”、“任务队列”、“解析引擎”、“存储集群”和“监控面板”等组件,体现数据流与控制流。 逻辑流程图:描绘从“种子URL注入”开始,经历“优先级调度”、“请求封装”、“响应处理”、“数据提取”、“持久化存储”到“状态反馈”的闭环流程。 部署视图:展示Agent在Docker容器或K8s Pod中的部署形态,以及它与消息队列(如Redis)、数据库、对象存储的关联关系。 细节强化 反爬对抗细节:模拟鼠标移动轨迹,管理Cookie会话池,实现JavaScript渲染(通过无头浏览器集成),设置随机化请求间隔。 数据质量细节:设计数据清洗管道,包括字段格式标准化、非法字符过滤、空值校验与关联性验证。 性能与扩展细节:实现分布式任务队列,支持横向扩展多个下载器;设计缓存层避免重复抓取;考虑断点续抓与状态持久化方案。 使用建议 将“核心提示词”中的括号内容替换为您的具体参数,直接输入给代码生成AI(如GitHub Copilot、ChatGPT),以生成基础代码框架。 在调试阶段,使用“细节强化”中的要点作为Prompt,针对性地优化Agent的特定模块,例如:“为上述解析器增加对AJAX动态加载内容的捕获支持”。 “构图建议”可用于生成架构文档或向团队阐述设计思路,也可作为提示词的一部分,要求AI生成对应的系统设计图(Mermaid/PlantUML代码)。 整个方案应迭代使用:先构建最小可行Agent,再依据运行日志和监控反馈,逐步融入更复杂的风格与细节强化点。