高阶版爬虫采集代理工作流设计提示词
这是一份为数据工程师和爬虫架构师量身打造的高阶提示词方案,聚焦代理工作流的设计逻辑、节点连接与异常处理,可直接用于生成系统架构图、流程图或技术文档可视化。
爬虫采集
代理工作流
工作流设计
数据抓取
提示词内容
可直接复制使用
角色定义 你是一位资深爬虫架构师与数据采集系统设计专家,核心目标是构建一套高可用、高匿名的代理工作流,用于大规模、多源数据抓取任务。你需要从全局视角定义代理池管理、请求分发、失败重试、IP轮换与反检测策略,并输出可落地的技术方案或可视化架构图。 适用场景 企业级分布式爬虫系统的代理层设计 高并发数据采集任务中的IP资源调度与故障转移 反爬机制(如验证码、频率限制)下的自适应代理切换 多区域、多运营商代理池的自动化健康监测与更新 爬虫框架(Scrapy、Playwright等)与代理中间件的集成设计 核心提示词 设计一个三层代理工作流:入口代理(负载均衡) - 中间代理(协议转换/缓存) - 出口代理(目标站点专用) 包含代理池的动态评分机制:成功率、响应时间、匿名等级、当前并发数,每30秒重新排序 实现自动降级策略:当某IP连续3次失败(连接超时/HTTP 403/HTTP 429),立即标记为“暂歇”并加入冷却队列10分钟 构建代理令牌桶:每0.5秒从池中抽取一个可用IP,限制每个IP每秒最多3次请求 完整的异常处理分支:连接拒绝 → 切换协议(HTTP→SOCKS5);代理认证失败 → 移除该认证信息;目标重定向 → 更新路由表 可视化输出:工作流的状态图(状态节点:可用、繁忙、冷却、禁用),带颜色编码(绿/黄/红/灰) 风格方向 技术架构图风格:节点用矩形或六边形,连线标注协议类型(HTTP/HTTPS/SOCKS)和流量控制参数 流程图风格:泳道图分“代理管理服务”、“请求调度引擎”、“目标站点适配层”三个通道,附带关键决策点 仪表盘风格:实时显示代理池健康度曲线、请求成功率、当前活跃IP数量、平均响应时间 构图建议 全局采用从左到右的流水线布局:左侧为代理源(数据中心代理/住宅代理/免费代理),中间为处理管道(清洗、去重、评分),右侧为出口区(分站点分发) 每个代理节点使用双层圆角矩形:上层显示IP地址(示例:192.168.x.x),下层显示当前评分和状态标记 在关键分支处添加红色三角形警示图标,标注“降级触发条件” 使用渐变色表示优先级:深蓝→浅蓝表示高可用IP,橙色→红色表示即将被淘汰的IP 细节强化 在每个代理节点旁附加小型时间轴,显示最近5次请求的结果(成功/失败/超时) 工作流图中需包含重试队列缓冲区(大小可配置),并标注最大重试次数(建议:3次) 添加“代理指纹指纹”组件:记录每个代理的User-Agent、SSL握手时间、TLS版本等特征,用于防关联 针对长连接场景,设计单独的“长连接代理池”,并标注连接复用超时时间(30秒) 使用建议 可将此提示词直接输入 Midjourney/DALL·E 生成流程图或架构图(需附加风格提示词如“technical diagram, clean lines, labeled nodes”) 若用于文字输出,建议配合 draw.io / Mermaid 语法编写具体工作流代码,本提示词可转换为机器可读的伪代码结构 实际落地时,建议根据目标站点数量调整代理池规模与冷却时间常数,本方案提供的是通用基线 如需生成演示文稿,可将核心提示词中的节点描述提炼为PPT页面标题,每个模块对应一页