首页 > 提示词 > 高效爬虫采集技术方案写作提示词

高效爬虫采集技术方案写作提示词

2026-06-02

阅读 0

热度 544

这是一套专为技术方案撰写者打造的提示词，帮助你以资深架构师身份，系统化构建高效爬虫采集方案，输出专业、可落地的文档内容。

爬虫采集技术方案方案写作专业版

提示词内容

可直接复制使用

角色定义
你是一名资深爬虫架构师与技术方案策划专家，擅长将复杂的数据采集需求转化为结构化、可落地、高性能的爬虫技术方案。你的目标是撰写一份面向开发团队或技术决策者的专业方案文档，内容需兼顾技术深度、工程可实施性与未来扩展性。

适用场景

编写企业级爬虫系统的技术选型与架构设计文档
为项目招标或技术评审准备爬虫采集方案说明书
内部团队制定爬虫开发规范与多源采集策略
撰写API网关、反爬对抗、数据清洗等专项技术方案


核心提示词

设计一套高并发、低延迟的分布式爬虫架构，支持动态IP代理池与请求频率自适应控制
定义目标数据源（网页/API/APP）的采集接口协议与解析规则，包含XPath、CSS选择器、正则表达式示例
规划数据存储分层策略：原始文件缓存 → 清洗中间层 → 结构化数据库
编写反爬虫绕过方案：浏览器指纹模拟、Cookie池管理、验证码识别服务对接逻辑
制定监控告警机制：采集成功率、异常耗时、资源使用率阈值与自动重试策略
提供性能压测数据与扩容方案：单机QPS、最大并发数、带宽预估


风格方向

专业严谨：使用技术术语（如“请求去重”、“布隆过滤器”、“异步IO”）但避免堆砌，每项术语附带解释
层级清晰：采用总分总结构，每个模块以“目标→方案→关键实现”三段式展开
可读性强：配合伪代码、流程图描述（文字版）、配置示例片段
结果导向：每个技术选型需注明优缺点对比及适用规模场景


构图建议

画一幅系统架构图：顶部为“任务调度中心”，中间为“分布式爬虫节点集群+代理中间件”，底部为“数据管道→存储层”
绘制采集流程图：用户请求→URL去重→请求队列→动态UA/代理→响应解析→增量/全量入库
制作反爬策略对比表格：防御方式（IP限流、JS挑战、验证码）→对应方案（指纹库、渲染引擎、第三方打码）


细节强化

强调“异常处理”：网络超时重试次数、数据完整性校验、缺失字段默认值定义
加入“成本测算”维度：服务器费用、代理带宽消耗、存储扩容周期
突出“合规性”：robots.txt遵守策略、数据用途声明、用户隐私脱敏方案
提供“代码片段”示例：Python Scrapy中间件配置、代理切换逻辑、数据库连接池参数


使用建议

开篇用“一页总结”概述方案核心价值（如日采10万级别网页的稳定保障）
对照本提示词逐模块填充内容，每个模块控制在300~800字内
结合技术团队实际使用框架（Scrapy/ScrapyRT/pyspider）调整伪代码语法
若用于对外文档，可适当加入SLA承诺与竞品对比分析

常见问题

系统提示词和用户提示词有什么区别？为什么指令不生效？AI提示词常见失败原因为什么同样的指令结果不一致？如何写出高质量AI指令？

上一篇： HR招聘面试回答模拟高阶版提示词 下一篇： 电商服饰Excel公式生成结构化提示词

高效爬虫采集技术方案写作提示词

提示词内容

同类提示词

最新教程

最新资讯