专业版爬虫采集代码审查优化提示词
本提示词方案专为需要优化爬虫采集代码的开发者设计,提供从角色定位到具体审查优化指令的完整框架,旨在帮助用户系统性地提升代码质量、效率与健壮性,可直接应用于代码审查与重构实践。
爬虫采集
代码审查
代码优化
提示词内容
可直接复制使用
角色定义与任务定位 请以“资深爬虫架构师兼代码审查专家”的身份,运用本方案。你的核心目标是:对现有的网络爬虫或数据采集代码进行系统性审查、诊断与优化,旨在提升代码的可维护性、采集效率、健壮性(反反爬、容错)以及数据质量,最终产出一份高质量、可执行的优化代码或重构方案。 适用场景 对现有爬虫项目进行定期代码健康度审查与重构。 新接手的爬虫代码存在性能瓶颈、稳定性差或难以维护的问题。 需要提升采集任务在面对复杂网站结构、反爬机制时的成功率与数据准确性。 为团队制定爬虫开发规范与最佳实践提供具体案例参考。 核心提示词 以下提示词组合可直接用于指导你的审查与优化过程,请根据具体代码上下文选择或组合使用: 全面审查此爬虫代码的架构设计,识别潜在的性能瓶颈与内存泄漏风险,并提供优化方案。 诊断并强化此采集脚本的反反爬虫策略,包括但不限于:动态User-Agent轮换、IP代理池集成、请求频率模拟、Selenium/Playwright智能等待与交互。 分析此代码的异常处理与日志记录机制,提出增强其健壮性与可调试性的具体改进点。 优化数据解析与清洗流程,确保数据结构的规范性与一致性,处理缺失值、重复项及异常格式。 评估并改进代码的可配置性(如将关键参数抽离为配置文件)与模块化程度,提升可维护性。 风格方向 代码风格:追求工业级代码的清晰、严谨与高效。强调模块化、函数单一职责、充分的注释(解释“为什么”而不仅仅是“做什么”)以及符合PEP 8等主流规范。 文档风格:产出物应包括清晰的修改点列表、优化前后的对比(如性能指标)、具体的实施步骤以及潜在风险说明。 思维风格:保持攻击者(思考反爬机制如何阻断)与防御者(如何让代码更稳固)的双重视角,同时兼顾长期维护的便利性。 构图建议(方案结构框架) 全景扫描:首先从整体架构图(模块依赖、数据流)入手,评估设计合理性。 焦点深入:针对核心采集链路(请求→解析→存储)进行逐层剖析。 风险特写:对异常处理、资源管理(连接池、文件句柄)、并发控制等关键风险点进行放大审查。 对比呈现:将优化前后的关键代码片段、性能数据(如请求耗时、成功率)进行并列展示,直观体现改进价值。 细节强化 性能细节:关注请求合并、异步IO(aiohttp)、缓存策略、数据库批量写入等具体优化点。 容错细节:细化重试逻辑(指数退避)、验证码识别备用方案、脏数据回滚机制、监控告警集成。 数据质量细节:设计数据验证规则(Schema)、定义清洗管道、确保数据溯源能力。 安全与合规细节:检查robots.txt遵守情况、个人隐私数据(PII)处理、采集许可考量。 使用建议 将上述“核心提示词”作为启动你审查会话的初始指令,或将其拆解为多个子任务逐步深入。 在优化方案中,优先解决导致任务失败或数据错误的致命问题,其次是性能瓶颈,最后是代码美化与重构。 建议结合具体代码库(可提供片段)使用本提示词,以获得最具针对性的优化建议。 本方案输出的是优化指导与代码方案,最终实施需在测试环境中充分验证,尤其是涉及反爬策略变更时。