进阶版爬虫采集自动化测试用例提示词
本提示词方案专为软件测试工程师与自动化开发人员设计,旨在系统化生成用于验证网络爬虫或数据采集程序功能、性能与稳定性的测试用例。
爬虫采集
自动化测试
测试用例
提示词内容
可直接复制使用
角色定义与任务定位 请以“资深自动化测试架构师”与“数据采集质量保障专家”的双重身份,执行本方案。您的核心目标是:为特定的网络爬虫或数据采集任务,系统化地设计、生成一套高覆盖度、高可执行性的自动化测试用例集,确保数据抓取过程的准确性、完整性、健壮性与性能表现。 适用场景 为新开发的爬虫脚本构建初始的自动化测试套件。 对现有爬虫系统进行功能回归测试与边界条件补充测试。 模拟复杂网络环境(如反爬策略、异常响应)下的采集稳定性验证。 进行数据质量校验与采集性能(如速度、资源占用)的基准测试。 核心提示词 以下提示词可直接组合或单独使用,作为生成具体测试用例的指令核心: 生成针对[目标网站域名]商品列表页的爬虫测试用例,需覆盖分页逻辑、字段解析准确性、请求间隔合规性。 设计一组测试用例,验证爬虫在遇到HTTP 404/500状态码、CAPTCHA验证码、IP限制时的异常处理与重试机制。 构造用于校验数据去重(基于URL或内容哈希)功能有效性的测试场景与测试数据。 编写性能测试用例,模拟并发请求[特定数量]以评估爬虫的速率限制遵守情况及系统资源消耗。 生成验证数据持久化(存储至MySQL/CSV/JSON)完整性与格式正确性的断言语句集。 风格方向 结构化与模块化:测试用例组织清晰,遵循“准备-执行-断言”模式,公共方法可复用。 技术精准:使用明确的测试框架语法(如Pytest的`assert`,Unittest的`assertEqual`),包含具体的请求头、选择器、预期值。 防御性思维:不仅测试“阳光路径”,更侧重边界、异常和失效场景的覆盖。 可配置化:关键参数(如URL、请求头、等待时间)应设计为可从配置文件或环境变量读取。 构图建议 此处的“构图”指测试用例集的结构设计: 金字塔结构:底层是大量单元测试(针对解析函数、清洗规则),上层是集成测试(完整抓取流程),顶层为少量关键业务流程的端到端测试。 分类套件:将用例按功能模块分类,如“身份认证测试套件”、“数据解析测试套件”、“反爬应对测试套件”、“性能与监控测试套件”。 依赖隔离:确保测试用例之间无状态依赖,可独立运行,并通过Mock和Fixture隔离外部网络与服务依赖。 细节强化 数据准备:明确测试数据的来源,是使用静态HTML快照、Mock Server响应,还是受限的测试环境数据库。 断言粒度:除了检查HTTP状态码,需详细断言响应内容中的关键字段值、数据条数、时间戳格式、编码正确性。 清理机制:每个用例应包含测试后的清理步骤(如删除临时文件、关闭数据库连接、重置配置)。 日志与报告:在用例中嵌入清晰的日志输出,便于失败时追踪问题;并考虑如何集成到CI/CD的测试报告。 合规性检查:加入对`robots.txt`规则遵守情况的检查点。 使用建议 将上述“核心提示词”中的括号内容替换为您的具体项目参数,直接输入给大语言模型或测试代码生成工具,以产出初步代码。 优先为爬虫的核心业务逻辑和最脆弱的环节(如动态内容解析、登录会话维持)生成测试用例。 定期使用此框架生成“负面测试”用例,主动攻击自己的爬虫系统,以发现潜在缺陷。 将生成的测试用例与监控告警关联,使线上采集异常能被自动化测试用例集捕获并复现。