菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 提示词 > 高质量爬虫采集PRD需求文档提示词

高质量爬虫采集PRD需求文档提示词

2026-05-07
阅读 0
热度 366

本提示词方案旨在帮助产品经理、技术负责人或需求分析师,系统化地生成一份高质量、结构清晰的爬虫采集需求文档(PRD)。

爬虫采集 PRD 需求文档 高质量 结构化
提示词内容

提示词内容

可直接复制使用
角色定义与任务定位
请以“资深产品经理兼数据需求架构师”的身份,与“技术开发团队”进行沟通。你的核心目标是:撰写一份专业、无歧义、可直接指导开发的《爬虫采集需求文档》,确保数据采集任务的目标、范围、规则与技术实现路径清晰明确,规避后续开发中的理解偏差与返工风险。

适用场景

为内部数据中台或业务部门规划定向数据采集项目。
向外包技术团队或内部开发小组交付爬虫开发任务。
规范数据来源,为机器学习、市场分析或竞品研究提供结构化数据供给。


核心提示词
(以下提示词模块可直接组合使用,填入具体项目信息)

项目概述:编写一份关于“[具体数据主题,如:电商平台商品价格]”数据采集的需求文档。项目名称为“[项目名称]”,核心目标是采集“[目标网站或APP]”中关于“[具体数据字段,如:商品标题、价格、销量、评论]”的结构化数据,用于支撑“[具体业务用途,如:价格监控报告]”。
采集范围与目标:明确界定采集的网站/栏目URL列表(或启动URL),以及需要翻页/遍历的深度。定义清晰的数据采集边界,例如:仅采集列表页前10页、仅采集特定时间范围内的信息、排除某些特定卖家或商品类目。
数据字段定义:以表格形式列出每个待采集字段的名称、中文描述、示例值、是否必填、以及在后端数据库中的建议字段类型(如:VARCHAR, INT, DATETIME)。例如:字段名`product_price`,描述“商品当前售价”,示例“129.00”,必填是,类型`DECIMAL(10,2)`。
反爬策略与伦理要求:声明必须遵守的爬虫伦理,包括遵守目标网站的robots.txt协议、设置合理的请求频率(如:每秒请求数低于1)、使用代理IP池轮换、以及采集数据仅用于声明过的内部分析用途。明确是否需要处理登录、验证码、动态JS加载等技术难点。
交付物与质量要求:指定数据交付格式(如:JSON文件、CSV文件或直接入库到MySQL/MongoDB),数据更新频率(如:每日全量更新/增量更新),以及数据质量校验规则(如:字段缺失率低于1%、数据去重规则)。


风格方向

文档风格:采用技术规范文档的严谨、结构化写作风格,避免口语化和模糊词汇(如“大概”、“可能”)。
表达基调:客观、精确、可验证。多使用“必须”、“应当”、“禁止”等明确要求的词语,并对关键术语进行统一定义。


构图建议(信息组织框架)

顶层结构:建议文档按“1. 项目背景与目标 -> 2. 采集范围与边界 -> 3. 详细数据字段定义 -> 4. 技术实现要求与约束 -> 5. 交付与验收标准 -> 6. 附录(URL列表、示例响应片段)”的顺序组织。
重点突出:使用加粗或小标题突出“禁止事项”和“核心质量指标”,将技术细节(如请求头设置、解析XPath/CSS选择器)放入独立章节或附录。


细节强化

提供示例:在附录中,提供1-2个目标页面的HTML片段,并标注出关键数据对应的提取路径(XPath或CSS选择器),这是消除开发歧义最有效的方法。
预设异常处理:明确说明当遇到网络超时、页面结构变更、数据缺失等情况时,期望的应对策略(如:重试3次、记录错误日志并跳过、触发告警通知)。
明确协作节点:定义产品、开发、测试各方在需求评审、测试数据验收等环节的输入输出物与确认标准。


使用建议

在使用本提示词生成PRD初稿后,务必邀请技术负责人进行评审,针对“技术实现要求”部分进行细化补充。
将“核心提示词”中的括号“[ ]”内容替换为您的具体项目信息,即可快速搭建文档骨架。
此方案产出的内容,可直接用于创建Confluence文档、GitHub Issue或项目管理工具(如Jira)中的开发任务描述,实现需求与开发的无缝对接。
同类提示词

同类提示词