爬虫采集PRD需求文档实战版提示词
本提示词方案专为产品经理、需求分析师及技术文档工程师设计,提供一套结构化、可执行的爬虫数据采集需求描述框架,旨在将模糊的业务需求转化为清晰、无歧义的技术实施文档,提升团队协作与开发效率。
爬虫采集
PRD
需求文档
结构化
提示词内容
可直接复制使用
角色定义与任务定位 请以“资深产品需求分析师”或“技术型产品经理”的身份,运用此提示词方案。你的核心目标是:将一项关于“通过网络爬虫采集特定数据”的业务需求,系统化地梳理并撰写成一份结构清晰、要素完整、技术团队可无歧义理解与执行的《爬虫采集PRD(产品需求文档)》。 适用场景 为内部数据分析、市场研究或竞品分析项目,定义外部公开数据源的采集需求。 为开发团队撰写爬虫系统或数据中台项目的功能性需求说明书。 在项目启动初期,标准化数据采集需求的描述方式,对齐产品、技术与业务方的理解。 核心提示词(可直接复制使用) 【采集目标】:明确需要采集的网站/平台名称(如:知乎话题页、某电商平台商品列表页)。 【数据字段】:结构化定义每个需要抓取的字段,例如:`[标题, 发布时间, 作者, 正文内容, 点赞数, 评论列表]`。 【采集范围与规则】:限定条件,如:`时间范围:2023年1月至今;关键词过滤:包含“人工智能”;分页规则:采集前10页列表。` 【频率与量级】:`采集频率:每日一次增量更新;预估数据量:每次约500条记录。` 【输出格式】:`要求以JSON格式输出,并按“采集日期_网站名”的规则命名文件。` 风格方向 文档风格:采用技术文档的严谨性与PRD的用户故事(User Story)框架相结合的风格。语言精确、客观,避免形容词和模糊表述。 视觉隐喻:在构思时,可想象文档如同“数据采集的工程蓝图”或“给爬虫程序的操作手册”,强调逻辑流与数据流。 构图建议(信息组织框架) 采用“总-分-总”结构组织文档内容:先概述项目背景与目标,再分模块详述需求,最后明确验收标准与非功能性要求。 核心部分建议按以下模块展开:1. 项目概述;2. 采集源说明;3. 数据字段定义表;4. 采集策略(频率、去重、反爬应对);5. 输出与存储规范;6. 验收标准。 细节强化 反爬策略考虑:需明确说明对目标网站Robots协议的尊重程度、请求间隔(如:每秒1次)、是否需要模拟登录或处理验证码。 数据清洗要求:指明采集后的初步处理要求,例如:`去除HTML标签、对异常空值进行标识、统一日期格式为YYYY-MM-DD`。 异常处理:定义采集失败、网站改版、数据结构异常等情况下的处理机制与通知方式。 色彩/氛围提示:在文档视觉设计上,可采用冷色调(如蓝色、灰色)突出专业与理性;用高亮色清晰标注“必填字段”、“风险点”和“优先级”。 使用建议 将“核心提示词”中的括号【】内容替换为您的具体项目信息,即可快速搭建PRD主干。 在“数据字段定义”部分,务必与后端开发或数据分析师确认字段定义的准确性与可获取性。 此方案不仅适用于文本型PRD,亦可作为视觉化需求看板(如Axure, Figma)内容布局的结构化指导。 定期根据爬虫开发反馈,迭代更新此PRD,将其作为动态文档管理。