结构化爬虫采集数据处理脚本提示词
本方案定义“数据脚本架构师”角色,提供一套可复用的提示词模板,用于生成从爬虫原始数据到结构化清洗、验证、存储的处理脚本,同时兼顾代码可读性与错误处理,适合直接复制使用或作为AI协作的指令骨架。
爬虫采集
数据处理
脚本编写
创意表达
文本创作
提示词内容
可直接复制使用
角色定义 以“数据脚本架构师”身份出发,目标是为结构化爬虫采集数据设计一套可落地的处理脚本提示词方案。你需要将爬虫原始数据(JSON/CSV/HTML片段)转化为干净、一致、可入库的结构化数据集,同时确保脚本具有模块化、鲁棒性和可维护性。此角色要求同时具备工程思维与文本创作能力,以便在提示词中精确描述数据流、字段规则及异常处理逻辑。 适用场景 爬虫采集后的数据去重、字段格式统一、脏值清洗(如HTML标签剥离、特殊字符过滤) 不同类型数据源的合并、类型转换(字符串→日期/数字) 缺失值填充规则、业务逻辑校验(如邮箱/手机号正则、价格合法性) 需要生成可直接调用或嵌入ETL管道的脚本代码(Python/JavaScript/SQL) 希望将脚本编写过程与注释、文档生成结合的创意表达场景 核心提示词 以下提示词可直接复制修改,用于引导AI或人工编写处理脚本: “你是一位数据清洗工程师。给定以下爬虫采集的JSON数据列表(示例数据附后),请编写一个Python函数,输出清洗后的DataFrame。要求:①去除所有字段中的HTML标签和多余空格;②将'date'字段转为YYYY-MM-DD格式,无效日期标记为NULL;③'price'字段保留两位小数,非数字值设为0;④删除完全重复的行;⑤添加'processed_at'时间戳字段。请为每个步骤添加中文注释。” “设计一个脚本流程,将抓取的文章标题、正文、发布时间、作者、标签五类数据执行以下操作:①提取正文中前120字作为摘要;②将标签按逗号分割并去除首尾空白;③用正则验证邮箱格式,无效邮箱整行标记为error_flag=1;④输出为CSV文件,编码utf-8-sig。请用装饰器实现日志记录每步耗时。” “写一段SQL脚本,从爬虫临时表'temp_crawl_data'中清理数据并入正式表'clean_articles',处理逻辑:①删除content字段为NULL的记录;②将category字段中繁体字转为简体;③将pub_time时间戳统一转为int类型并建立索引。要求每条语句都有注释,并包含回滚保护。” 风格方向 模块化:每个处理阶段(清洗→转换→验证→输出)独立为函数或类,便于复用和单测。 防御式:对每个输入字段做类型断言、空值兜底、异常捕获并记录到错误日志,而不是直接崩溃。 可读性:变量命名遵循爬虫字段语义(如raw_title→cleaned_title),注释采用“做什么+为什么”结构。 创意表达:在脚本头部用多行字符串描述整体数据流,并加入简单的ASCII流程图;在关键分支处用Emoji标记状态(✅成功 / ❌告警)。 构图建议 虽然本提示词面向脚本而非图像,但可将“构图”理解为脚本的结构布局与数据流图: 数据流方向:原始数据 → 输入校验 → 清洗层(去重、格式统一) → 转换层(类型映射、衍生字段) → 验证层(业务规则、异常标记) → 输出层(CSV/数据库/S3) 模块划分:使用if __name__ == "__main__"作为入口,下方依次放置config、input_loader、data_cleaner、data_validator、output_writer五个模块,每个模块内部用空行分割子函数。 视觉提示:在脚本开头用多行注释画出如下简易流程图(每行对齐),便于读者快速把握全貌:# [Crawl Raw] → [Parse] → [Clean] → [Validate] → [Store]# ↑ ↑ ↑# log errors drop nulls check regex 细节强化 错误处理:每个清洗步骤捕获具体异常(ValueError/TypeError),并写入独立日志文件,日志格式包含时间戳、字段名、原始值、错误原因。 性能优化:大数据量时使用pandas chunk迭代或SQL批量更新,避免全表加载;对小数据可配合多线程请求外部数据(如IP属地查询)。 可配置性:将字段映射、正则规则、阈值等抽离为外部YAML/JSON配置文件,脚本只需读取配置,方便非技术人员修改。 文档内嵌:每个函数上方用docstring写明输入/输出示例、依赖、以及可能的边界条件(如空值触发默认值)。 使用建议 根据爬虫数据实际规模选择实现语言:小批量(