高阶版爬虫采集数据集清洗方案提示词
本提示词方案专为数据工程师与算法研究员设计,提供一套从“创意表达”视角构建数据清洗流程的视觉化与结构化提示框架,将技术流程转化为可生成、可演示的创意资产,助力高效沟通与方案展示。
爬虫采集
数据集清洗
数据清洗
创意表达
提示词内容
可直接复制使用
角色定义与任务定位 请以数据流程可视化架构师的身份,运用本方案。你的核心目标是:将抽象的“爬虫数据采集与清洗”技术方案,转化为一套具象、可视觉化呈现、且逻辑清晰的创意表达框架。这不仅是技术文档,更是用于生成概念图、流程示意图、方案展示稿的“视觉提示词蓝图”,旨在提升技术方案的理解度与沟通效率。 适用场景 为技术方案文档或PPT生成配套的流程概念图。 构思数据清洗流程的可视化演示动画或静态信息图。 为新团队成员或非技术背景人员直观解释数据预处理的关键步骤。 构建具有统一视觉风格的“数据治理”主题创意素材库。 核心提示词 可直接复制并组合使用的提示词序列: 基础流程链:Raw web data crawling → Noisy unstructured data → Data cleaning pipeline → Structured clean dataset 关键动作词:filtering duplicates, parsing and extracting, handling missing values, format standardization, anomaly detection 视觉元素词:data streams, filter nets, transformation gears, purification chambers, structured data blocks 风格方向 科技感信息图风格:使用简洁线条、扁平化图标、半透明图层与流动的数据线,色彩以蓝色、灰色、绿色系为主,体现专业与清晰。 隐喻化视觉风格:将清洗过程比喻为“矿砂筛选”、“水流净化”或“精密仪器加工”,用相关实物隐喻技术步骤。 极简抽象风格:使用几何形状(圆形、矩形、箭头)和色块的变化来代表数据状态的变化,背景干净,聚焦流程本身。 构图建议 采用从左至右的水平流程图构图,象征数据随时间/步骤的演进。 尝试中心放射状构图,将“原始杂乱数据”置于中心,四周放射出多条指向不同清洗步骤(去重、解析、填充等)的路径,最终汇聚成外围的“洁净数据”。 使用分层或嵌套框图,展示“采集层”、“原始数据层”、“清洗处理层”、“成品数据集层”的层级关系。 细节强化 在“爬虫采集”阶段,加入蜘蛛网、抓取钩、流动的网页图标等元素,数据流可呈现为杂乱的、多种颜色的代码片段或标签云。 在“清洗”阶段,强化过滤(漏斗、筛网)、擦洗(橡皮擦、刷子)、修复(拼图结合、针线缝合)的视觉细节。缺失值处理可表现为填充发光的数据块或插值曲线。 在“输出”阶段,洁净数据应表现为排列整齐、规格统一、带有光泽的数据库表格或立方体,与初始的混乱形成鲜明对比。 色彩演进:从采集阶段的混杂色彩,逐步过渡到清洗阶段的中间调和色,最终在成品阶段变为和谐、统一的冷色调或单一品牌色。 使用建议 生成图像时,将“核心提示词”中的流程链与动作词作为主提示,再选择一种“风格方向”和“构图建议”作为风格限定词,最后从“细节强化”中挑选2-3个最相关的细节进行补充描述。 示例组合提示词:“An infographic style illustration of a data cleaning pipeline: Raw web data crawling transforms into Noisy unstructured data, then goes through filtering duplicates and handling missing values, outputting Structured clean dataset. Use a horizontal flow, blue and grey color scheme, with visual metaphors of filter nets and gear mechanisms, clean data blocks at the end.” 此方案同样适用于指导UI/UX设计师设计数据平台后台的管理界面流程,或视频脚本中关于数据清洗环节的可视化分镜构思。