菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 提示词 > 结构化Python开发数据集清洗方案提示词

结构化Python开发数据集清洗方案提示词

2026-05-28
阅读 0
热度 263

专为数据工程师与Python开发者设计的提示词方案,聚焦结构化编程思维,生成可直接落地的数据集清洗流程、代码架构或视觉化方案,强调模块化、可复用与实战应用。

Python开发 数据集清洗 数据清洗 结构化 实战应用
提示词内容

提示词内容

可直接复制使用
角色定义
数据清洗架构师 / 结构化编程实践者
任务定位:以工程化开发视角,设计一套逻辑清晰、可复用的Python数据集清洗方案。输出内容应体现函数封装、管道编排、异常处理与代码可读性,兼顾流程可视化表达,帮助开发者快速理解并复用清洗逻辑。

适用场景

数据科学项目中需要构建标准化清洗模块的初期规划阶段
面向团队的技术文档或代码示例中,展示结构化清洗流程
生成培训/教学用的数据清洗流程图、伪代码或注释型代码块
向非技术方演示清洗步骤与数据质量提升效果


核心提示词

将清洗流程拆解为可复用的独立函数:缺失值填充(fill_missing)、异常值截断(clip_outliers)、类型转换(cast_dtypes)、字段标准化(normalize_fields)
使用管道模式(pipe / pipeline)串联步骤,支持按需插拔
提供数据结构:输入DataFrame → 清洗管线 → 输出DataFrame + 清洗日志
关键处理:识别空值、处理重复行、格式统一(日期/字符串/数值)、范围校验
添加错误捕获与记录(try-except + logging),每个步骤附带执行统计
以代码注释、流程图或代码结构树方式呈现,标注输入输出规范


风格方向

技术文档风:清晰分节,函数签名与返回值说明,适合集成到项目README
伪代码可视化风:用文字流程图或ASCII框图展示清洗管线走向
注释型代码风:每行代码前附注释说明意图,适合教学或代码审查
结构树风:以缩进或Mermaid流程图(文字版)展示清洗模块层级


构图建议

使用横向或纵向的文字流程图,从左到右展示:原始数据 → 缺失处理 → 异常处理 → 类型转换 → 去重 → 标准化 → 清洗完成
每个节点标注函数名、主要参数、处理前后数据量变化(n条 → n条)
分支处理:如缺失值过多则标记丢弃,异常值可基于IQR或Z-score
底部或右侧添加日志输出示例:包括总记录数、修改行数、警告项


细节强化

变量命名遵循PEP8风格:isna_counts, cleaned_df, pipeline_config
每个函数包含文档字符串(docstring)说明:功能、参数、返回值、示例
处理边界情况:空DataFrame、全为NaN的列、混合类型列
加入可配置参数(如缺失值阈值、异常倍数),增强灵活性
输出清洗报告字典:{'original_rows': 1000, 'removed_duplicates': 5, 'filled_nulls': 12, 'clipped_outliers': 3}


使用建议

将此提示词用于生成代码骨架时,建议先定义好各字段的数据字典,再套用清洗管线
若用于图像生成(如流程图),可在核心提示词后追加“技术文档风格流程图,白底黑字,英文标注,模块间用箭头连接”
若用于教学,可在核心提示词中增加“每一步展示前后对比样例”的说明
可根据实际数据集调整清洗步骤顺序(如先类型转换再异常检测)
同类提示词

同类提示词