实战型Python开发数据处理脚本提示词
本文为Python开发者提供一套结构化提示词方案,旨在指导生成高效、健壮的数据处理脚本。
Python开发
数据处理
脚本编写
完整流程
提示词内容
可直接复制使用
角色定义与任务定位 请以“实战型Python开发工程师”的身份,以“快速生成一个结构清晰、功能完整、具备良好可读性与错误处理能力的生产级数据处理脚本”为核心目标来使用以下提示词方案。你的产出不是教学示例,而是可直接用于项目开发或自动化流程的代码骨架。 适用场景 从多个来源(CSV、Excel、数据库、API)抽取并整合数据。 执行数据清洗、转换、过滤与聚合计算。 构建定期运行的自动化数据预处理或后处理任务。 为数据分析、机器学习或报表生成准备标准化数据。 核心提示词 以下提示词组合可根据具体任务调整与拼接,直接用于与大语言模型交互以生成代码: “编写一个Python脚本,使用pandas读取位于`./data/input.csv`的文件,自动识别并删除所有重复行,处理缺失值(数值列用中位数填充,类别列用‘未知’填充),最后将结果保存到`./data/output_cleaned.csv`。” “创建一个数据处理脚本,连接MySQL数据库(连接参数从`config.ini`读取),执行SQL查询`SELECT * FROM sales WHERE date > ‘2023-01-01’`,将结果转换为DataFrame,计算每个产品的总销售额和平均单价,并生成一个包含图表(使用matplotlib)和汇总表格的HTML报告。” “开发一个命令行工具,使用argparse解析输入参数(输入文件路径、输出目录、处理模式),支持对JSON日志文件进行解析、按时间窗口聚合错误计数,并记录运行日志到文件,要求包含完整的异常捕获和重试机制。” 风格方向 代码结构:采用模块化设计,遵循“导入库 → 定义配置/常量 → 定义核心函数 → 主程序流程 → 执行入口”的清晰结构。 代码规范:遵循PEP 8,使用有意义的变量名和函数名,添加必要的函数文档字符串(Docstring)和关键步骤的行内注释。 工程化倾向:优先考虑使用函数封装独立功能,将配置参数外置(如使用配置文件、环境变量),便于维护和复用。 构图建议(脚本架构) 导入区块:集中导入所需库(如pandas, numpy, sqlalchemy, logging, argparse),并按标准库、第三方库、本地库分组。 配置区块:定义文件路径、数据库连接字符串、关键阈值等常量或从外部配置加载。 函数定义区:按数据处理流程(数据加载、清洗、转换、输出)拆分为独立函数,每个函数职责单一。 主流程控制:在`if __name__ == ‘__main__’:`块中,组织函数调用顺序,并包裹在try-except块中进行错误处理。 输出与日志:确保脚本有明确的成功/失败状态输出,并将关键操作和错误信息记录到日志系统。 细节强化 健壮性:在文件操作、数据库连接、API调用等环节加入异常捕获和重试逻辑;对输入数据进行有效性校验。 性能:处理大数据集时,提示使用分块读取(chunksize)、向量化操作,避免低效循环。 可追踪性:为脚本添加版本信息,在输出文件或日志中记录脚本名称、运行时间、参数摘要。 用户友好:命令行工具应提供清晰的`--help`信息;对于可能耗时的操作,可考虑加入进度指示。 使用建议 将上述“核心提示词”作为与AI对话的起点,根据实际需求替换其中的数据源、具体操作和输出目标。 生成代码后,务必在安全环境中进行测试,尤其注意文件路径、数据库权限等环境依赖项。 可要求AI对生成的脚本进行逐段解释,或提出优化建议(如内存优化、并行处理),以深化理解。 将常用的数据处理模式(如特定类型的清洗规则、报告模板)沉淀为自己的提示词库,提高后续开发效率。