数据分析Python脚本编写专业版提示词
本方案为数据分析Python脚本编写提供专业级提示词,先定义开发者角色与目标,再拆解出可落地的代码风格、结构组织、核心操作模板与优化建议,帮助用户直接用于生成高质量、可复用的数据处理脚本。
数据分析
Python脚本编写
数据处理
提示词内容
可直接复制使用
角色定义与任务定位 你应以资深数据分析工程师或Python开发者的身份,为需要快速完成数据清洗、统计建模或自动化报表任务的团队(或自己)编写一套专业、可维护的脚本。目标是:让脚本既满足当下分析需求,又具备良好的可读性、扩展性与异常处理能力,成为团队内部的数据处理标准模板。 适用场景 从CSV、Excel、数据库等源批量导入并清洗数据(缺失值、异常值、重复值处理) 执行分组统计、透视表、时间序列分析等常规探索性数据分析 生成可视化图表(matplotlib/seaborn)并导出为报告附件 将处理结果自动写入数据库或生成汇总Excel文件 构建可复用的数据管道(ETL脚本),支持定时任务或参数化运行 核心提示词 以下提示词可直接复制到ChatGPT或代码生成工具中,用于描述脚本的核心逻辑: “用pandas读取多个CSV文件,按日期列合并,处理缺失值(数值列填充中位数,分类列填充众数),检测并删除超过3个标准差的异常值” “按用户ID分组,计算每月消费总额和消费频次,生成宽表格式,保留注册日期和活跃天数作为额外维度” “使用seaborn绘制每个分组的箱线图,按指标列分面,保存为600dpi的PNG图片并添加标题和图例” “将最终数据写入MySQL数据库的analysis_results表,如果表已存在则先删除再重建,写入时批量commit” “添加argparse参数解析,支持–input_path、–output_mode(excel/db)、–date_range等可选参数” 风格方向 代码规范:严格遵循PEP8,变量名使用snake_case,常量全大写;每行不超过79字符,函数与类之间空两行 注释风格:每个函数头部用docstring描述参数、返回值和示例;关键步骤(如数据透视、合并)旁边加行内注释说明业务含义 模块化:将数据读取、清洗、分析、可视化、导出分别封装为独立函数或类,主程序仅调用流程 日志与调试:使用logging模块记录INFO和WARNING级别日志,异常捕获时输出完整traceback并记录到文件 脚本结构建议 文件头部:模块说明、作者、版本、依赖库清单(requirements.txt引用) 配置区:定义文件路径、数据库连接参数、控制阈值(如缺失率上限)等全局变量 数据读取模块:支持多种格式自动嗅探(csv/xlsx/parquet),统一返回DataFrame并校验列名 清洗模块:分步骤处理——空值、重复、异常、类型转换,每个步骤可作为独立可开关的执行单元 分析模块:聚合统计、相关性计算、特征工程等,结果以字典或DataFrame列表形式返回 可视化模块:接收分析结果,调用绘图函数并保存图像,支持多图拼接 输出模块:灵活选择Excel(多sheet)、数据库、CSV,并提供进度条反馈 主函数、入口点:if __name__ == "__main__": 调用argparse解析参数,依次执行各模块并捕获顶层异常 细节强化 性能优化:对大数据集使用chunksize分块读取,用cudf替换pandas(如果GPU可用),尽量减少链式操作中的中间副本 错误处理:每个文件读取时包裹try/except,记录失败的文件名并跳过;聚合函数遇到空分组时返回NaN而非报错 内存管理:及时del不再使用的大变量,并调用gc.collect();对DataFrame使用inplace减少拷贝 可复现性:在所有随机采样、模型训练步骤前设置seed,并将seed作为参数暴露在配置中 国际化:列名、注释使用英文为主,中文仅用于业务注释;时区统一为UTC,在输出时转为本地时间 使用建议 将核心提示词中的每一条作为独立Prompt输入到代码生成工具中,逐个迭代生成对应的函数体,不要一次性要求生成完整脚本(避免遗漏细节) 运行前先手动准备一批小样本数据(10~100行)做单元测试,确保清洗与分析逻辑正确 将生成的脚本放入项目目录,配合`pre-commit hook`进行PEP8自动检查和类型标注提示(mypy) 对落库输出部分,建议先在本地SQLite数据库测试,通过后再切换到生产环境MySQL/PostgreSQL 每次修改后更新docstring中的版本号,并生成README.md说明输入输出格式