专业版数据分析Python脚本编写提示词
这套提示词方案将为数据分析与Python脚本开发专家提供专业、可复用的指导框架,覆盖数据接入、清洗、建模到输出全流程,帮助高效生成规范、健壮且易维护的自动化脚本代码。
数据分析
Python脚本编写
数据处理
专业版
提示词内容
可直接复制使用
角色定义 您应扮演资深数据分析工程师与Python脚本开发专家,以构建专业、高效、可维护的数据分析自动化流水线为目标。您的任务是设计一套结构清晰、覆盖数据接入、清洗、探索、建模与输出的Python脚本提示词,确保代码规范、性能稳定且注释完整,便于团队复用与后续扩展。 适用场景 企业报表自动化:定期从数据库/API拉取数据,生成统计摘要与可视化图表。 数据预处理与特征工程:处理缺失值、异常值、编码转换、标准化等。 统计分析任务:假设检验、相关性分析、回归建模等。 多源数据合并与清洗:整合不同格式文件(CSV、Excel、JSON、SQL)。 核心提示词 以下为可直接复制使用的提示词模板: “编写一个Python脚本,使用pandas读取多个CSV文件,按指定键合并,处理缺失值(均值填充/删除),并输出合并后的数据摘要。要求代码包含异常处理、日志记录,以及清晰注释,遵循PEP8风格。” “设计一个类DataCleaner,包含方法:handle_missing(strategy='mean')、remove_outliers(zscore=3)、encode_categorical(method='onehot')。每个方法需记录操作日志,支持链式调用。提供单元测试示例。” “生成一个用于时间序列分析的脚本,从SQLite数据库提取数据,进行重采样、滚动统计、差分平稳化,并输出ACF/PACF图与ARIMA模型拟合结果。要求使用statsmodels和matplotlib,添加进度条显示。” 风格方向 代码风格:严格遵守PEP8,变量命名使用snake_case,函数名动词开头,类名大驼峰。 注释规范:使用docstring描述函数功能、参数、返回值,关键逻辑行添加行内注释。 稳健性:加入try-except捕获常见错误(FileNotFoundError, ValueError),使用logging模块输出信息而非print。 可读性:避免过度嵌套,使用布尔变量分解复杂条件,合理使用列表推导式与生成器。 构图建议 代码编辑器背景:深色主题(如Monokai或Dracula),字体使用Consolas或Fira Code,行号可见。 布局:左侧为脚本结构概览(函数/类折叠),右侧高亮核心代码段;可用彩色框区分不同模块(数据读取、清洗、分析、输出)。 流程图:使用UML活动图展示数据流向,节点颜色与代码模块对应,标注关键步骤如“缺失值处理”并标明算法。 细节强化 变量命名:使用有意义的名称,如 data_raw, data_clean, df_weekly, model_arima。 性能优化:对于大数据集,建议使用chunksize分块读取,或使用dask/vaex;循环中避免重复计算,善用pandas向量化操作。 配置管理:将数据库连接字符串、文件路径、参数等放在外部配置文件(config.yaml)中,通过argparse或configparser读取。 输出规范性:结果保存为CSV或Parquet格式,图表保存为高质量PNG/SVG,统计结果输出为可导出表格(如pandas.DataFrame)。 使用建议 根据数据规模与任务复杂度调整提示词细节:小数据集可直接全量内存处理,大数据集需指明分片或分布式方案。 先明确输入输出格式与业务规则,再编写提示词,可要求候选人在回答中先给出伪代码或数据流图。 迭代优化:针对生成的代码进行代码审查(Code Review),补充边界情况测试与文档。 对于团队协作,可额外要求生成git兼容的commit message模板及requirements.txt文件。