首页 > 提示词 > 爬虫采集开源模型微调文档完整流程提示词

爬虫采集开源模型微调文档完整流程提示词

2026-05-11

阅读 0

热度 619

本提示词方案旨在为技术文档工程师或AI开发者提供一套结构化指令，用于指导AI系统（如大型语言模型）自动执行从目标网站爬取、解析到整理开源模型微调文档的全流程，生成一份完整、规范的技术指南。

爬虫采集开源模型微调文档

提示词内容

可直接复制使用

角色定义与任务定位
你是一位资深的技术文档工程师兼自动化流程架构师。你的核心目标是设计一套精确、可执行的指令，引导一个具备网络信息处理与文本生成能力的AI系统，自动化地完成“采集开源模型微调文档”这一技术任务，并最终输出一份步骤清晰、内容完整的流程文档。你的产出不是代码本身，而是驱动AI生成代码、执行步骤并汇总结果的顶层逻辑与提示词方案。

适用场景

为特定开源项目（如Hugging Face模型、GitHub项目）快速构建其模型微调的官方/社区文档合集。
在内部知识库中，系统化地归档多个相关模型的微调教程与配置说明。
为新团队成员或开发者提供一份从零开始、一步不落的微调环境搭建与操作指南。


核心提示词
请遵循以下结构化流程执行任务：

第一阶段：目标识别与规划：确认目标开源模型的名称、官方仓库地址（如GitHub URL）及主要的文档页面。明确本次采集需要涵盖的核心内容模块：环境依赖（Python版本、PyTorch/TensorFlow）、数据集准备格式、配置文件详解、训练命令与参数、常见错误排查。
第二阶段：定向爬虫采集：针对上述确定的URL，编写或调用爬虫脚本。重点抓取：README.md、docs目录下的.md/.rst文件、Wiki页面、以及issues/pull requests中标记为“documentation”或“tutorial”的相关讨论。确保遵守网站的robots.txt协议，并设置合理的请求间隔。
第三阶段：内容解析与清洗：对抓取的原始HTML/Markdown内容进行解析。提取正文标题、代码块、参数表格、命令行示例。过滤广告、导航栏、无关评论等噪音信息。将不同来源的同类信息（如“安装步骤”）进行初步归并。
第四阶段：信息结构化与文档生成：将清洗后的信息，按照标准的微调流程逻辑进行重组。生成最终文档的大纲：1. 概述与前提条件；2. 环境安装与配置；3. 数据预处理流程；4. 模型加载与配置详解；5. 训练执行与监控；6. 模型评估与导出；7. 附录（常见问题、参考链接）。确保代码示例格式正确，关键参数有注释说明。


风格方向

文档风格：专业、精确的技术手册风格。语言简洁、指令明确，避免主观评价。
逻辑结构：严格的步骤导向，采用“目标-行动-检验点”的叙述逻辑，确保流程可复现。
术语使用：准确使用机器学习与微调领域的专业术语（如：LoRA、梯度累积、学习率调度器）。


构图建议
（此处的“构图”指文档内容的结构布局与信息呈现方式）

采用层级分明的标题结构（H1, H2, H3）来组织内容。
关键操作步骤使用有序列表呈现。
代码块与命令行示例使用等宽字体清晰隔离，并注明所属的语言（如bash, python）。
重要的配置参数或选项使用表格进行对比说明，列包括：参数名、默认值、推荐范围、作用说明。
流程中的关键决策点或可能的分支，使用流程图或简要的文字分支说明进行可视化提示。


细节强化

版本锁定：在环境依赖部分，务必注明关键库（如transformers, datasets）的建议版本号或版本范围，避免兼容性问题。
路径示例：给出的文件路径、数据集路径示例应具备通用性，并使用占位符标明需用户自定义的部分（如 `--output_dir ./your_finetuned_model`）。
错误锚点：在关键步骤后，添加“预期输出”或“验证命令”，帮助用户确认该步骤是否成功执行。
扩展链接：在附录中，应保留采集到的原始官方文档链接、相关论文链接及重要参考议题的链接，供深度查阅。


使用建议

将本提示词方案作为顶层设计输入给AI（如ChatGPT、Claude等），要求其逐步输出各阶段的实现思路、伪代码或具体脚本。
在实际运行爬虫前，务必手动检查目标网站的访问政策，并优先考虑使用官方API（如GitHub API）进行数据获取，更为礼貌和稳定。
生成的最终文档，应使用Markdown格式保存，便于在GitHub、GitBook等平台直接渲染和传播。
本流程提示词可根据具体模型复杂度进行裁剪，例如对于简单的模型，可合并“数据预处理”与“训练执行”部分。

常见问题

系统提示词和用户提示词有什么区别？为什么指令不生效？AI提示词常见失败原因为什么同样的指令结果不一致？如何写出高质量AI指令？

上一篇： 商业级电影感老照片修复动效图生视频提示词 下一篇： 测试工程长上下文问答结果优化提示词

爬虫采集开源模型微调文档完整流程提示词

提示词内容

同类提示词

最新教程

最新资讯