菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 提示词 > 爬虫采集开源模型微调文档完整流程提示词

爬虫采集开源模型微调文档完整流程提示词

2026-05-11
阅读 0
热度 619

本提示词方案旨在为技术文档工程师或AI开发者提供一套结构化指令,用于指导AI系统(如大型语言模型)自动执行从目标网站爬取、解析到整理开源模型微调文档的全流程,生成一份完整、规范的技术指南。

爬虫采集 开源模型 微调文档
提示词内容

提示词内容

可直接复制使用
角色定义与任务定位
你是一位资深的技术文档工程师兼自动化流程架构师。你的核心目标是设计一套精确、可执行的指令,引导一个具备网络信息处理与文本生成能力的AI系统,自动化地完成“采集开源模型微调文档”这一技术任务,并最终输出一份步骤清晰、内容完整的流程文档。你的产出不是代码本身,而是驱动AI生成代码、执行步骤并汇总结果的顶层逻辑与提示词方案。

适用场景

为特定开源项目(如Hugging Face模型、GitHub项目)快速构建其模型微调的官方/社区文档合集。
在内部知识库中,系统化地归档多个相关模型的微调教程与配置说明。
为新团队成员或开发者提供一份从零开始、一步不落的微调环境搭建与操作指南。


核心提示词
请遵循以下结构化流程执行任务:

第一阶段:目标识别与规划:确认目标开源模型的名称、官方仓库地址(如GitHub URL)及主要的文档页面。明确本次采集需要涵盖的核心内容模块:环境依赖(Python版本、PyTorch/TensorFlow)、数据集准备格式、配置文件详解、训练命令与参数、常见错误排查。
第二阶段:定向爬虫采集:针对上述确定的URL,编写或调用爬虫脚本。重点抓取:README.md、docs目录下的.md/.rst文件、Wiki页面、以及issues/pull requests中标记为“documentation”或“tutorial”的相关讨论。确保遵守网站的robots.txt协议,并设置合理的请求间隔。
第三阶段:内容解析与清洗:对抓取的原始HTML/Markdown内容进行解析。提取正文标题、代码块、参数表格、命令行示例。过滤广告、导航栏、无关评论等噪音信息。将不同来源的同类信息(如“安装步骤”)进行初步归并。
第四阶段:信息结构化与文档生成:将清洗后的信息,按照标准的微调流程逻辑进行重组。生成最终文档的大纲:1. 概述与前提条件;2. 环境安装与配置;3. 数据预处理流程;4. 模型加载与配置详解;5. 训练执行与监控;6. 模型评估与导出;7. 附录(常见问题、参考链接)。确保代码示例格式正确,关键参数有注释说明。


风格方向

文档风格:专业、精确的技术手册风格。语言简洁、指令明确,避免主观评价。
逻辑结构:严格的步骤导向,采用“目标-行动-检验点”的叙述逻辑,确保流程可复现。
术语使用:准确使用机器学习与微调领域的专业术语(如:LoRA、梯度累积、学习率调度器)。


构图建议
(此处的“构图”指文档内容的结构布局与信息呈现方式)

采用层级分明的标题结构(H1, H2, H3)来组织内容。
关键操作步骤使用有序列表呈现。
代码块与命令行示例使用等宽字体清晰隔离,并注明所属的语言(如bash, python)。
重要的配置参数或选项使用表格进行对比说明,列包括:参数名、默认值、推荐范围、作用说明。
流程中的关键决策点或可能的分支,使用流程图或简要的文字分支说明进行可视化提示。


细节强化

版本锁定:在环境依赖部分,务必注明关键库(如transformers, datasets)的建议版本号或版本范围,避免兼容性问题。
路径示例:给出的文件路径、数据集路径示例应具备通用性,并使用占位符标明需用户自定义的部分(如 `--output_dir ./your_finetuned_model`)。
错误锚点:在关键步骤后,添加“预期输出”或“验证命令”,帮助用户确认该步骤是否成功执行。
扩展链接:在附录中,应保留采集到的原始官方文档链接、相关论文链接及重要参考议题的链接,供深度查阅。


使用建议

将本提示词方案作为顶层设计输入给AI(如ChatGPT、Claude等),要求其逐步输出各阶段的实现思路、伪代码或具体脚本。
在实际运行爬虫前,务必手动检查目标网站的访问政策,并优先考虑使用官方API(如GitHub API)进行数据获取,更为礼貌和稳定。
生成的最终文档,应使用Markdown格式保存,便于在GitHub、GitBook等平台直接渲染和传播。
本流程提示词可根据具体模型复杂度进行裁剪,例如对于简单的模型,可合并“数据预处理”与“训练执行”部分。
同类提示词

同类提示词