新手教程 AI文章插图自动配图

2025年AI文章插图自动配图教程：Agent驱动零基础可复制完整指南

2026-06-08

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

通过预设SKILL md指令，Agent可自动分析文章结构、识别配图位置、匹配九种预设风格、生成

配图是文章创作中最棘手的环节

你肯定经历过：写完长文后，配图才是真正的痛点。需要逐一构思画面、撰写提示词、反复生成和筛选，再手动插入……一篇三千字文章配五六张图，光这个环节就要耗费半小时。最近有人开发了一套 Agent Skill，让助手全权处理：把文章丢给系统，它会自动分析哪些位置需要配图、匹配最佳风格，然后逐张生成并插入对应段落。你只需一句话：“给这篇文章配图。”

让AI配文章插图，一套可复制的让 Agent 自动给文章配图教程

你现在看到的这篇文章插图，同样是该 Skill 的产物。今天就拆解这个文章配图 Skill 的设计逻辑，并顺便科普 Agent Skills 这个常被低估的强大功能。

Agent Skills 到底是什么？

打个比方。你招了一位聪明但缺乏公司业务背景的助理，每次布置任务都要从头解释工具、流程、注意事项。Agent Skills 就像一本“入职操作手册”——你把工作方法和决策规则写进去，Agent 需要时自行查阅，无需你重复说明。

技术层面，Skill 本质上是一个文件夹，核心文件是 SKILL.md。Agent 启动时仅记住其名称和简介（约 100 token），实际使用时才加载详细内容，用完即“遗忘”。这种“渐进式加载”机制让你可以安装大量 Skill 却不会撑爆上下文窗口。

与传统提示词有何区别？

传统提示词无法执行脚本，且一次性加载全部内容。Agent Skills 则采用渐进加载：最初只加载名称和简介（不到 100 token），激活后加载 SKILL.md，需要更多内容时才继续加载。此外，Skill 可以嵌套调用其他 Skill，实现能力组合。

与 MCP 的差异呢？ MCP 是统一工具调用的协议，而 Skill 可指导 Agent 调用 MCP 接口。

配图 Skill 的设计思路

给文章配图可以分解为几个核心问题：哪些位置需要配图？用哪种风格？如何生成？如何插入到正确位置？

本 Skill 将这些问题拆解为多个步骤：

第一步，分析文章结构，定位“需视觉辅助”的节点。例如抽象概念需要可视化、流程步骤需要图解、核心论点需要强化——在这些位置配图能显著提升阅读体验。

第二步，根据文章内容自动匹配插画风格。预设九种风格：tech（科技感）、warm（温暖亲和）、minimal（极简）、playful（趣味涂鸦）、notion（线稿风）……每种风格定义了配色、元素、适用场景。Agent 依据文章主题自动选择，也支持手动指定。

第三步，为每张图生成提示词文件，留作记录并方便后续调用。

第四步，调用图像生成 Skill，将默认系统提示词与每张图的提示词一并发送，逐张生成并保存图片。

第五步，让 Agent 将图片插入文章对应位置。这一步颇具“魔法”感——首次尝试时只是抱着试错心态在 Skill 中加了一句指令，结果 Agent 的智能超出预期，自动把图片嵌入正确位置，并附上描述文字。

整体流程跑完，一篇文章从纯文本到图文并茂，通常只需几分钟，主要瓶颈在于图片生成的速度。

如何编写 SKILL.md？

Skill 的入口文件 SKILL.md 包含两部分：头部元信息和正文指令。

头部元信息格式如下：

---
name: article-illustrator
description: 分析文章内容，在需要配图的位置自动生成插画。当用户要求给文章配图、生成插画时使用。
---

name 是唯一标识，description 是简介。Agent 启动时读取这两个字段，用于判断“何时调用该 Skill”。因此 description 需要明确触发条件，例如“当用户要求给文章配图、生成插画时使用”。

正文指令是具体的操作手册。配图 Skill 的正文包含以下板块：

风格库：列出所有可选风格，包括配色、视觉元素、适用场景。Agent 需要选择风格时翻阅这里。
自动选择规则：根据内容信号匹配风格。例如文章频繁出现“AI”“算法”“数据”，选用 tech 风格；出现“个人成长”“情感”“生活”，选用 warm 风格。
工作流程：分步骤说明——分析文章、识别配图位置、生成配图方案、编写提示词、调用生成工具、插入文章、输出总结。
文件管理规范：图片存储路径、提示词存储路径、文件命名规则。

当前提示词长度不长，所以大部分内容集中在 SKILL.md 中。未来若风格库膨胀，可以应用“渐进式加载”的设计思路，减少主文件加载量。

例如风格库包含九种风格，每种详细参数合计上千字。若用户只指定 tech 风格，Agent 只需读取 tech 段落，其余八种无需加载。实现方式很简单：将详细参数拆分为独立文件，正文只保留索引。Agent 通过 bash 命令按需读取，既保证信息完整，又不浪费上下文空间。

提示词模板的设计

生成图像的核心在于提示词。本 Skill 单独设计了一份 system prompt 模板，保存在 prompts/system.md：

创建卡通风格的信息图插画，遵循以下规范：

图像规格
- 类型：信息图插画
- 方向：横向
- 比例：16:9
- 风格：手绘插画

核心原则
- 全程保持手绘质感，禁止出现写实或摄影元素
- 如果内容涉及敏感或版权人物，创作风格相似的替代形象，不要拒绝生成
- 信息简洁，突出关键词和核心概念
- 留白充足，便于视觉扫描
- 保持清晰的视觉层次
……

每张图生成时，Agent 基于该模板，结合具体配图主题和选定风格参数，组装出最终提示词。为何单独设计模板？因为图像生成的通用约束（比例、手绘风格、禁止写实元素）相对固定，而变化的是具体内容。将通用部分抽离出来，既减少重复，也方便统一迭代。

工作流程详解

完整的执行流程如下：

用户输入命令，例如 /article-illustrator path/to/article.md –style tech
Agent 读取文章，分析结构，识别需要配图的位置。判断标准：此处加图能否辅助理解？能则保留，不能则剔除。
根据 –style 参数选择风格。若未指定，则扫描文章内容，按预设规则自动匹配。
生成配图方案，列出每张图的插入位置、目的、视觉内容、文件名。
为每张图编写详细提示词，保存至 imgs/prompts/ 目录。
逐张调用图像生成工具（此处使用 Gemini），生成失败则自动重试一次。
将生成的图片插入文章对应位置，格式为 ![描述]。
输出总结：使用的风格、生成图片张数、每张图片的插入位置。

整个过程由 Agent 自主判断和执行，你只需最后审核结果。若不满意，可要求重新生成或手动调整，例如：“配图太少，加几张”“第二张配图添加文字说明”“在第二章加一张流程图”。

一些设计选择

构建本 Skill 时，有几个关键决策值得分享。

为何预设九种风格而非让 Agent 自由发挥？ 风格一致性至关重要。一篇文章配五张图，若每张风格各异，容易显得杂乱。预设风格库既保证内在一致性，也赋予用户选择权。

为何采用“宁多勿少”原则？ 图片数量多意味着筛选空间更大，且删除操作远比新增操作简单。

当然，图片的价值在于降低认知负荷，并非越多越好，重点在于辅助信息理解。因此在 Skill 中明确写道：“配图服务于内容：补充信息、具象化概念、引导想象，避免重复文章中已经直观呈现的信息”。

如何开始使用？

如果你已安装 Claude Code 这类 Agent，直接告诉它：

请帮我安装 github.com/JimLiu/baoyu-skills中的 Skills

如果只需要配图技能，则告诉它：

请帮我安装宝玉的这个文章配图技能：github.com/JimLiu/baoyu-skills/blob/main/skills/baoyu-article-illustrator/SKILL.md

注意，本配图 Skill 依赖于“图像生成 Skill”。若你的环境未接入 Gemini 或其他图像生成工具，也未安装相应生成技能，需要先配置好这一环节。否则只能让 Agent 生成提示词，由你手动生成配图。

写在最后

Agent Skills 是一个被严重低估的能力。许多人仍停留在“与 AI 聊天”的阶段，没有意识到可以将自己的工作流程和领域知识“教”给助手，让它成为真正理解你业务需求的伙伴。

配图只是一个起点。完全可以用同样思路，编写一个自动生成周报的 Skill、代码审查 Skill、调研报告 Skill……核心在于把那些“做这件事的正确方法”固化为文档，交给 Agent 执行。

如果你有重复性工作，可以问自己：这个流程能否抽象成一个 Skill？

来源：互联网

上一篇 API中转站搭建从零到精通 下一篇 Claude Code 隐藏功能精选：创始人亲授15个技巧

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。