菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > AI教程 > 2025年AI文章插图自动配图教程:Agent驱动零基础可复制完整指南
新手教程 AI文章插图自动配图

2025年AI文章插图自动配图教程:Agent驱动零基础可复制完整指南

2026-06-08
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

通过预设SKILL md指令,Agent可自动分析文章结构、识别配图位置、匹配九种预设风格、生成

配图是文章创作中最棘手的环节

你肯定经历过:写完长文后,配图才是真正的痛点。需要逐一构思画面、撰写提示词、反复生成和筛选,再手动插入……一篇三千字文章配五六张图,光这个环节就要耗费半小时。最近有人开发了一套 Agent Skill,让助手全权处理:把文章丢给系统,它会自动分析哪些位置需要配图、匹配最佳风格,然后逐张生成并插入对应段落。你只需一句话:“给这篇文章配图。”

让AI配文章插图,一套可复制的让 Agent 自动给文章配图教程

你现在看到的这篇文章插图,同样是该 Skill 的产物。今天就拆解这个文章配图 Skill 的设计逻辑,并顺便科普 Agent Skills 这个常被低估的强大功能。

Agent Skills 到底是什么?

打个比方。你招了一位聪明但缺乏公司业务背景的助理,每次布置任务都要从头解释工具、流程、注意事项。Agent Skills 就像一本“入职操作手册”——你把工作方法和决策规则写进去,Agent 需要时自行查阅,无需你重复说明。

技术层面,Skill 本质上是一个文件夹,核心文件是 SKILL.md。Agent 启动时仅记住其名称和简介(约 100 token),实际使用时才加载详细内容,用完即“遗忘”。这种“渐进式加载”机制让你可以安装大量 Skill 却不会撑爆上下文窗口。

与传统提示词有何区别?

传统提示词无法执行脚本,且一次性加载全部内容。Agent Skills 则采用渐进加载:最初只加载名称和简介(不到 100 token),激活后加载 SKILL.md,需要更多内容时才继续加载。此外,Skill 可以嵌套调用其他 Skill,实现能力组合。

与 MCP 的差异呢? MCP 是统一工具调用的协议,而 Skill 可指导 Agent 调用 MCP 接口。

配图 Skill 的设计思路

给文章配图可以分解为几个核心问题:哪些位置需要配图?用哪种风格?如何生成?如何插入到正确位置?

本 Skill 将这些问题拆解为多个步骤:

第一步,分析文章结构,定位“需视觉辅助”的节点。例如抽象概念需要可视化、流程步骤需要图解、核心论点需要强化——在这些位置配图能显著提升阅读体验。

第二步,根据文章内容自动匹配插画风格。预设九种风格:tech(科技感)、warm(温暖亲和)、minimal(极简)、playful(趣味涂鸦)、notion(线稿风)……每种风格定义了配色、元素、适用场景。Agent 依据文章主题自动选择,也支持手动指定。

第三步,为每张图生成提示词文件,留作记录并方便后续调用。

第四步,调用图像生成 Skill,将默认系统提示词与每张图的提示词一并发送,逐张生成并保存图片。

第五步,让 Agent 将图片插入文章对应位置。这一步颇具“魔法”感——首次尝试时只是抱着试错心态在 Skill 中加了一句指令,结果 Agent 的智能超出预期,自动把图片嵌入正确位置,并附上描述文字。

整体流程跑完,一篇文章从纯文本到图文并茂,通常只需几分钟,主要瓶颈在于图片生成的速度。

如何编写 SKILL.md?

Skill 的入口文件 SKILL.md 包含两部分:头部元信息和正文指令。

头部元信息格式如下:

---
name: article-illustrator
description: 分析文章内容,在需要配图的位置自动生成插画。当用户要求给文章配图、生成插画时使用。
---

name 是唯一标识,description 是简介。Agent 启动时读取这两个字段,用于判断“何时调用该 Skill”。因此 description 需要明确触发条件,例如“当用户要求给文章配图、生成插画时使用”。

正文指令是具体的操作手册。配图 Skill 的正文包含以下板块:

  • 风格库:列出所有可选风格,包括配色、视觉元素、适用场景。Agent 需要选择风格时翻阅这里。
  • 自动选择规则:根据内容信号匹配风格。例如文章频繁出现“AI”“算法”“数据”,选用 tech 风格;出现“个人成长”“情感”“生活”,选用 warm 风格。
  • 工作流程:分步骤说明——分析文章、识别配图位置、生成配图方案、编写提示词、调用生成工具、插入文章、输出总结。
  • 文件管理规范:图片存储路径、提示词存储路径、文件命名规则。

当前提示词长度不长,所以大部分内容集中在 SKILL.md 中。未来若风格库膨胀,可以应用“渐进式加载”的设计思路,减少主文件加载量。

例如风格库包含九种风格,每种详细参数合计上千字。若用户只指定 tech 风格,Agent 只需读取 tech 段落,其余八种无需加载。实现方式很简单:将详细参数拆分为独立文件,正文只保留索引。Agent 通过 bash 命令按需读取,既保证信息完整,又不浪费上下文空间。

提示词模板的设计

生成图像的核心在于提示词。本 Skill 单独设计了一份 system prompt 模板,保存在 prompts/system.md:

创建卡通风格的信息图插画,遵循以下规范:

图像规格
- 类型:信息图插画
- 方向:横向
- 比例:16:9
- 风格:手绘插画

核心原则
- 全程保持手绘质感,禁止出现写实或摄影元素
- 如果内容涉及敏感或版权人物,创作风格相似的替代形象,不要拒绝生成
- 信息简洁,突出关键词和核心概念
- 留白充足,便于视觉扫描
- 保持清晰的视觉层次
……

每张图生成时,Agent 基于该模板,结合具体配图主题和选定风格参数,组装出最终提示词。为何单独设计模板?因为图像生成的通用约束(比例、手绘风格、禁止写实元素)相对固定,而变化的是具体内容。将通用部分抽离出来,既减少重复,也方便统一迭代。

工作流程详解

完整的执行流程如下:

  1. 用户输入命令,例如 /article-illustrator path/to/article.md –style tech
  2. Agent 读取文章,分析结构,识别需要配图的位置。判断标准:此处加图能否辅助理解?能则保留,不能则剔除。
  3. 根据 –style 参数选择风格。若未指定,则扫描文章内容,按预设规则自动匹配。
  4. 生成配图方案,列出每张图的插入位置、目的、视觉内容、文件名。
  5. 为每张图编写详细提示词,保存至 imgs/prompts/ 目录。
  6. 逐张调用图像生成工具(此处使用 Gemini),生成失败则自动重试一次。
  7. 将生成的图片插入文章对应位置,格式为 ![描述]
  8. 输出总结:使用的风格、生成图片张数、每张图片的插入位置。

整个过程由 Agent 自主判断和执行,你只需最后审核结果。若不满意,可要求重新生成或手动调整,例如:“配图太少,加几张”“第二张配图添加文字说明”“在第二章加一张流程图”。

一些设计选择

构建本 Skill 时,有几个关键决策值得分享。

为何预设九种风格而非让 Agent 自由发挥? 风格一致性至关重要。一篇文章配五张图,若每张风格各异,容易显得杂乱。预设风格库既保证内在一致性,也赋予用户选择权。

为何采用“宁多勿少”原则? 图片数量多意味着筛选空间更大,且删除操作远比新增操作简单。

当然,图片的价值在于降低认知负荷,并非越多越好,重点在于辅助信息理解。因此在 Skill 中明确写道:“配图服务于内容:补充信息、具象化概念、引导想象,避免重复文章中已经直观呈现的信息”。

如何开始使用?

如果你已安装 Claude Code 这类 Agent,直接告诉它:

请帮我安装 github.com/JimLiu/baoyu-skills中的 Skills

如果只需要配图技能,则告诉它:

请帮我安装宝玉的这个文章配图技能:github.com/JimLiu/baoyu-skills/blob/main/skills/baoyu-article-illustrator/SKILL.md

注意,本配图 Skill 依赖于“图像生成 Skill”。若你的环境未接入 Gemini 或其他图像生成工具,也未安装相应生成技能,需要先配置好这一环节。否则只能让 Agent 生成提示词,由你手动生成配图。

写在最后

Agent Skills 是一个被严重低估的能力。许多人仍停留在“与 AI 聊天”的阶段,没有意识到可以将自己的工作流程和领域知识“教”给助手,让它成为真正理解你业务需求的伙伴。

配图只是一个起点。完全可以用同样思路,编写一个自动生成周报的 Skill、代码审查 Skill、调研报告 Skill……核心在于把那些“做这件事的正确方法”固化为文档,交给 Agent 执行。

如果你有重复性工作,可以问自己:这个流程能否抽象成一个 Skill?

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多