其他资讯语言模型

IBM模块化AI开发工具：像搭建软件般构建大语言模型

2026-06-05

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

先给出一个核心结论：AI产业正站在关键分水岭上。回想数年前，AI领域的顶级成果还只是

先给出一个核心结论：AI产业正站在关键分水岭上。回想数年前，AI领域的顶级成果还只是根据文字描述生成一张勉强合格的图片。短短几年，AI能力经历了寒武纪式的爆发——如今不仅能撰写逻辑通顺的文章，还能驱动企业级工作流，甚至协调多智能体自主管理整个应用程序。

但问题随之而来：尽管进步如此迅猛，我们构建与使用AI模型的方式，与其他软件之间依然存在鸿沟。企业用户渴望精准且高效的模型，但对大多数开发者而言，实现这一目标困难重重。根本原因在于，我们很难将AI模型拆解成传统软件中那种“即插即用”的模块化组件。

现代软件应用本质上由多个小型、独立的模块构成。这就像用无数乐高积木搭建城堡，而非用一整块黏土直接捏塑。某处出问题时，工程师能定位到对应模块，修复、测试、重新部署，不影响其他部分。功能间通过接口解耦，不同团队可独立开发、按规范测试、随时替换。整套系统虽服务于同一目标，但内部绝非不可分割的庞然大物。

而当前的大语言模型尽管是技术奇迹，能轻松回答“哪个国家首都是哪里”这类常识问题，也能解读财报关键数据。但这些能力全部溶解在一整池参数权重中。要想改变模型对特定情境的响应方式，只有两条路：要么重新训练整个模型，要么撰写极其详尽且精确的提示词。这两条路都不够快，更无法让多个团队像协作开发软件一样共同提升AI模型的能力。

IBM研究院长期关注这一问题，致力于将软件工程中的严谨性和模块化基因注入大语言模型。这条路径被他们称为“生成式计算”。

IBM研究院语言与多模态模型总监Luis Lastras直言：“模型不过是附带数据的代码，只是数据量远多于代码量。我们尚未将软件工程的经验真正应用于LLM——而这些模块，完全可以分开构建。”

近期，IBM推出了一套协同工具，将生成式计算愿景向前推进了一大步。软件模块化的理念被具象化为 Granite Libraries——一套适配器集合，可针对特定任务对AI模型进行精准定制。其核心概念是“适配器函数”，与你熟悉的软件库中的函数一样，拥有明确界定的输入和输出。

在该体系内，适配器函数是一种经过专门训练的小型模型适配器，不生成开放式文本，而是执行特定任务，例如对文档进行相关性评分、改写查询、检测幻觉，或做出安全性判断。

同期发布的还有 Granite Switch 项目——一套面向现有模型架构的实验性工具，可动态管理Granite Libraries中的专用组件。配合近期推出的 Granite 4.1 系列模型，以及IBM开源的生成式计算库 Mellea，开发者现在终于获得了一套工具，能将不可预测的文本生成转变为可靠、确定性的编程函数。

让AI模型具备软件级可定制性

Granite Libraries的设计初衷，就是为AI模型赋予软件级别的定制化能力。

IBM已发布三个面向常见企业工作流的库：

RAG库 包含检索增强生成关键任务的适配器，如查询改写、可回答性评估、幻觉检测和引用生成。

核心库 提供基础能力，包括需求检查、确信度评分和上下文归因。

安全守护库 则让模型能直接执行内联的安全性、事实性和策略检查，无需独立防护模型。

更重要的是，这些库均为模块化且独立训练的。企业可按需选用，逐步叠加更多能力，就像管理各类软件依赖一样。

效果有多显著？每个适配器函数都是其单一任务的专家。以“需求检查器”为例，它接收模型的回应和一组约束条件，然后返回这些条件是否被满足的判断。当Granite 4.1 3B被要求直接执行该任务时，在常用指令跟随基准IFEval上的平衡准确率仅为51%。但同一模型接上新的Granite Library需求检查适配器后，准确率飙升至84%。

适配器让小模型在特定任务上的表现，大幅超越仅依赖精心设计提示词的大模型。而Mellea的出现，使这些适配器函数真正具备了“软件”品性：它自动插入激活特定适配器所需的标签，在运行中严格执行格式规则，并将这一切封装为标准Python函数。这样一来，主应用与原始AI文本的不确定性之间被彻底隔离。

借助Granite Libraries，Granite基础模型可随时召唤针对特定任务的“专家”——低秩适配器（LoRA）或激活式低秩适配器（aLoRA）。这些小专家经过专门训练，能通过软件接口执行定义明确的功能。这意味着小模型能在窄域任务上与体型数倍于己的通用模型正面较量，而推理成本却低得多。

当库内适配器被激活时，模型表现既专注又出色。基础模型本身保持不动，但其行为可被精确规定。切换aLoRA的成本几乎可以忽略不计。

Granite Switch：一个模型，多套“剧本”

Granite Switch项目是一套已在GitHub上发布的实验性工具。其思路巧妙：正如编译器从源代码和软件库生成二进制文件一样，Granite Switch能在几分钟内组合出一个新模型。

它允许基础Granite模型及其适配器函数作为一个整体运行，并在推理时高效激活相应组件。具体做法是在现有Granite核心模型中添加一个新的“切换”层，该层将适配器权重粘附到基础模型上，再附加格式标签和新的对话模板。无需为每个不同任务启动全新AI模型，Granite Switch会在恰当时间动态打开或关闭所需适配器。基础模型始终可访问，新能力的加入不会改变底层模型一分一毫。

这个独立切换层使LoRA和aLoRA能在vLLM（面向大规模部署的开源推理引擎）中运行。在实际业务中，一个任务通常由一系列动作组成：例如运行安全检查、检索数据、验证答案。若每次切换适配器都迫使AI清空短期记忆、从头计算，运行速度会显著下降。但通过使用aLoRA，Granite Switch模型能在不同步骤间保留记忆，无需暂停重读，多步骤工作流的速度因此大幅提升。

其实现原理并不复杂：在基础模型中插入一个额外的Transformer层，利用其注意力机制读取和保存与当前激活适配器状态相关的值；一个特殊控制Token会向模型发出“切换专家”的信号，如同调度员在编组站指挥列车驶向哪条轨道，而切换层就是轨道本身。

小模型，大本事

Granite Libraries和Granite Switch项目的潜力，离不开它们所依托的基础模型。IBM刚发布的Granite 4.1系列，是迄今为止性能最强的模型家族。

该系列设计目标明确：以小博大。8B模型的表现与之前的Granite 32B混合专家模型持平甚至更优；30B模型在企业任务上可与Llama 3.3 70B这类体型大一倍的模型正面竞争。而小型高性能模型的服务成本远低于那些在窄域任务上可能表现欠佳的大型通用模型。

这些模型在相对少量但高质量的数据上训练而成，在工具调用和指令跟随方面取得了极具竞争力的分数。同时，相比许多前沿推理模型，它们保持了更低的延迟和运营成本。

本次发布是整个生态系统的一部分，还包括在表格与图表提取上表现卓越的Granite Vision 4.1，以及全新的语音模型和防护模型。所有模型均在大约15万亿Token上训练，以开源Apache 2.0许可证发布，支持12种主要语言，可全球部署。

归根结底，IBM推出Granite Libraries是为了实现一个更宏大的目标：将AI模型打造成像软件一样可组合，最终为企业用户创造更大价值。将各项能力分离为模块化组件，开发者就能构建出更易适配、运营成本更低、在生产环境中更具可预测性的AI系统。

模块化当然无法解决大规模部署生成式AI的所有挑战，但它为构建更可持续、更契合企业需求的系统，铺出了一条实实在在的道路。

Q&A

Q1：Granite Libraries是什么？它能解决哪些问题？

A：Granite Libraries是IBM推出的一套模块化适配器集合，可针对特定任务定制AI模型，而无需重新训练整个模型。它包含RAG库、核心库和安全守护库三部分，分别支持检索增强生成、基础能力评估和安全性检查等企业常见工作流。它能大幅提升模型在特定任务上的准确率，同时降低推理成本。

Q2：Granite Switch和普通模型部署有什么区别？

A：普通部署通常需要为不同任务启动多个独立模型，切换时还会清空模型的短期记忆，导致多步骤任务效率低下。Granite Switch通过在基础模型中插入切换层，可在推理时动态激活不同适配器，同时保留上下文记忆，不改变底层模型，从而显著提升多步骤工作流的速度与灵活性。

Q3：Granite 4.1模型相比之前的版本有哪些提升？

A：Granite 4.1系列主打以小博大：8B模型性能达到甚至超越此前32B混合专家模型水平，30B模型可与Llama 3.3 70B等更大模型在企业任务上竞争。所有模型在大约15万亿Token上训练，支持12种语言，以Apache 2.0开源许可证发布，在保持低延迟和低成本的同时，在工具调用和指令跟随基准上取得了极具竞争力的成绩。

来源：互联网

上一篇 通义千问代码提示词优化：3个技巧避免一眼模板感 下一篇 印象AI提示词指南：归档规则中目标用户描述技巧

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

IBM模块化AI开发工具：像搭建软件般构建大语言模型

摘要

让AI模型具备软件级可定制性

Granite Switch：一个模型，多套“剧本”

小模型，大本事

Q&A

相关文章推荐