其他资讯

面壁曾国洋专访：千次模型试炼，打造高性能小钢炮实战指南

2026-05-16

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

面壁智能发布MiniCPM2B端侧大模型，仅2B参数即在多项评测中超越更大模型。通过全栈优化、

2024年2月1日，成立一周年的面壁智能，向海内外大模型领域投下了两颗重磅成果：面壁 MiniCPM 2B 旗舰端侧大语言模型与面壁 OmniLMM 多模态大模型。

其中，MiniCPM 2B 以其卓越表现，被业界冠以“小钢炮”的称号。其突破性在于，仅以2B的参数量与1T tokens的精选训练数据，便在多项主流评测的中英文平均成绩上，超越了被誉为“欧洲最佳大模型”的Mistral-7B。

在同等规模模型的横向对比中，面壁MiniCPM的优势依然显著，其性能大幅领先于Llama2-7B、Mistral-7B、Gemini Nano、Qwen-1.8B等竞品。更令人瞩目的是，它甚至能够越级挑战参数量数十倍于己的Llama2-13B、Falcon-40B和Cohere-54B等大型模型。

这颗“2B小钢炮”的威力，其行业影响力不亚于当年Mistral-7B的发布，为端侧大语言模型的商业化前景提供了极具说服力的范例。

“用最小的规模，做最强的AI”

端侧部署、极致高效、以小搏大——这是面壁智能CTO曾国洋为本次发布定下的核心基调。

“高效”理念已深入这家公司的技术基因。这不仅指训练与推理速度，更体现在参数效率上——以更小的模型体量，实现更强的性能表现。此前，Mistral-7B曾以7B参数超越13B模型，而面壁团队则将这一效率竞赛推向新高度：“为了验证我们的效率，我们实现了用2B模型超越Llama的13B模型，这足以证明技术路径的优越性。”

卓越成绩源于海量实验。过去数月，团队进行了上千次模型沙盒实验与超参数搜索，以探寻最优的训练技巧组合。最终，他们锁定了一组“黄金参数”，并以此训练出2B的MiniCPM进行验证。结果证实了这条路径的有效性：在11项主流测评中，其平均成绩确实超越了Mistral-7B。

在国内外同尺寸模型的性能对比中，MiniCPM-2B的评分同样位居前列。

“小钢炮”是如何炼成的？

面壁智能能在小模型赛道实现“以小博大”，首先归功于其全流程高效的基础设施。其全栈优化工具平台“面壁ModelForce”，整合了训练框架BMTrain、推理框架BMINF、压缩框架BMCook和微调框架BMTune，据称可降低90%的训练成本，并实现10倍的推理加速。

其次，是独特的“模型沙盒”机制。该机制在大模型与小模型间建立了高效的协同训练循环。小模型可预测大模型性能，二者共享超参数方案，从而实现接近Cerebras-GPT的超参数稳定性，并精准定位最优的批次大小与学习率。同时，固定模型倍增上限的设计，允许训练在任意阶段暂停，并获取当前最优的模型增长倍数。

在数据层面，团队构建了从数据治理到多维评测的完整闭环，驱动模型版本快速迭代，形成了一个高效的现代化“数据工厂”。

不止于语言：全面的能力与端侧落地

在实际能力上，面壁MiniCPM在语言理解、代码生成及多模态任务上均表现出色。它具备更全面的通用能力与中文优化，其Chat模型对话流畅，在贴近人类评价的MT-Bench指标中得分领先。编程能力上，其代码生成水平超越了Mistral。此外，它创新性地实现了多模态能力在手机端的首批部署，拥有当前同量级模型中最强的多模态性能。

发布会现场，面壁智能CEO李大海演示了MiniCPM-2B的具体能力。其对话响应速度堪比真人交互；而在模型普遍面临的复杂推理问题上，它也能提供准确的解答。

“小钢炮”的性能突破，其意义远超榜单排名。它使得普通消费级终端设备也能承载强大模型，极大地拓展了大模型的应用边界与想象空间。

在AI原生时代，面壁智能在达成MiniCPM-2B的性能后，坚定选择了“用最小的规模，做最强的AI”这条路径。端侧模型蕴含巨大的商业价值，它将终端设备开发AI应用从构想变为现实，智能终端全天候在线的特性，也让无数应用场景变得切实可行。

成本优势与双引擎战略

除了性能强悍，成本优势是“小钢炮”的另一核心。它能以极低成本支持CPU推理，1元即可处理1,700,000 tokens。团队内部甚至以“废卡拯救计划”来形容其对计算资源的极致利用——仅用单张显卡即可完成全参数微调，消费级显卡也能训练大模型。

面壁MiniCPM的量化版本，在模型体积上压缩了75%，性能基本无损，并成功适配了国际主流手机与终端CPU芯片，即便是多年前的老机型也能流畅运行。

基于强大的模型性能，面壁智能推出了“大模型+Agent”的双引擎战略。目前，团队已在XAgent、ChatDev和AgentVerse等项目上进行了探索，积极寻求智能体技术更优的落地形态。

先踩1000次坑，而后以小搏大

“在技术上，我们始终保持着领先，而非追赶。”面壁智能联合创始人、清华大学长聘副教授刘知远在发布会上表示。这份底气源于团队深厚的技术积淀。

面壁的科研团队由刘知远带领，其技术方向经历了四次经得起时间检验的关键演进：从深度学习、BERT、大模型到Agent。团队源自清华大学自然语言处理实验室（THUNLP），早在2018年BERT问世后便深耕预训练模型，2019年推出了全球首个知识指导的预训练模型“ERNIE”。2020年GPT-3发布后，他们亦是国内首批投身大模型的研究力量。

2020年，团队参与智源“悟道”大模型项目，负责其中的“文源”中文大模型，先后推出了CPM 1.0与千亿参数的CPM 2.0。2022年，团队将高性能计算与大模型训练相结合的方法发表于《Nature Communications》，是国内最早在大模型训练中引入分布式加速算法的团队之一。

尽管公司成立时间不长，但核心成员经验丰富。从CPM 1、2、3到CPM-Ant、CPM-Bee、CPM-Cricket，再到如今的MiniCPM，团队核心成员全程参与。事实上，MiniCPM可被视为CPM-D系列中的一个关键实验版本。

曾国洋透露，除了已发布的成功模型，背后也“训崩”过大量模型。“大模型训练极度依赖经验积累。那些难以用技术语言精确描述的‘手感’与‘经验’，比如训练中对各类异常的处理、对数据与训练动态的认知，才是成功的关键。”团队积累的异常处理经验与数据选择直觉——这些无形的“内功”，构成了他们真正的技术壁垒。

正如团队中被戏称为“模型料理三星主厨”的胡声鼎所言：即便将训练大模型的步骤逐一列出，其他团队也未必能完美复现，这其中更多是一种经验。好比拿到了米其林三星主厨的食谱，也未必能烹制出同等水准的菜肴。

除了经验，团队也开创了新技术，例如其WSD调度器相较于常见的cosine调度器就具备一定优势。团队已探索出如何将全局最优与局部最优的训练阶段分离，从而在局部最优阶段吸收更有效的信息。

对团队而言，研发大模型与小模型在方法论上并无本质区别，无非是启动“1000亿”与“20亿”参数规模的区别。此次发布的2B模型，正是“模型沙盒”机制下成千上万次实验的结晶。相比主流方案，他们在超参调整、训练策略等方面做了大量改进，使得无需在大模型上反复调优即可获得优异结果。正是凭借“踩过千次坑再总结爬起”的韧性，团队打磨出了独特的技术能力。

在大模型发展早期，曾国洋曾因坚信AGI（通用人工智能）必将实现而连续数月投入工作不知疲倦。整个面壁团队对AGI怀有宏大愿景，刘知远也表示：“实现AGI需要什么，我们就去做什么。”

对话面壁智能CTO曾国洋：效率、边界与未来

问：“高效”是面壁团队的基因或追求吗？
曾国洋：追求“高效”确实是我们的核心。早期投入大量精力进行基础设施（Infra）建设就是体现。国内大模型发展曾一度陷入盲目追求参数量的误区。但业界后来意识到，当参数量膨胀到一定程度却无法有效落地时，其意义有限。对于落地而言，效率是关键，需要通过成本控制来实现更优效果，从而扩展应用边界。大模型的应用边界，可理解为它创造的价值减去其成本。我们追求效率，正是为了降低成本、提升价值，最终拓宽边界。

问：为何选择让MiniCPM最初就瞄准端侧应用？
曾国洋：一方面，我们希望用小规模模型验证“模型沙盒”得出的最优参数；另一方面，近期端侧模型备受关注。我们发现2B模型恰好能在各类终端设备上流畅运行。它本身是对我们训练技术的一次验证，证明了现有技术确实能训练出优秀模型。同时，我们思考能否借此契机，真正让大模型在手机上跑起来，从而催生一些新颖有趣的应用。

问：如果2B模型已能满足需求，是否无需研发更大模型？
曾国洋：我们采取两端并进的策略。一端是小规模模型，它能更快完成技术验证，成本更低。另一端是更大规模的模型，我们会将效率优化到极致，即在可接受的成本范围内，探索参数量扩大后模型性能的极限。这是一个兼顾两端的方案。

问：“以小博大”会成为未来大模型研究的主流趋势吗？
曾国洋：效率优化是行业共识，各家都在推进。只是我们在这方面表现尤为突出，因此效果显著。简言之，大家都会致力于用更小的规模、更低的成本达成同等效果。在这条道路上，我们与同行都将持续投入。

这次的2B模型揭示，大模型仍有巨大潜力待挖掘，2B模型的极限远未触及。未来一至两年，我们有望看到能在终端设备上运行、性能对标当前GPT-3.5 Turbo水平的模型。我们通过大量实验发现，可探索的空间非常广阔，每项探索都能提升模型的效果与效率。同时，各大手机厂商也开始重视端侧大模型。未来一两年，模型侧将持续发力，硬件也将迭代升级，我对此持乐观态度。

问：这些待挖掘的潜力具体体现在哪些方面？
曾国洋：训练众多模型后，一个直观感受是，尽管模型规模变化不大，但效果在飞速进步。例如2020年底我们训练的第一个CPM-1模型，参数量与今天的MiniCPM相近，但实际体验上，MiniCPM有明显提升。

在训练技术侧持续深挖，仍有很大提升空间。例如我们进行Int4量化时发现，从16比特降至4比特，模型效果几乎无损，这说明模型中仍有“水分”，存在未完全利用的潜力。无论是预训练技术还是数据技术，都还有大量潜力可挖掘。

问：您遇到过哪些印象深刻的非技术难题？
曾国洋：模型训练中最常见的问题是损失（loss）不收敛，训练过程中突然“发散”。许多人遇到loss发散会反思并积累经验。但由于我们训崩过太多模型，发现这往往不是单一原因导致，可能是多种不同的意外或缺陷引发了相同的结果。很难用固定手段修复，因为原因复杂多样。

必须逐一排查，找到根本原因才能解决。但从公开经验看，遇到此类问题，通常的应对是“跳过一段数据”或“调整学习率”等。更根本的解决方法，依赖于持续积累的经验。就像走路摔跤，可能因为鞋带松了、路面有坑或踩到香蕉皮。只有都经历过，才知道有这么多可能导致摔跤的方式。

问：作为端侧大模型，MiniCPM有何独到优势？
曾国洋：模型能力越强，其价值越高。我们在2B模型上实现了比肩Mistral-7B的效果，这本身就极大地扩展了应用边界。像Mistral-7B这类模型，以往必须在GPU或云端运行，这限制了其应用范围，因为用户可能没有GPU。

而2B模型不存在这些问题，甚至能在手机上运行。未来它可能直接内置于手机或打包进应用，以更轻量的方式在各种设备上运行，无需考虑用户是否拥有GPU。这为大模型开辟了更广阔的实际应用空间。

以往用Mistral-7B开发应用，需要自行部署服务器，用户才能连接使用。现在我可以将2B模型打包进APP，直接发布到用户手机，用户离线也能使用。这大幅降低了开发者的成本，也让模型能在更多场景发挥作用，如手机、汽车、音箱等，使万物在低功耗芯片上具备智能。这也契合“智能体互联网”的概念，能发挥群体协作与更强大的智能。

问：为何面壁如此重视Agent（智能体）？
曾国洋：我们的认知是，一方面我们在降低大模型成本（通过训练MiniCPM），另一方面也在扩展其能力边界与价值。Agent技术是能让模型创造更多价值的关键技术，因此我们高度重视。

大模型如同人的大脑，具备智能的决策、认知与判断能力。但仅有大脑，能做的事情有限。Agent技术相当于为它接上了双手，使其能够使用外部工具与知识。我们认为，未来Agent将持续进化，让模型能像人一样真正思考、接受反馈、自我演进，甚至实现智能体间更高效的协作。这是我们对未来的展望，认为这是一条极具前景的路线，因此投入了大量资源进行探索与研究。

当然，Agent是新兴技术，目前尚未有非常清晰的既定路线。但我们坚信，朝这个方向前进是正确的。

问：面壁的产品线涵盖AI Infra、大模型、Agent及上层应用，是否有侧重点？
曾国洋：虽然看似多条产品线，但在我心中这是一条连贯的链路。Infra支撑我们的模型能够更快、更好、更强地训练；模型能力又为Agent技术提供了更好的支撑，Agent如同模型能力的放大器；同时，Infra还能降低模型成本，使其能在更多设备上运行，拥有更广阔的空间。因此它们是紧密相连的。这也体现了我们对“高效”的追求——实现全链路高效，所有优化目标都是为了提升效率，拓宽大模型的应用空间。

来源：互联网

上一篇 2024达摩院青橙奖获奖名单揭晓：中国科研新星闪耀杭州 下一篇 智谱AI商业化进程深度解析：2024年关键策略与市场博弈

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。