面壁曾国洋专访:千次模型试炼,打造高性能小钢炮实战指南
摘要
面壁智能发布MiniCPM2B端侧大模型,仅2B参数即在多项评测中超越更大模型。通过全栈优化、
2024年2月1日,成立一周年的面壁智能,向海内外大模型领域投下了两颗重磅成果:面壁 MiniCPM 2B 旗舰端侧大语言模型与面壁 OmniLMM 多模态大模型。
其中,MiniCPM 2B 以其卓越表现,被业界冠以“小钢炮”的称号。其突破性在于,仅以2B的参数量与1T tokens的精选训练数据,便在多项主流评测的中英文平均成绩上,超越了被誉为“欧洲最佳大模型”的Mistral-7B。

在同等规模模型的横向对比中,面壁MiniCPM的优势依然显著,其性能大幅领先于Llama2-7B、Mistral-7B、Gemini Nano、Qwen-1.8B等竞品。更令人瞩目的是,它甚至能够越级挑战参数量数十倍于己的Llama2-13B、Falcon-40B和Cohere-54B等大型模型。
这颗“2B小钢炮”的威力,其行业影响力不亚于当年Mistral-7B的发布,为端侧大语言模型的商业化前景提供了极具说服力的范例。
“用最小的规模,做最强的AI”
端侧部署、极致高效、以小搏大——这是面壁智能CTO曾国洋为本次发布定下的核心基调。
“高效”理念已深入这家公司的技术基因。这不仅指训练与推理速度,更体现在参数效率上——以更小的模型体量,实现更强的性能表现。此前,Mistral-7B曾以7B参数超越13B模型,而面壁团队则将这一效率竞赛推向新高度:“为了验证我们的效率,我们实现了用2B模型超越Llama的13B模型,这足以证明技术路径的优越性。”
卓越成绩源于海量实验。过去数月,团队进行了上千次模型沙盒实验与超参数搜索,以探寻最优的训练技巧组合。最终,他们锁定了一组“黄金参数”,并以此训练出2B的MiniCPM进行验证。结果证实了这条路径的有效性:在11项主流测评中,其平均成绩确实超越了Mistral-7B。

在国内外同尺寸模型的性能对比中,MiniCPM-2B的评分同样位居前列。

“小钢炮”是如何炼成的?
面壁智能能在小模型赛道实现“以小博大”,首先归功于其全流程高效的基础设施。其全栈优化工具平台“面壁ModelForce”,整合了训练框架BMTrain、推理框架BMINF、压缩框架BMCook和微调框架BMTune,据称可降低90%的训练成本,并实现10倍的推理加速。
其次,是独特的“模型沙盒”机制。该机制在大模型与小模型间建立了高效的协同训练循环。小模型可预测大模型性能,二者共享超参数方案,从而实现接近Cerebras-GPT的超参数稳定性,并精准定位最优的批次大小与学习率。同时,固定模型倍增上限的设计,允许训练在任意阶段暂停,并获取当前最优的模型增长倍数。
在数据层面,团队构建了从数据治理到多维评测的完整闭环,驱动模型版本快速迭代,形成了一个高效的现代化“数据工厂”。
不止于语言:全面的能力与端侧落地
在实际能力上,面壁MiniCPM在语言理解、代码生成及多模态任务上均表现出色。它具备更全面的通用能力与中文优化,其Chat模型对话流畅,在贴近人类评价的MT-Bench指标中得分领先。编程能力上,其代码生成水平超越了Mistral。此外,它创新性地实现了多模态能力在手机端的首批部署,拥有当前同量级模型中最强的多模态性能。
发布会现场,面壁智能CEO李大海演示了MiniCPM-2B的具体能力。其对话响应速度堪比真人交互;而在模型普遍面临的复杂推理问题上,它也能提供准确的解答。


“小钢炮”的性能突破,其意义远超榜单排名。它使得普通消费级终端设备也能承载强大模型,极大地拓展了大模型的应用边界与想象空间。
在AI原生时代,面壁智能在达成MiniCPM-2B的性能后,坚定选择了“用最小的规模,做最强的AI”这条路径。端侧模型蕴含巨大的商业价值,它将终端设备开发AI应用从构想变为现实,智能终端全天候在线的特性,也让无数应用场景变得切实可行。
成本优势与双引擎战略
除了性能强悍,成本优势是“小钢炮”的另一核心。它能以极低成本支持CPU推理,1元即可处理1,700,000 tokens。团队内部甚至以“废卡拯救计划”来形容其对计算资源的极致利用——仅用单张显卡即可完成全参数微调,消费级显卡也能训练大模型。
面壁MiniCPM的量化版本,在模型体积上压缩了75%,性能基本无损,并成功适配了国际主流手机与终端CPU芯片,即便是多年前的老机型也能流畅运行。
基于强大的模型性能,面壁智能推出了“大模型+Agent”的双引擎战略。目前,团队已在XAgent、ChatDev和AgentVerse等项目上进行了探索,积极寻求智能体技术更优的落地形态。
先踩1000次坑,而后以小搏大
“在技术上,我们始终保持着领先,而非追赶。”面壁智能联合创始人、清华大学长聘副教授刘知远在发布会上表示。这份底气源于团队深厚的技术积淀。
面壁的科研团队由刘知远带领,其技术方向经历了四次经得起时间检验的关键演进:从深度学习、BERT、大模型到Agent。团队源自清华大学自然语言处理实验室(THUNLP),早在2018年BERT问世后便深耕预训练模型,2019年推出了全球首个知识指导的预训练模型“ERNIE”。2020年GPT-3发布后,他们亦是国内首批投身大模型的研究力量。
2020年,团队参与智源“悟道”大模型项目,负责其中的“文源”中文大模型,先后推出了CPM 1.0与千亿参数的CPM 2.0。2022年,团队将高性能计算与大模型训练相结合的方法发表于《Nature Communications》,是国内最早在大模型训练中引入分布式加速算法的团队之一。

尽管公司成立时间不长,但核心成员经验丰富。从CPM 1、2、3到CPM-Ant、CPM-Bee、CPM-Cricket,再到如今的MiniCPM,团队核心成员全程参与。事实上,MiniCPM可被视为CPM-D系列中的一个关键实验版本。
曾国洋透露,除了已发布的成功模型,背后也“训崩”过大量模型。“大模型训练极度依赖经验积累。那些难以用技术语言精确描述的‘手感’与‘经验’,比如训练中对各类异常的处理、对数据与训练动态的认知,才是成功的关键。”团队积累的异常处理经验与数据选择直觉——这些无形的“内功”,构成了他们真正的技术壁垒。
正如团队中被戏称为“模型料理三星主厨”的胡声鼎所言:即便将训练大模型的步骤逐一列出,其他团队也未必能完美复现,这其中更多是一种经验。好比拿到了米其林三星主厨的食谱,也未必能烹制出同等水准的菜肴。
除了经验,团队也开创了新技术,例如其WSD调度器相较于常见的cosine调度器就具备一定优势。团队已探索出如何将全局最优与局部最优的训练阶段分离,从而在局部最优阶段吸收更有效的信息。
对团队而言,研发大模型与小模型在方法论上并无本质区别,无非是启动“1000亿”与“20亿”参数规模的区别。此次发布的2B模型,正是“模型沙盒”机制下成千上万次实验的结晶。相比主流方案,他们在超参调整、训练策略等方面做了大量改进,使得无需在大模型上反复调优即可获得优异结果。正是凭借“踩过千次坑再总结爬起”的韧性,团队打磨出了独特的技术能力。
在大模型发展早期,曾国洋曾因坚信AGI(通用人工智能)必将实现而连续数月投入工作不知疲倦。整个面壁团队对AGI怀有宏大愿景,刘知远也表示:“实现AGI需要什么,我们就去做什么。”
对话面壁智能CTO曾国洋:效率、边界与未来
问:“高效”是面壁团队的基因或追求吗?
曾国洋:追求“高效”确实是我们的核心。早期投入大量精力进行基础设施(Infra)建设就是体现。国内大模型发展曾一度陷入盲目追求参数量的误区。但业界后来意识到,当参数量膨胀到一定程度却无法有效落地时,其意义有限。对于落地而言,效率是关键,需要通过成本控制来实现更优效果,从而扩展应用边界。大模型的应用边界,可理解为它创造的价值减去其成本。我们追求效率,正是为了降低成本、提升价值,最终拓宽边界。
问:为何选择让MiniCPM最初就瞄准端侧应用?
曾国洋:一方面,我们希望用小规模模型验证“模型沙盒”得出的最优参数;另一方面,近期端侧模型备受关注。我们发现2B模型恰好能在各类终端设备上流畅运行。它本身是对我们训练技术的一次验证,证明了现有技术确实能训练出优秀模型。同时,我们思考能否借此契机,真正让大模型在手机上跑起来,从而催生一些新颖有趣的应用。
问:如果2B模型已能满足需求,是否无需研发更大模型?
曾国洋:我们采取两端并进的策略。一端是小规模模型,它能更快完成技术验证,成本更低。另一端是更大规模的模型,我们会将效率优化到极致,即在可接受的成本范围内,探索参数量扩大后模型性能的极限。这是一个兼顾两端的方案。
问:“以小博大”会成为未来大模型研究的主流趋势吗?
曾国洋:效率优化是行业共识,各家都在推进。只是我们在这方面表现尤为突出,因此效果显著。简言之,大家都会致力于用更小的规模、更低的成本达成同等效果。在这条道路上,我们与同行都将持续投入。
这次的2B模型揭示,大模型仍有巨大潜力待挖掘,2B模型的极限远未触及。未来一至两年,我们有望看到能在终端设备上运行、性能对标当前GPT-3.5 Turbo水平的模型。我们通过大量实验发现,可探索的空间非常广阔,每项探索都能提升模型的效果与效率。同时,各大手机厂商也开始重视端侧大模型。未来一两年,模型侧将持续发力,硬件也将迭代升级,我对此持乐观态度。
问:这些待挖掘的潜力具体体现在哪些方面?
曾国洋:训练众多模型后,一个直观感受是,尽管模型规模变化不大,但效果在飞速进步。例如2020年底我们训练的第一个CPM-1模型,参数量与今天的MiniCPM相近,但实际体验上,MiniCPM有明显提升。
在训练技术侧持续深挖,仍有很大提升空间。例如我们进行Int4量化时发现,从16比特降至4比特,模型效果几乎无损,这说明模型中仍有“水分”,存在未完全利用的潜力。无论是预训练技术还是数据技术,都还有大量潜力可挖掘。
问:您遇到过哪些印象深刻的非技术难题?
曾国洋:模型训练中最常见的问题是损失(loss)不收敛,训练过程中突然“发散”。许多人遇到loss发散会反思并积累经验。但由于我们训崩过太多模型,发现这往往不是单一原因导致,可能是多种不同的意外或缺陷引发了相同的结果。很难用固定手段修复,因为原因复杂多样。
必须逐一排查,找到根本原因才能解决。但从公开经验看,遇到此类问题,通常的应对是“跳过一段数据”或“调整学习率”等。更根本的解决方法,依赖于持续积累的经验。就像走路摔跤,可能因为鞋带松了、路面有坑或踩到香蕉皮。只有都经历过,才知道有这么多可能导致摔跤的方式。
问:作为端侧大模型,MiniCPM有何独到优势?
曾国洋:模型能力越强,其价值越高。我们在2B模型上实现了比肩Mistral-7B的效果,这本身就极大地扩展了应用边界。像Mistral-7B这类模型,以往必须在GPU或云端运行,这限制了其应用范围,因为用户可能没有GPU。
而2B模型不存在这些问题,甚至能在手机上运行。未来它可能直接内置于手机或打包进应用,以更轻量的方式在各种设备上运行,无需考虑用户是否拥有GPU。这为大模型开辟了更广阔的实际应用空间。
以往用Mistral-7B开发应用,需要自行部署服务器,用户才能连接使用。现在我可以将2B模型打包进APP,直接发布到用户手机,用户离线也能使用。这大幅降低了开发者的成本,也让模型能在更多场景发挥作用,如手机、汽车、音箱等,使万物在低功耗芯片上具备智能。这也契合“智能体互联网”的概念,能发挥群体协作与更强大的智能。
问:为何面壁如此重视Agent(智能体)?
曾国洋:我们的认知是,一方面我们在降低大模型成本(通过训练MiniCPM),另一方面也在扩展其能力边界与价值。Agent技术是能让模型创造更多价值的关键技术,因此我们高度重视。
大模型如同人的大脑,具备智能的决策、认知与判断能力。但仅有大脑,能做的事情有限。Agent技术相当于为它接上了双手,使其能够使用外部工具与知识。我们认为,未来Agent将持续进化,让模型能像人一样真正思考、接受反馈、自我演进,甚至实现智能体间更高效的协作。这是我们对未来的展望,认为这是一条极具前景的路线,因此投入了大量资源进行探索与研究。
当然,Agent是新兴技术,目前尚未有非常清晰的既定路线。但我们坚信,朝这个方向前进是正确的。
问:面壁的产品线涵盖AI Infra、大模型、Agent及上层应用,是否有侧重点?
曾国洋:虽然看似多条产品线,但在我心中这是一条连贯的链路。Infra支撑我们的模型能够更快、更好、更强地训练;模型能力又为Agent技术提供了更好的支撑,Agent如同模型能力的放大器;同时,Infra还能降低模型成本,使其能在更多设备上运行,拥有更广阔的空间。因此它们是紧密相连的。这也体现了我们对“高效”的追求——实现全链路高效,所有优化目标都是为了提升效率,拓宽大模型的应用空间。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。