其他资讯 AI新闻

Token账单焦虑解决方案精选：清华00后团队获五源峰瑞数千万融资

2026-06-01

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

让用户实现从「租赁智能」到「拥有智能」。说到底，就是让每个人都能像拥有自己的手机

让用户实现从「租赁智能」到「拥有智能」。说到底，就是让每个人都能像拥有自己的手机一样，在本地拥有独立思考的能力。

万格智元这个团队，身上贴着几个很鲜明的标签：00后、博士团队、埋头搞技术。这几个标签全落在同一个人身上——CEO王冠博。他目前是清华大学计算机系的在读博士，还是一位连续创业的00后。其核心团队相当精悍，规模约20人，其中近90%的成员都是00后。大多数来自清华、北大等院校的硕博在读或毕业生，也有从亚马逊、OpenAI、字节跳动等一线公司回来的成员。

《智能涌现》独家获悉，近日，万格智元连续完成了两轮融资：分别由五源资本和峰瑞资本参投的天使轮与天使+轮，合计金额数千万元软妹币，源合资本担任独家财务顾问。这笔融资将主要投入到产品研发和市场推广两个方向。

过去很长一段时间里，算力上云几乎是不需要讨论的必选项。但最近，随着Claude Code、Codex、OpenClaw等Agent能力的集中爆发，Token的需求也迎来了一轮指数级增长。行业正在经历一场“算力风暴”，而风暴的中心，正在从云端向端侧迁移。

王冠博直言，市面上几乎所有的推理引擎，都不是为端侧设计的。它们追求的核心指标是速度，却很少关注内存的巨大消耗。在端侧，芯片厂商能拿出来的内存，通常不会超过32GB。一旦内存太大，不仅成本直线上升，很多使用场景也会受限。厂商真正的诉求，其实很朴素：在现有的内存条件下，让自家的芯片推理更快、能跑更大的模型，而且不能增加硬件成本。

正是基于这个痛点，万格智元给出了一个完整的解法：端侧算力引擎cPilot + 智能平台Amis的组合，目标只有一个——让用户用上便宜好用的Token。

在成本上，它让小内存机器也能运行大模型，显著降低了部署模型所需的硬件门槛；在性能上，它瞄准的是端侧的大模型，而不是将就的小模型，给出的是一套真正能解决用户需求的模型本地部署方案。

“在相同内存开销下，有些方案靠牺牲速度、精度等条件，才能在低内存环境里硬把模型跑起来。相比之下，我们的端侧推理方案速度至少快了12倍。”王冠博告诉《智能涌现》。

2025年，万格智元几乎花了整整一年时间，专注在做一件事：让自己的产品与各家厂商的芯片做好深度适配。当时，C端对于端侧智能的感知还很弱，需求并不强烈。今年，随着OpenClaw等Agent工具的爆火，他们才真正看到了To C的可能性。

王冠博介绍，目前万格智元的主要客户是B端的芯片厂商。他们与厂商合作开发终端硬件，为AI mini PC、AI PC或者AI NAS等产品装上自家的端侧算力引擎，以及一个本地自研的龙虾产品，并提供一套端侧算力优化方案。这套方案预装了一个平台，用户能一键部署模型、聚合API，从而满足C端客户对大模型本地化部署的需求。现阶段，商业模式以B端业务为主，并随着B to C的实践，逐步验证和跑通C端的模式。

目前，万格智元与多家硬件厂商的合作已进入交付阶段。预计今年，将有数万台设备预装出货。公司今年预期营收超千万元。

不做端侧小模型

当下的大模型市场，价格战已经打得相当惨烈。前不久，DeepSeek宣布调整DeepSeek-V4-Pro的API价格，直接降了75%；雷军那边也放出消息，MiMo V2.5系列模型价格下调，最高降幅能做到99%。

这背后其实是一个共识：AI正在大规模进入生产力场景，用户希望低成本用上好模型的需求，已经变得越来越迫切。万格智元的想法与此完全一致，他们瞄准的是端侧硬件的能力，让用户在本地就能用上大参数模型，从而从根本上解决成本问题——除了硬件成本外，模型一旦本地部署，Token成本就变成了零。

他们从一开始就定下了两个原则：不做端侧小模型，因为小模型的市场不够大，不够通用；不做后训练，因为一旦云端模型迭代，之前的知识信息会被直接覆盖。基于这个思路，他们推出了端侧AI推理引擎cPilot。

cPilot是一个面向底层生态的引擎，本质上是介于底层硬件和上层软件之间的一道中间层。它通过自研算法，最大限度地压缩模型运行时的内存占用，把底层硬件的潜力彻底激发出来。举个例子，一台32GB内存的硬件，通常只能留出8到10GB的空间用于模型推理，在本地顶多部署一个约4B参数大小的模型。但同样的硬件配置下，基于cPilot引擎，端侧能部署的模型参数可以从4B直接拉升到80B。以某硬件厂商客户为例，使用cPilot方案后，每台机器的硬件成本能省下约2000元，同时它所能部署的模型参数还能提升好几倍。

不过，本地部署模型并不是万能的。端侧的能力始终有限。与此同时，用户的需求也在发生变化：随着模型能力越来越强，大家不再盲目追求大模型，而是学会了按需调用合适的模型。

因此，万格智元近日又推出了端侧智能平台Amis。这个平台能接入主流Agent工具和模型，同时也能让用户用上云端算力。Amis扮演着API聚合平台和调度中枢的双重角色。用户可以直接在Amis上使用OpenClaw、Hemers等Agent工具，灵活接入、切换不同的模型。平台还能对云端以及本地算力进行自动分配，根据任务的复杂程度等因素做智能切换。

这么做的好处很明显：用户的大部分需求其实是轻量高频、且极度消耗Token的任务，这些在本地就能完成。只有少数端侧难以解决的复杂任务，才需要上云。用户无需为其他模型厂商付费，在Amis上直接配置模型，通过端云调度，绝大多数简单任务本地完成，实现0 Token消耗，仅10%-20%的任务需要上云，成本被压缩到了极致。

王冠博表示：“我们希望能比较好地切入泛C端的应用场景，Amis的最终目标是，让用户培养出使用这个平台的生态习惯。”

MoE已经够稀疏了，但还有十倍下降空间

王冠博有一个很实在的观点：如果一个市场大家都看得清，那它一定不是初创公司的机会。在创业初期，当MoE（混合专家模型）的影响力还没有现在这么大时，万格智元选择先为端侧的Dense（稠密模型）架构做优化。当时，不少人认为开源模型的能力还比较有限，在这个阶段做端侧智能，是不是太早了？

王冠博的选择是，大胆去赌用户需求和行业趋势的不确定性。这个赌注包含三个核心判断：一是模型能力，用户会不会去追求“够用就好”，而非完全追求极致质量；二是硬件成本，这也是他们决定要攻克的核心壁垒；三是Token用量会不会爆发式增长。

围绕这三个锚点，万格智元先从如何优化硬件能力、降低模型运行内存入手，在底层硬件、中间层和算法软件上分别进行了全栈优化。

从软件和算法层面来看，无论是Dense还是MoE，在推理时都只有局部参数被激活。即便是MoE这种已经用了稀疏结构的模型，仍存在大约10倍的稀疏度下降空间。正是看准了这个缺口，万格智元设计了一套「动态稀疏化激活算法」，能准确预判在推理过程中模型应该计算和加载哪一部分参数，从而大幅降低实际参数量。

从端侧硬件层面来看，内存、CPU访存、CPU-GPU交互这三项带宽决定了计算机的整体性能。面对这三重带宽限制，万格智元建立了一套类似CUDA的调度体系，把硬件层打造成一个端侧大模型推理平台和一个端侧大模型内存管理系统，同时针对不同厂商的芯片做了精细化适配。

据王冠博介绍，在测试时，他们在一台搭载AMD芯片的机器上运行一个35B参数的大模型，内存占用为27.6GB；而在使用cPilot引擎的相同硬件条件下，运行同一模型的内存占用可以被压缩至4.7GB。这也意味着，在不到5GB的内存占用下，用户就能用上Qwen3.6、Gemma 4等具备Coding和复杂任务处理能力的大模型。

AI的下半场在端侧

“过去，端侧其实不被大家看好，”王冠博告诉《智能涌现》，“不过，不少投资人和我们聊到，今年整个投资赛道慢慢形成了一个共识，就是端侧可能会是未来。”

相比Agent能力和Token需求的爆发式增长，厂商们一轮又一轮下调Token价格的行为，几乎是杯水车薪。

万格智元希望端侧能成为下一个计算范式，让用户从「租赁智能」变成「拥有智能」。

从长期来看，他们预想了一个场景：未来的Token使用类似于今天的WiFi。所有硬件都具备本地自产Token的能力，将云端拥有的能力全部搬至端侧，每个端侧设备都能定点服务周边的所有网络。目前，万格智元提供的服务还聚焦在软件和硬件之间的中间层，但王冠博称，这只是他们的第一阶段。

到了下一个阶段，他们可能会考虑自研端侧AI硬件。“现在还没有到特别适合做硬件的阶段。”王冠博对此很清醒。一方面，芯片侧的技术还没有收敛，目前的GPU适合用于模型训练，但并不适合高效推理。如果现在下场做硬件，反而会把形态固定下来，导致后期迭代成本太高。下一代芯片，比如国产的NPU，或许会带来芯片侧的一次大变革。

另一方面，做硬件并不完全依赖技术和工程化能力，更重要是供应链能力。“如果是做硬件，我们需要提前10个月左右布局，来打通上下游供应链和市场销售。”王冠博说，“和B to C的客户合作，也能先抢占生态位。”

“AI浪潮在明年会逐渐退去，这个‘退’不是指退场，而是把浪打在了端侧。”下一阶段的端侧，一定会出现一个能承载住Token爆发的应用。而万格智元要做的，就是为这些应用提供更下游的服务。从长期来看，他们希望把cPilot和Amis打造成低内存赛道上最完善、能跨平台适用、用户能开箱即用的平台。

来源：互联网

上一篇 苹果手机黑屏充不进电？5步排查与修复指南 下一篇 夸克AI查提示词优化：让输出更符合发布要求

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

Token账单焦虑解决方案精选：清华00后团队获五源峰瑞数千万融资

摘要

不做端侧小模型

MoE已经够稀疏了，但还有十倍下降空间

AI的下半场在端侧

相关文章推荐