其他资讯

TensorMesh获Nvidia等投资，AI内存优化方案深度评测

2026-05-28

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

大语言模型推理的算力成本，尤其是GPU资源的消耗，始终是开发者和企业在规模化部署时面

大语言模型推理的算力成本，尤其是GPU资源的消耗，始终是开发者和企业在规模化部署时面临的核心痛点。每一次与模型的交互背后，都是实打实的计算开销。如今，初创公司Tensormesh提出了一条直击本质的解决路径——通过消除冗余计算来提升效率。这一方案已经获得了行业巨头的真金白银背书：Nvidia、AMD和CoreWeave等AI基础设施领军企业联合注资2000万美元。

Tensormesh获Nvidia、AMD和CoreWea ve投资，解决AI模型内存问题

除了上述三家产业资本，本轮融资还吸引了Valley Capital Partners和Laude Ventures两家风投机构。至此，Tensormesh累计融资额攀升至2450万美元。伴随融资消息一同亮相的，是公司的旗舰产品——Tensormesh Inference，一套软件即服务（SaaS）解决方案。

那么，它究竟解决了什么具体痛点？瓶颈在于GPU内存的固有局限。由于缓存空间有限，GPU在处理任务时不得不反复重新计算相同的数据，这成为推理效率的主要拖累。根源在于大语言模型的工作机制：每次用户发送新提示或请求，模型都将其视为一个全新任务。即便AI聊天机器人在进行连贯对话，或分析一份之前“见过”的文档，GPU也必须从头开始处理整个冗长的上下文信息。其中的重复计算量，可想而知。

Tensormesh给出的解法是一项名为“键值缓存”（KV Cache）的技术。简单来说，它充当一个“中间数据暂存区”，专门存储大语言模型在处理用户提示时产生的中间计算结果。

有了这个“记忆仓库”，模型在遇到相似或相关的后续提示时，可以直接调用之前缓存的结果，跳过大量重复计算步骤，从而显著缩短响应时间。对于构建需要多步推理的AI智能体的开发者来说，这项技术带来的收益非常实在——据称能将延迟和GPU支出降低多达10倍。

Tensormesh Inference产品基于开源的LMCache项目构建。其亮点之一是内置了一个直观的成本节约仪表板：开发者不仅能够追踪“缓存命中率”，还能将这个技术指标直接换算成具体的成本节省金额，让优化效果一目了然。此外，开发者可以自主控制分配给缓存的存储空间大小，根据模型部署规模和使用模式精细调整基础设施，实现效率最大化。根据公司披露的数据，部分早期客户已实现超过70%的缓存命中率，这意味着超过三分之二的用户请求无需GPU重新计算，直接从缓存中获取结果。

在部署方式上，Tensormesh提供了高度灵活性，主要分为三种模式：第一种是与OpenAI API标准完全兼容的无服务器接口，开发者几乎可以无缝集成到现有工作流中；第二种是按需部署，为运行高强度工作负载的客户提供专用GPU资源；第三种是预留部署方案，主要面向有定制化服务级别协议需求的企业级客户。

对于能够获得Nvidia、AMD和CoreWeave的青睐，公司创始人兼首席执行官Junchen Jiang并不感到意外。他表示：“Tensormesh为大语言模型处理提示时生成的中间数据提供了一种全新视角。‘KV缓存’这个术语背后，实际上是AI对用户问题的完整理解——这是一个全新的数据类别。”

这正是Tensormesh技术引人遐想的地方。它正在将“AI中间数据”塑造成一个可能具有极高价值的全新资产类别。随着AI智能体变得越来越复杂，所需的上下文窗口也越来越大。通过有效扩展和管理这些上下文，Tensormesh很可能成为未来智能体AI技术栈中不可或缺的关键一环。

据悉，本轮融资所得将主要用于深化Tensormesh与AMD、Nvidia和CoreWeave基础设施的硬件集成，并加速后续产品研发。公司同时承诺，将继续投入对底层开源项目LMCache的建设，未来的许多技术创新都将惠及这一社区项目。

Q&A

Q1：Tensormesh是如何提高AI推理效率的？

核心在于“键值缓存”（KV Cache）技术。该技术会存储大语言模型在处理用户提示过程中产生的中间计算结果。当相似的提示再次出现时，系统可以直接从缓存中调用这些结果，从而跳过大量重复计算步骤。这不仅大幅提升了响应速度，据称还能在相关场景下将延迟和GPU支出降低10倍。

Q2：Tensormesh Inference产品有哪些部署方式？

产品提供三种灵活的部署选项：一是与OpenAI API标准完全兼容的无服务器接口，便于快速集成；二是基于专用GPU资源的按需部署，适合计算密集型工作负载；三是为企业级客户定制的预留部署方案，可满足特定的服务级别协议要求。

Q3：使用Tensormesh能节省多少成本？

实际节省成本因使用场景而异，但公司提供了一个关键参考指标：缓存命中率。已有客户实现了超过70%的命中率，意味着超过三分之二的请求无需重新计算。产品内置的成本节约仪表板可以将命中率直接转换为预估的成本节省金额，帮助用户清晰量化收益。

来源：互联网

上一篇 万里马主力净流出48.79万，今日股价涨1.13%揭秘 下一篇 安徽人工智能+政务深度融合权威排行榜

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

TensorMesh获Nvidia等投资，AI内存优化方案深度评测

摘要

Q&A

相关文章推荐