首页 > AI资讯新闻 > 多模态模型Token毛利率远高于语言模型，智象未来CEO梅涛最新观点揭秘

产业资讯

多模态模型Token毛利率远高于语言模型，智象未来CEO梅涛最新观点揭秘

2026-05-30

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

文｜王欣逸李嘉星编辑｜周鑫雨一家从成立起就将重心锁定在原生多模态赛道的公司，面

文｜王欣逸李嘉星

智象未来CEO梅涛：多模态模型Token的毛利率，远高于语言模型

编辑｜周鑫雨

一家从成立起就将重心锁定在原生多模态赛道的公司，面对具身智能与世界模型的浪潮，没有理由也无从置身事外。

2026年，随着Seedance 2.0、GPT Image 2.0等模型的引爆，多模态能力已成为行业角逐的必选项。5月19日，在智象未来首届开放日上，该公司给出了明确判断：“原生多模态是逼近AGI的必经路径。”

开放日的主题定为“Imaging the World”。但对智象未来而言，“World”的权重正迅速压过“Video”和“Image”。

“我们的最终目标是构建世界模型。”智象未来CEO梅涛在活动中反复强调这一主张。在他的定义中，智象未来的定位是一家原生多模态大模型公司——一个真正的世界模型，必须同时满足几个关键条件：掌握物理规律、解决长时间跨度的因果推理、实现全模态交互，以及绝对的可靠性与安全性。

当前主流的的世界模型训练思路，大致可分为两大流派：李飞飞倡导的“生成3D世界”路线，以及Yann LeCun主张的“自监督预测世界”路线。

智象未来选择了一条差异化路径——从算法与架构层面寻求突破，直击世界模型训练中最稀缺且成本最高的多模态数据领域。他们率先聚焦于视频、图像、3D交互等数据的生成，利用低成本合成数据应对行业的数据短缺瓶颈，并在此过程中积累可复用于世界模型的视觉模型能力。

具体而言，即让多模态模型从构建之初就具备理解真实世界规则的能力。原生全模态Unified Transformer（UiT）架构具备“Any to Any”（任意形式输入支持任意形式输出）的能力，而这正是世界模型所需的核心素质：在统一架构中理解、生成并预测现实世界的不同状态。

过去一段时间，他们完成了一次关键的战略转向：从“模型即产品”切换至“构建Agent平台”。

作为一家以To B为主的公司，他们将自己的策略总结为“1+1+3”MaaS（模型即服务）平台：底层部署HiDream系列大模型，中间层搭建HiHarness企业服务平台，上层则覆盖三大应用场景——商业营销、影视创作、社媒创作。

概念持续升温，资本也在加速涌入。继上个月获得安徽省产投、东方富海等机构投资的5亿元B轮融资后，智象未来又迅速完成了新一轮亿元级融资。

但竞争也在同步升级。模型能力不断强悍，在与国内外基模厂商的角力中，智象未来还必须握紧手中的新牌——MaaS平台，并在视频生成的垂类赛道上与巨头展开正面较量。

开放日结束后，《智能涌现》等媒体与智象未来CEO梅涛，以及其投资人东方富海合伙人王兵进行了深度对话。以下为对话实录（略有摘编）。

很多具身智能公司低估了视频模型的价值

问：在公众认知中，智象未来此前在图像和视频领域较为活跃。从二维的图像、视频向三维物理世界转型，你们是如何思量并启动的？

梅涛：当前业内部分模型被称为世界模型，实际上还为时过早。世界模型有不同的实现路径，未来也可能存在多种可能性。

直到今天，我们不会对外宣称自己是一家世界模型公司。我们更倾向将智象未来定义为一家原生多模态大模型公司。原生多模态大模型公司，未来必然通向世界模型。

问：当前许多公司都标榜在做“世界模型”，但外界对这一概念的定义依然模糊。您如何界定智象未来所追求的“世界模型”？

梅涛：我们非常谨慎地认为，智象未来打造的是原生多模态模型。在迈向世界模型的进程中，我们会重点聚焦于视频、图像、3D交互等数据的生成。

问：智象未来从拼接式多模态升级为原生多模态，技术节点发生在哪个阶段？当前技术是否已经成熟？

梅涛：多模态生成领域的技术尚未收敛，这正是创业公司可以发力的窗口期。如果技术完全收敛、业界统一采用DIT框架，我们也就不存在突围空间。正是因为技术没有快速收敛，我们才得以通过算法创新，以相对较少的资源实现与大厂同等的能力，而非单纯比拼数据和算力。

问：从全模态大模型演进到世界模型，还需要具备哪些成熟的技术条件？

梅涛：第一是掌握物理规律，包括流体力学、固体力学、分子动力学以及牛顿定律等，目前行业尚难以全面枚举与掌控；第二是解决长上下文下的因果关系问题；第三是实现与物理世界的全模态交互——比如机器人如何拿起杯子、拧开盖子、倒水并判断用户需求，这距离实际落地的要求还很远；第四是安全性，机器人一旦进入家庭，必须确保绝对安全。

我们现阶段更务实的选择是聚焦原生多模态问题，既能实现商业化落地，也能为未来向世界模型演进积累技术储备。

问：许多视频生成模型公司都在卷长视频、真实性。在迈向世界模型的过程中，这些指标会发生变化吗？

梅涛：世界模型强调的是生成世界的能力，包括逻辑关系和视觉表现等。我们对自己的视频模型有三个维度的衡量标准：第一是模型能力，即视觉内容的合理性、质量以及与物理规律的符合度，这方面我们必须瞄着天花板去推进；第二是视频时长，目前能做到分钟级生成，技术上甚至可以拓展到3分钟、5分钟甚至无限长；第三是实时性与交互能力——当模型只需1分钟就能生成1分钟长的视频时，基本就具备了交互性。我们希望产品能朝这个方向努力，比如通过算法提供低质量的预览，用户确认后再输出高精度的2K或4K视频。

问：在训练世界模型的过程中，数据是相对稀缺的资源。您认为世界模型的数据获取、清洗和标注策略，与之前训练图像、视频模型相比有何不同？

梅涛：模型训练包含三个核心要素：算法、数据和算力。如果算法框架已经固定，剩下的竞争点就集中在了数据和算力上。举个例子，如果大家都采用DiT架构做视频模型，那么数据质量、分布以及标注的精细程度，对模型能力就非常关键。

不过，一旦算法和架构发生改变，或出现新的架构与算法，数据的重要性就会相对减弱。这也是创业公司的机会所在——我们不完全是拼算力和数据，更注重算法本身的创新。

回到数据层面，为了获取高质量的真实数据和反馈，我们搭建了一套工具链，用于收集、清洗和标注这些数据。我们拥有20万小时有影视版权的视频数据，与多家厂商保持合作关系，同时也在积极寻求与头部影视公司合作，获取他们的版权数据。

世界模型的数据情况与视频模型有所不同：世界模型的数据采集需要全方位、多模态的数据，成本更高，也更加稀缺。因此，智象未来正在做的是，将其他厂商采集到的毫米级真人实操数据，通过视频模型生成万份级不同场景、肤色的真人数据，并用这些真实数据及机器合成数据来训练VLA和WAM模型。

问：用纯真实数据训练模型，与用机器合成数据训练模型，效果会出现差异吗？

梅涛：我们会进行小规模验证，形成从数据到模型训练的闭环。具体来说，就是看用机器生成的数据对市面上常见的乃至最好的VLA和WAM模型是否有增益，反向验证数据的有效性。

问：您曾提及，很多具身智能公司低估了视频模型的重要性。为什么说没有视频模型，具身智能很难走远？

梅涛：目前具身智能公司的模型规模普遍偏小（不到100B）。如果真要承担类似世界模型的复杂任务，依靠小模型和有限的数据采集，几乎很难实现广泛的泛化能力。我们是全球唯三能够达到千亿规模的多模态模型。如果没有一个坚实、厚重的底座模型，具身智能很难实现良好的泛化，即便在特定场景里靠数据采集能够做到一定效果，也很难扩展到其他场景。

多模态模型Token的毛利率，远高于语言模型

问：今年初，Sora的关停下架对国内视频领域的创业者产生了不小影响。这会改变投资人的决策逻辑吗？

王兵：不会。这本质上是OpenAI的战略选择。目前在代码生成领域，OpenAI被Anthropic压得比较紧。在有限的资源和竞争格局下，OpenAI很可能是把短期内难以盈利的图像、视频模型的优先级放低了。

但从去年到今年，整个图像和视频模型行业的商业化进展非常迅猛——比如可灵、Seedance 2.0等，在收入层面都表现不错。不过，视频生成赛道真正可能存在的风险是版权问题，这也是我们选择投资智象未来的关键原因：智象的所有数据都是合法、有版权的。

在大模型极度烧钱的背景下，我们特别看重企业如何用最有效的方式与大型公司形成差异化竞争。具体来说，一方面，企业要用较低的成本做出能力比肩头部大厂的基模，并提升研发效率和资金效率；另一方面，企业要能利用先进技术，快速落地到不同的商业场景中，差异化地做好B端场景服务。

问：视频模型真的能赚钱吗？

王兵：它一定会实现盈利。第一，算力成本一定会指数级下降。英伟达每年推出的芯片算力都是上一代的5-10倍，但价格几乎没有大幅上涨，因此算力的平均价格每年都在下降。你今天看觉得不赚钱的项目，可能过两年就开始盈利了。

第二，过去几年，图像和视频的生成效果还无法达到商业化标准，但今年，我们可以清晰看到包括AI短剧、短视频、电商视频在内的内容几乎都能实现商业化。在影视、广告等几乎所有视频领域的应用场景中，AI一定会取代绝大部分的人工操作。

问：在视频生成行业做To B服务，毛利率能实现为正吗？

梅涛：To B的毛利率相当可观。同时，多模态模型Token的毛利率也远远高于大语言模型Token的毛利率。

问：衡量视频赛道企业是否达到商业化节点，有什么具体标准吗？

王兵：我们观察了这个赛道很长时间，一直没有出手的原因在于，我们不确定什么时间点品质和成本能够达到商业化水平。从去年开始，我就感觉那个“节点”快到了，同时我们也在等那个最合适的商业化拐点。这个拐点一定会来，而且从现在来看，它到来的速度比我们预期的要快。

具体到对企业的衡量标准：第一是团队的技术背景，团队要是该领域的开拓者并经过了长时间的技术积累；第二是稳定性，团队人才密度高，能持续保持稳定；第三是资金效率、研发效率以及团队的长期专注力。

问：您对视频生成赛道创业公司的商业化路径选择怎么看？

王兵：在算力成本大幅下降之前，尽量不要在To C领域与巨头公司正面开战。以智象为代表的创业公司，先做To B肯定是正确的选择——通过做To B，企业能够提升产品的逻辑能力、场景落地能力，在没有大幅烧钱的同时还能实现一定收入。

问：平台与各大模型平台的合作模式与分成机制是什么？分佣比例方便透露吗？在电商、短剧上又存在什么样的合作模式？

梅涛：行业共识是，没有一家厂商的模型能满足客户所有需求。所以，我们打造了MaaS平台，既沉淀自研的多模态能力，也接入DeepSeek等第三方大语言模型，满足客户端到端的需求。平台上沉淀了大量API与Skills，用户贡献行业技能，我们会与之分佣。

在电商短视频广告方面，我们有三种收费模式：一是按Token售卖工具；二是RaaS素材服务；三是按GMV分佣，比例在15%至30%。短剧方面，我们当前主要是给承制方提供AI制作工具，暂不分佣。如果遇到一些精品短剧制作方，比如与安徽电视台、华策的合作，我们会联合承制和发行，这种情况下就会涉及分佣。

问：您之前提到，AI时代不卷是不行的。今年你们调整了公司战略，要做“1+1+3”MaaS平台。是什么时间点或市场触发因素推动了这一决定？

梅涛：我们是科学家创业背景，习惯脚踏实地做事。但真正给我们触动较大的，是Minimax、智谱等企业在港股上市后表现优异。在二级市场上，大家对中国AI公司的估值和信心很强，这让我们意识到需要提升品牌叙事能力。

在一级市场的体感上，2023年大家更关注模型效果，但2024年底至2025年更看重商业化成绩，今年大家开始对标海外模型能力。今年，一级市场和二级市场的投资人都开始回归模型能力本身，都意识到：模型就是产品，产品就是商业化。

我们始终在同步推进模型和商业化。很难说某家公司的模型排名能一直稳居全球第一。如果没有及早建立商业化壁垒、没有用户心智和行业属性，模型能力即便很强，商业化也很难跟上。模型和商业化必须两手抓。

问：从卖通用工具转向卖端到端Agent，你们团队内部有没有发生过争论？

梅涛：这个争论一直存在。最开始我们觉得模型能力就是产品，于是把模型做成了一个简单的C端应用，结果发现并不是这样。除了开发者之外，普通B端用户不会自己写代码去调用模型，而是需要一个Agent作为中间层。

所以从创业第一天起，我们就坚定要做B端的企业服务。关于商业化的大方向我们没有任何动摇，To B和To C我们都做，但中间我们摇摆过到底是做SaaS还是做RaaS（内容即服务），包括为什么选择做内容电商而不是传统的货架电商。我们踩过不少坑后才发现，做货架电商其中的视频或图片可能很长一段时间都不会更换，你很难证明其中的价值。但内容电商的客户每个月要消耗大几千条短视频，超级客户一年要几十万甚至上千万条，这不可能全部用人工拍摄，这就是端到端Agent的价值所在。

问：你们想做企业服务的模式具体指什么？

梅涛：首先，我们不做定制化。我们团队规模才两三百人，但已经服务了4万家中型企业客户、4000万个人用户以及100多家头部客户。我们的企业服务主要包括三方面：一是直接做To大B、To小B或者To C模式的服务；二是与平台型企业合作；三是通过自己的平台服务中小型客户。在AI行业，企业服务不同于传统的B端客户，我们提供标准化的产品和服务，这些客户更像是小B或大C，可能是一个团队，也可能是一个人。

行业尚未出现能一统天下的模型

问：目前国内外大厂都在布局世界模型和视频模型，智象未来准备如何应对日益激烈的竞争？

梅涛：这个问题可以从两方面拆解。第一，智象如何实现与大厂的共存？我们可以把整个行业分成三个层级：第一层是做C端流量入口的平台，如字节、阿里、Google等有流量分发能力的公司；第二层是做底层基座大模型的公司，包括Anthropic、OpenAI，也包括字节、阿里；第三层的公司数量众多，包括大量做Agent的公司以及做应用的公司。我们位于第二层和第三层，既做模型，又做应用。

我们不会与大的模型厂商在底座模型上正面竞争，但会做出差异化竞争。比如，我们的图像开源模型能做到全球排名第一，闭源模型也正在冲刺榜单，目标是进入全球前三。在视频领域，我们正在深耕营销、短剧等垂类应用场景的视频模型。

第二，客户为什么选择与我们合作？我们是一家认真做企业服务的公司，这也是客户选择我们的根本原因。很多人说我们公司有点像视频版的Anthropic，团队一直比较稳定，企业服务的基因也很强。我们想靠模型能力、产品能力和生态能力，在整个商业化环境中走得更远。

问：在与大厂争夺获客的过程中，你们是如何操作的？

梅涛：大公司平台通常不会做很深的应用和服务，但对于我们这类企业而言，首先要做的是产品、服务，并形成闭环。例如，在商业短视频营销上，我们提供了HiBurst服务加SaaS化的工具。

我们与大厂相比的优势和差异化体现在以下几个方面：在图片领域，我们要成为客户的必选项；在视频领域，我们倾向于深耕部分垂类场景——一是无限长视频的生成、长思考和长时长，二是营销场景，做好“人货场”的交互，三是短剧领域，我们的MaaS平台能优化、编排自研和第三方模型。

总体来看，在To B上，我们既做自己的产品，也做整个行业的生态。策略是，在接入自家产品的同时，也接入第三方模型公司的产品，为用户提供一个端到端的产品和服务。

问：您提到做平台是为了补齐短板，但相比于其他打出“降本”口号的平台，你们如何说服用户付费，并选择你们平台上的生态伙伴？

梅涛：我们与大厂在平台上正面竞争意义不大。首先，我们构建了完整的产品能力，能支撑业务快速迭代；其次，我们提供的是差异化的模型能力——比如智象的图片模型在性价比上具备国际竞争力，在视频领域，无论是直播场景、漫剧还是特定内容创作，我们都有大厂覆盖不到的细分优势。目前行业尚未出现能一统天下的模型，这为我们差异化生存留出了空间。

更关键的是，我们沉淀了大量Skills和行业Knowhow，这也是我们与客户共创的核心。特别是在短视频营销和AI短剧领域，我们通过分析特定区域、国家及类目的爆款逻辑，提供爆款创意裂变方案。这种对爆款规律的把控能力，其价值或许远大于单纯的内容生产本身。

来源：互联网

上一篇 Claude Opus 4.8旗舰大语言模型深度测评：性能、定价、体验与竞品全方位对比分析 下一篇 世界杯预测人机大战联想大模型对决亿万球迷

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

多模态模型Token毛利率远高于语言模型，智象未来CEO梅涛最新观点揭秘

摘要

很多具身智能公司低估了视频模型的价值

多模态模型Token的毛利率，远高于语言模型

行业尚未出现能一统天下的模型

相关文章推荐