多模态模型Token毛利率远高于语言模型,智象未来CEO梅涛最新观点揭秘
摘要
文|王欣逸 李嘉星 编辑|周鑫雨 一家从成立起就将重心锁定在原生多模态赛道的公司,面
文|王欣逸 李嘉星

编辑|周鑫雨
一家从成立起就将重心锁定在原生多模态赛道的公司,面对具身智能与世界模型的浪潮,没有理由也无从置身事外。
2026年,随着Seedance 2.0、GPT Image 2.0等模型的引爆,多模态能力已成为行业角逐的必选项。5月19日,在智象未来首届开放日上,该公司给出了明确判断:“原生多模态是逼近AGI的必经路径。”
开放日的主题定为“Imaging the World”。但对智象未来而言,“World”的权重正迅速压过“Video”和“Image”。
“我们的最终目标是构建世界模型。”智象未来CEO梅涛在活动中反复强调这一主张。在他的定义中,智象未来的定位是一家原生多模态大模型公司——一个真正的世界模型,必须同时满足几个关键条件:掌握物理规律、解决长时间跨度的因果推理、实现全模态交互,以及绝对的可靠性与安全性。
当前主流的的世界模型训练思路,大致可分为两大流派:李飞飞倡导的“生成3D世界”路线,以及Yann LeCun主张的“自监督预测世界”路线。
智象未来选择了一条差异化路径——从算法与架构层面寻求突破,直击世界模型训练中最稀缺且成本最高的多模态数据领域。他们率先聚焦于视频、图像、3D交互等数据的生成,利用低成本合成数据应对行业的数据短缺瓶颈,并在此过程中积累可复用于世界模型的视觉模型能力。
具体而言,即让多模态模型从构建之初就具备理解真实世界规则的能力。原生全模态Unified Transformer(UiT)架构具备“Any to Any”(任意形式输入支持任意形式输出)的能力,而这正是世界模型所需的核心素质:在统一架构中理解、生成并预测现实世界的不同状态。
过去一段时间,他们完成了一次关键的战略转向:从“模型即产品”切换至“构建Agent平台”。
作为一家以To B为主的公司,他们将自己的策略总结为“1+1+3”MaaS(模型即服务)平台:底层部署HiDream系列大模型,中间层搭建HiHarness企业服务平台,上层则覆盖三大应用场景——商业营销、影视创作、社媒创作。
概念持续升温,资本也在加速涌入。继上个月获得安徽省产投、东方富海等机构投资的5亿元B轮融资后,智象未来又迅速完成了新一轮亿元级融资。
但竞争也在同步升级。模型能力不断强悍,在与国内外基模厂商的角力中,智象未来还必须握紧手中的新牌——MaaS平台,并在视频生成的垂类赛道上与巨头展开正面较量。
开放日结束后,《智能涌现》等媒体与智象未来CEO梅涛,以及其投资人东方富海合伙人王兵进行了深度对话。以下为对话实录(略有摘编)。
很多具身智能公司低估了视频模型的价值
问:在公众认知中,智象未来此前在图像和视频领域较为活跃。从二维的图像、视频向三维物理世界转型,你们是如何思量并启动的?
梅涛:当前业内部分模型被称为世界模型,实际上还为时过早。世界模型有不同的实现路径,未来也可能存在多种可能性。
直到今天,我们不会对外宣称自己是一家世界模型公司。我们更倾向将智象未来定义为一家原生多模态大模型公司。原生多模态大模型公司,未来必然通向世界模型。
问:当前许多公司都标榜在做“世界模型”,但外界对这一概念的定义依然模糊。您如何界定智象未来所追求的“世界模型”?
梅涛:我们非常谨慎地认为,智象未来打造的是原生多模态模型。在迈向世界模型的进程中,我们会重点聚焦于视频、图像、3D交互等数据的生成。
问:智象未来从拼接式多模态升级为原生多模态,技术节点发生在哪个阶段?当前技术是否已经成熟?
梅涛:多模态生成领域的技术尚未收敛,这正是创业公司可以发力的窗口期。如果技术完全收敛、业界统一采用DIT框架,我们也就不存在突围空间。正是因为技术没有快速收敛,我们才得以通过算法创新,以相对较少的资源实现与大厂同等的能力,而非单纯比拼数据和算力。
问:从全模态大模型演进到世界模型,还需要具备哪些成熟的技术条件?
梅涛:第一是掌握物理规律,包括流体力学、固体力学、分子动力学以及牛顿定律等,目前行业尚难以全面枚举与掌控;第二是解决长上下文下的因果关系问题;第三是实现与物理世界的全模态交互——比如机器人如何拿起杯子、拧开盖子、倒水并判断用户需求,这距离实际落地的要求还很远;第四是安全性,机器人一旦进入家庭,必须确保绝对安全。
我们现阶段更务实的选择是聚焦原生多模态问题,既能实现商业化落地,也能为未来向世界模型演进积累技术储备。
问:许多视频生成模型公司都在卷长视频、真实性。在迈向世界模型的过程中,这些指标会发生变化吗?
梅涛:世界模型强调的是生成世界的能力,包括逻辑关系和视觉表现等。我们对自己的视频模型有三个维度的衡量标准:第一是模型能力,即视觉内容的合理性、质量以及与物理规律的符合度,这方面我们必须瞄着天花板去推进;第二是视频时长,目前能做到分钟级生成,技术上甚至可以拓展到3分钟、5分钟甚至无限长;第三是实时性与交互能力——当模型只需1分钟就能生成1分钟长的视频时,基本就具备了交互性。我们希望产品能朝这个方向努力,比如通过算法提供低质量的预览,用户确认后再输出高精度的2K或4K视频。
问:在训练世界模型的过程中,数据是相对稀缺的资源。您认为世界模型的数据获取、清洗和标注策略,与之前训练图像、视频模型相比有何不同?
梅涛:模型训练包含三个核心要素:算法、数据和算力。如果算法框架已经固定,剩下的竞争点就集中在了数据和算力上。举个例子,如果大家都采用DiT架构做视频模型,那么数据质量、分布以及标注的精细程度,对模型能力就非常关键。
不过,一旦算法和架构发生改变,或出现新的架构与算法,数据的重要性就会相对减弱。这也是创业公司的机会所在——我们不完全是拼算力和数据,更注重算法本身的创新。
回到数据层面,为了获取高质量的真实数据和反馈,我们搭建了一套工具链,用于收集、清洗和标注这些数据。我们拥有20万小时有影视版权的视频数据,与多家厂商保持合作关系,同时也在积极寻求与头部影视公司合作,获取他们的版权数据。
世界模型的数据情况与视频模型有所不同:世界模型的数据采集需要全方位、多模态的数据,成本更高,也更加稀缺。因此,智象未来正在做的是,将其他厂商采集到的毫米级真人实操数据,通过视频模型生成万份级不同场景、肤色的真人数据,并用这些真实数据及机器合成数据来训练VLA和WAM模型。
问:用纯真实数据训练模型,与用机器合成数据训练模型,效果会出现差异吗?
梅涛:我们会进行小规模验证,形成从数据到模型训练的闭环。具体来说,就是看用机器生成的数据对市面上常见的乃至最好的VLA和WAM模型是否有增益,反向验证数据的有效性。
问:您曾提及,很多具身智能公司低估了视频模型的重要性。为什么说没有视频模型,具身智能很难走远?
梅涛:目前具身智能公司的模型规模普遍偏小(不到100B)。如果真要承担类似世界模型的复杂任务,依靠小模型和有限的数据采集,几乎很难实现广泛的泛化能力。我们是全球唯三能够达到千亿规模的多模态模型。如果没有一个坚实、厚重的底座模型,具身智能很难实现良好的泛化,即便在特定场景里靠数据采集能够做到一定效果,也很难扩展到其他场景。
多模态模型Token的毛利率,远高于语言模型
问:今年初,Sora的关停下架对国内视频领域的创业者产生了不小影响。这会改变投资人的决策逻辑吗?
王兵:不会。这本质上是OpenAI的战略选择。目前在代码生成领域,OpenAI被Anthropic压得比较紧。在有限的资源和竞争格局下,OpenAI很可能是把短期内难以盈利的图像、视频模型的优先级放低了。
但从去年到今年,整个图像和视频模型行业的商业化进展非常迅猛——比如可灵、Seedance 2.0等,在收入层面都表现不错。不过,视频生成赛道真正可能存在的风险是版权问题,这也是我们选择投资智象未来的关键原因:智象的所有数据都是合法、有版权的。
在大模型极度烧钱的背景下,我们特别看重企业如何用最有效的方式与大型公司形成差异化竞争。具体来说,一方面,企业要用较低的成本做出能力比肩头部大厂的基模,并提升研发效率和资金效率;另一方面,企业要能利用先进技术,快速落地到不同的商业场景中,差异化地做好B端场景服务。
问:视频模型真的能赚钱吗?
王兵:它一定会实现盈利。第一,算力成本一定会指数级下降。英伟达每年推出的芯片算力都是上一代的5-10倍,但价格几乎没有大幅上涨,因此算力的平均价格每年都在下降。你今天看觉得不赚钱的项目,可能过两年就开始盈利了。
第二,过去几年,图像和视频的生成效果还无法达到商业化标准,但今年,我们可以清晰看到包括AI短剧、短视频、电商视频在内的内容几乎都能实现商业化。在影视、广告等几乎所有视频领域的应用场景中,AI一定会取代绝大部分的人工操作。
问:在视频生成行业做To B服务,毛利率能实现为正吗?
梅涛:To B的毛利率相当可观。同时,多模态模型Token的毛利率也远远高于大语言模型Token的毛利率。
问:衡量视频赛道企业是否达到商业化节点,有什么具体标准吗?
王兵:我们观察了这个赛道很长时间,一直没有出手的原因在于,我们不确定什么时间点品质和成本能够达到商业化水平。从去年开始,我就感觉那个“节点”快到了,同时我们也在等那个最合适的商业化拐点。这个拐点一定会来,而且从现在来看,它到来的速度比我们预期的要快。
具体到对企业的衡量标准:第一是团队的技术背景,团队要是该领域的开拓者并经过了长时间的技术积累;第二是稳定性,团队人才密度高,能持续保持稳定;第三是资金效率、研发效率以及团队的长期专注力。
问:您对视频生成赛道创业公司的商业化路径选择怎么看?
王兵:在算力成本大幅下降之前,尽量不要在To C领域与巨头公司正面开战。以智象为代表的创业公司,先做To B肯定是正确的选择——通过做To B,企业能够提升产品的逻辑能力、场景落地能力,在没有大幅烧钱的同时还能实现一定收入。
问:平台与各大模型平台的合作模式与分成机制是什么?分佣比例方便透露吗?在电商、短剧上又存在什么样的合作模式?
梅涛:行业共识是,没有一家厂商的模型能满足客户所有需求。所以,我们打造了MaaS平台,既沉淀自研的多模态能力,也接入DeepSeek等第三方大语言模型,满足客户端到端的需求。平台上沉淀了大量API与Skills,用户贡献行业技能,我们会与之分佣。
在电商短视频广告方面,我们有三种收费模式:一是按Token售卖工具;二是RaaS素材服务;三是按GMV分佣,比例在15%至30%。短剧方面,我们当前主要是给承制方提供AI制作工具,暂不分佣。如果遇到一些精品短剧制作方,比如与安徽电视台、华策的合作,我们会联合承制和发行,这种情况下就会涉及分佣。
问:您之前提到,AI时代不卷是不行的。今年你们调整了公司战略,要做“1+1+3”MaaS平台。是什么时间点或市场触发因素推动了这一决定?
梅涛:我们是科学家创业背景,习惯脚踏实地做事。但真正给我们触动较大的,是Minimax、智谱等企业在港股上市后表现优异。在二级市场上,大家对中国AI公司的估值和信心很强,这让我们意识到需要提升品牌叙事能力。
在一级市场的体感上,2023年大家更关注模型效果,但2024年底至2025年更看重商业化成绩,今年大家开始对标海外模型能力。今年,一级市场和二级市场的投资人都开始回归模型能力本身,都意识到:模型就是产品,产品就是商业化。
我们始终在同步推进模型和商业化。很难说某家公司的模型排名能一直稳居全球第一。如果没有及早建立商业化壁垒、没有用户心智和行业属性,模型能力即便很强,商业化也很难跟上。模型和商业化必须两手抓。
问:从卖通用工具转向卖端到端Agent,你们团队内部有没有发生过争论?
梅涛:这个争论一直存在。最开始我们觉得模型能力就是产品,于是把模型做成了一个简单的C端应用,结果发现并不是这样。除了开发者之外,普通B端用户不会自己写代码去调用模型,而是需要一个Agent作为中间层。
所以从创业第一天起,我们就坚定要做B端的企业服务。关于商业化的大方向我们没有任何动摇,To B和To C我们都做,但中间我们摇摆过到底是做SaaS还是做RaaS(内容即服务),包括为什么选择做内容电商而不是传统的货架电商。我们踩过不少坑后才发现,做货架电商其中的视频或图片可能很长一段时间都不会更换,你很难证明其中的价值。但内容电商的客户每个月要消耗大几千条短视频,超级客户一年要几十万甚至上千万条,这不可能全部用人工拍摄,这就是端到端Agent的价值所在。
问:你们想做企业服务的模式具体指什么?
梅涛:首先,我们不做定制化。我们团队规模才两三百人,但已经服务了4万家中型企业客户、4000万个人用户以及100多家头部客户。我们的企业服务主要包括三方面:一是直接做To大B、To小B或者To C模式的服务;二是与平台型企业合作;三是通过自己的平台服务中小型客户。在AI行业,企业服务不同于传统的B端客户,我们提供标准化的产品和服务,这些客户更像是小B或大C,可能是一个团队,也可能是一个人。
行业尚未出现能一统天下的模型
问:目前国内外大厂都在布局世界模型和视频模型,智象未来准备如何应对日益激烈的竞争?
梅涛:这个问题可以从两方面拆解。第一,智象如何实现与大厂的共存?我们可以把整个行业分成三个层级:第一层是做C端流量入口的平台,如字节、阿里、Google等有流量分发能力的公司;第二层是做底层基座大模型的公司,包括Anthropic、OpenAI,也包括字节、阿里;第三层的公司数量众多,包括大量做Agent的公司以及做应用的公司。我们位于第二层和第三层,既做模型,又做应用。
我们不会与大的模型厂商在底座模型上正面竞争,但会做出差异化竞争。比如,我们的图像开源模型能做到全球排名第一,闭源模型也正在冲刺榜单,目标是进入全球前三。在视频领域,我们正在深耕营销、短剧等垂类应用场景的视频模型。
第二,客户为什么选择与我们合作?我们是一家认真做企业服务的公司,这也是客户选择我们的根本原因。很多人说我们公司有点像视频版的Anthropic,团队一直比较稳定,企业服务的基因也很强。我们想靠模型能力、产品能力和生态能力,在整个商业化环境中走得更远。
问:在与大厂争夺获客的过程中,你们是如何操作的?
梅涛:大公司平台通常不会做很深的应用和服务,但对于我们这类企业而言,首先要做的是产品、服务,并形成闭环。例如,在商业短视频营销上,我们提供了HiBurst服务加SaaS化的工具。
我们与大厂相比的优势和差异化体现在以下几个方面:在图片领域,我们要成为客户的必选项;在视频领域,我们倾向于深耕部分垂类场景——一是无限长视频的生成、长思考和长时长,二是营销场景,做好“人货场”的交互,三是短剧领域,我们的MaaS平台能优化、编排自研和第三方模型。
总体来看,在To B上,我们既做自己的产品,也做整个行业的生态。策略是,在接入自家产品的同时,也接入第三方模型公司的产品,为用户提供一个端到端的产品和服务。
问:您提到做平台是为了补齐短板,但相比于其他打出“降本”口号的平台,你们如何说服用户付费,并选择你们平台上的生态伙伴?
梅涛:我们与大厂在平台上正面竞争意义不大。首先,我们构建了完整的产品能力,能支撑业务快速迭代;其次,我们提供的是差异化的模型能力——比如智象的图片模型在性价比上具备国际竞争力,在视频领域,无论是直播场景、漫剧还是特定内容创作,我们都有大厂覆盖不到的细分优势。目前行业尚未出现能一统天下的模型,这为我们差异化生存留出了空间。
更关键的是,我们沉淀了大量Skills和行业Knowhow,这也是我们与客户共创的核心。特别是在短视频营销和AI短剧领域,我们通过分析特定区域、国家及类目的爆款逻辑,提供爆款创意裂变方案。这种对爆款规律的把控能力,其价值或许远大于单纯的内容生产本身。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。