菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > AI资讯新闻 > 智象未来HiDream-O1-Image-Pro图像大模型深度测评:两千亿参数解析
技术资讯 大模型 智象未来 两千亿参数

智象未来HiDream-O1-Image-Pro图像大模型深度测评:两千亿参数解析

2026-05-21
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

智象未来发布超两千亿参数图像大模型HiDream-O1-Image-Pro,基于原生全模态架构,在多模态统

5月19日,智象未来在北京举办首届开放日,以“Imaging the World”为主题,正式发布其图像大模型HiDream-O1-Image-Pro。该模型基于新一代原生全模态架构Unified Transformer(UiT)构建,参数量突破两千亿,在多项基准测试中刷新了SOTA成绩。此次发布标志着智象未来的技术路径正从单一模态,全面转向图像、视频、文本、音频等多模态统一建模的新阶段。

资本市场对此给予了积极回应。开放日上,智象未来宣布完成新一轮亿级融资,投资方包括深创投、金浦投资、财鑫资本、复聚资本等机构。这是公司在半个月内完成的又一次融资,其密集的融资节奏,清晰地反映了市场对“原生全模态”这一技术方向的持续看好。在视觉生成与具身智能加速融合的背景下,构建“世界模型”已成为AI演进的核心战场。智象未来在底层架构、产品化及生态布局上的进展,获得了市场的进一步认可。

智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布,融资持续提速

200B+ 参数图像大模型HiDream-O1-Image-Pro 发布,原生全模态架构全面升级

当前,图像生成模型的技术架构正经历关键转折:从传统的U-Net架构,全面转向扩散Transformer(DiT)。以潜在扩散模型(LDM)为代表的现有方案,依赖VAE压缩图像和独立语言模型处理文本,虽在效率和质量上有所突破,但其图像与文本分离编码的设计,在复杂语义理解、高保真细节还原、精准文字渲染及多任务泛化等方面,存在难以突破的瓶颈。

智象未来的解决方案是“原生全模态”。HiDream-O1-Image-Pro正是这一理念的产物。它摒弃了传统的多模块拼接范式,将原始图像像素、离散文本标记及各类任务条件,统一编码到一个连续、共享的标记空间中。这种底层表征的深度融合,从根本上提升了模型能力,使其在通用文生图、高保真文字渲染、多样化场景生成和图像编辑等复杂任务中,达到了新的性能高度,充分验证了原生全模态架构的优越性。

智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布,融资持续提速

谈及技术路线选择,智象未来创始人兼CEO梅涛指出,当前许多“多模态大模型”本质仍是“单模态的拼接”。真正的原生多模态,应从模型设计之初,就将物理定律、空间关系和因果逻辑等“世界规则”内化到其架构中。这样的模型才能真正理解、推理并重构世界,而非仅仅停留在内容生成层面。梅涛认为,原生全模态是实现通用人工智能(AGI)的必经路径。

智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布,融资持续提速

技术实力由实际成绩佐证。智象未来联合创始人兼CTO姚霆透露,此前采用同架构的8B参数开源版本HiDream-O1-Image,已在独立评测平台Artificial Analysis的文生图榜单中,位列开源模型全球第一,性能超越了Z-Image Turbo、Qwen-Image等主流模型,且是榜单前20名中参数量最小的模型。此次发布的闭源版本HiDream-O1-Image-Pro,参数量跃升至超两千亿,在复杂文本渲染、指令跟随编辑、多主体个性化生成等高难度任务上树立了新标杆,证明了该架构强大的可扩展性。

“在原生全模态架构下,所有模态从一开始就是深度融合的,”姚霆解释道,“这种设计的优势在于,打通所有模态后,模型能够真正实现‘Any to Any’——支持任意形式的输入,产生任意形式的输出。这正是构建世界模型所需的核心能力:在一个统一架构中,理解、生成并预测现实世界的不同状态。”

智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布,融资持续提速

从视觉生成走向世界模型:行业共议 AGI关键路径

一个明确的行业共识正在浮现:大模型的竞争焦点,已从早期的语言理解和内容生成,转向对真实物理世界的理解、生成与预测。尽管“世界模型”的具体技术路线仍在探索,但目标一致——让AI超越内容生成,建立起对世界状态及其变化规律的内在表征能力。

在开放日的圆桌论坛中,来自东方富海、微软亚洲研究院、阿里云、智象未来技术团队及AI媒体的嘉宾,围绕“从多模态到全模态,构建世界模型,走向AGI”展开了深度讨论。话题涵盖AI投资逻辑、具身智能前沿、AI基础设施支撑以及原生全模态的实践,共同勾勒出世界模型发展的多元图景。

与会者普遍认为,AI正经历从“生成内容”到“理解世界”的范式迁移。视觉生成、智能体、具身智能和多模态模型的融合,其核心指向同一个命题:模型能否理解不同模态下的环境状态、预测状态变化,并最终形成统一的、跨模态的世界表征。

从这个视角看,视觉生成不仅是内容生产工具。它天然需要学习空间结构、物体关系、运动轨迹和状态变化,因此具备了向世界模型延伸的坚实基础。原生全模态架构的核心价值,正是为图像、视频、文本、音频乃至未来的动作和具身数据,提供了一个统一的建模框架,推动模型从单点模态的卓越能力,迈向更完整、更通用的世界建模能力。

智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布,融资持续提速

半月内完成多轮融资,三大Agent产品持续扩展商业生态

资本市场的动向是技术风向的敏锐指针。不久前,智象未来刚完成超5亿元融资,吸引了安徽省产投、合肥产投、东方富海等机构。本次开放日透露的半月内再度完成的新一轮融资,由深创投、金浦投资、财鑫资本、复聚资本等参与,印证了其“融资持续提速”的势头。

新投资方的背景值得关注。金浦投资在算力基础设施、大模型和智能体应用领域深度布局;财鑫资本聚焦人工智能、具身智能等硬科技的产业落地;复聚投资专注于前沿细分领域的领航企业。他们的加入,使智象未来的股东阵容形成了产业基金与头部市场化投资机构共同支持的多元化格局。

融资节奏加快的背后,是清晰的商业化战略在支撑。智象未来确立了“模型+智能体”双轮驱动战略,构建了“1+1+3”的业务架构:底层是1个HiDream系列大模型作为技术基座;中间是1个HiHarness企业服务平台作为能力中台;上层则覆盖商业营销、影视创作和社媒创作三大核心场景的智能体应用。

开放日现场,三位产品负责人展示了这些智能体应用的落地成果:

商业营销智能体HiBurst,已深入跨境电商内容营销、媒体运营和应用出海场景,支持TikTok、Meta、抖音、小红书等主流平台,并成为TikTok官方Top 5服务商,年生产电商营销视频超百万条,覆盖GMV已超亿元。

专业级AI影视创作智能体“帧赞”,以电影级画质生成和全流程打通能力,为专业团队提供高效协作工具。平台已累计制作短漫剧超5000分钟,入驻专业团队与生态伙伴超千家。

社媒创作智能体vivago,凭借端到端的“长思考”能力稳定输出分钟级故事视频,近日完成升级后迅速登上Product Hunt日榜第一,目前已覆盖全球超100个国家及地区的4000多万用户。

生态合作也在同步拓展。活动现场,智象未来宣布与上海电影集团、蓝色光标、北京捷成世纪、倍尔健康等影视、营销、医疗健康领域的领军企业达成战略合作。各方将围绕大模型能力调用、智能体应用开发和行业场景共建展开深度合作,共同推动原生全模态技术在多个产业赛道的落地。

智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布,融资持续提速

从视觉生成,到构建世界

从HiDream-O1-Image-Pro的发布,到三大智能体产品的扎实落地,再到与产业伙伴的生态联动,智象未来正勾勒出一条清晰的发展路径:以原生全模态架构为基石,持续锤炼视觉生成能力,并以此为跳板,向世界模型所必需的统一理解、生成与预测能力稳步演进。

这也正是其开放日主题“Imaging the World”的深层含义——它不再局限于“生成视觉内容”,而是希望通过原生全模态的建模方式,让AI逐步获得理解世界、生成世界乃至构建世界的能力。未来,智象未来将继续围绕UiT原生全模态架构,推动底层模型、上层智能体与具体产业场景的协同演进,向更完整、更智能的“世界模型”持续迈进。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多