DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源
摘要
DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源 北京时间今日凌晨
DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源
北京时间今日凌晨,AI领域又迎来一个重磅消息。DeepSeek正式开源了其全新的视觉多模态模型 Janus-Pro-7B。这可不是普通的更新,从已披露的测试结果看,它在GenEval和DPG-Bench基准测试中,已经超越了Stable Diffusion和OpenAI的DALL-E 3。深夜发布,出手就是王炸。


附上核心资源地址,感兴趣的开发者可以立即上手:
- GitHub:点此前往
- HuggingFace:点此前往
官方的技术说明,直指其核心创新点。简单来说,Janus-Pro实现了一种创新的自回归框架,目标是把多模态信息的“理解”和“生成”统一起来。关键突破在于,它不再将视觉编码过程视为一个整体,而是聪明地将其拆分成多条独立的路径。这种解耦设计,有效避免了传统框架中视觉编码器在既理解又生成时可能出现的“内部打架”问题,模型的灵活性也因此大增。结果就是,Janus不仅在统一模型中表现出色,即便跟那些专门为某个任务打造的模型相比,也毫不逊色。它简洁、灵活且高效的特点,让人很难不把它看作是下一代统一多模态模型的有力竞争者。
再来看看技术摘要里划出的重点:Janus-Pro本质上是一个统一的多模态大语言模型。它的高效秘诀,正是将视觉编码过程从繁重的多模态理解和生成任务中“解放”出来,实现解耦。这个模型是基于 DeepSeek-LLM-1.5b-base 和 7b-base 版本构建的。具体操作上,在处理多模态理解任务时,它调用SigLIP-L作为视觉编码器,支持最高384 x 384像素的图像输入;而当任务切换到图像生成时,则启用一个来自特定来源的、降采样率为16的分词器。分工明确,各司其职。
Janus-Pro是此前Janus模型的进阶版。那么,进阶在哪儿?主要集中在三个方面:整合了更优的训练策略、扩展了训练数据的规模,并且将模型体量进一步放大。这一系列组合拳打下来,效果立竿见影:Janus-Pro在多模态理解能力和文本到图像的指令跟随能力上取得了显著进步,同时,文本到图像生成的稳定性也得到了切实增强。
更值得玩味的是其背后的JanusFlow架构。官方介绍,这是一种极为简约的设计思路,创新性地将自回归语言模型与校正流——一种当前顶流的生成模型方法——集成在了一起。研究发现,校正流竟然可以直接在大型语言模型的框架内进行训练,无需进行复杂的架构魔改。大量实验数据给出了有力证明:JanusFlow在其涉及的领域内,取得了与专用模型旗鼓相当、甚至更优的性能,并且在标准基准测试中,显著超越了现有的各类统一方法。这无疑标志着,我们向构建更高效、更通用的视觉语言模型,又扎实地迈进了一大步。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。