在人工智能技术迅猛发展的当下,「使机器深度认知世界」的需求变得前所未有的紧迫。无论是电商中
在人工智能技术迅猛发展的当下,「使机器深度认知世界」的需求变得前所未有的紧迫。无论是电商中的跨模态搜索、智能助手的多轮交互,还是内容平台的精准推送,其底层都依赖于一项核心能力——将文本、图像、视频等各类信息形式转化为计算机可处理的「向量」,并通过向量之间的关联实现高效匹配与检索。
6月24日,火山引擎正式推出全模态向量化模型Seed1.6-Embedding,凭借三大关键突破,重新定义了向量化的性能边界:该模型不仅在权威评测中包揽中文文本和多模态任务的SOTA成绩,还首次实现了「文本+图像+视频」多模态融合检索,并通过指令自定义功能显著降低应用门槛。
从“单模态支持”迈向“全任务领先”:Seed1.6-Embedding的技术亮点
为满足行业对多模态深层理解与高效率检索的双重需求,研发团队采用“文本继续训练—多模态继续训练—精调”的多阶段训练策略,依托海量文本、图文对、视频文对数据构建多任务训练集,结合指令引导、数据合成、增强以及分层负样本策略进行混合训练,全面提升模型在细分场景和复杂任务下的表现力,使其成为覆盖广泛场景的向量化“全能型选手”。
全面任务领先:中文文本、图像、视频三榜登顶
在最能体现模型泛化能力的权威榜单中,Seed1.6-Embedding展现出明显优势:
纯文本任务方面,在CMTEB中文文本向量评测榜单上,模型以75.62的高分刷新记录,在检索、分类、语义匹配等通用任务中持续领跑;
在多模态任务中,模型在MMEB_v2榜单上图片与视频向量化任务均拔得头筹,实现大幅领先。其中在MMEB_v2Image 榜单上,模型得分77.78,领先第二名5.6分;新增的视频模态任务在MMEB_v2video 榜单中更是甩开第二名20.1分。
全模态混合检索:实现“文+图+视频”统一向量空间表达
传统多模态向量化模型往往局限于单一输入输出模式,而实际应用中用户更倾向于混合检索方式(如文搜图或图文搜视频)来获取目标内容。Seed1.6-Embedding打破这一限制:
新增视频向量化能力:能够对人物、动作、场景等视频核心语义进行统一表征;
支持全模态混合检索:允许文本、图像、视频等多种形态输入并进行统一向量表示,输出向量保留各模态关键特征,真正实现“无界限跨模态检索”。
指令定制增强:让向量生成“随需而动”
在实际业务落地过程中,不同场景对向量的关注点存在差异:例如电商平台需要突出商品价格、材质等属性,新闻平台则关注事件时间、情感倾向。以往企业往往需要大量标注数据进行微调,成本高昂且周期长。
Seed1.6-Embedding引入指令增强机制,使向量生成更具可控性:用户只需配置定制化指令模板,即可像下达任务清单一样引导向量表达更加贴合具体业务需求。这种能力让模型适配新场景从“重训练”变为“轻调整”,低成本支撑电商推荐、知识问答等多种应用场景,实现一模型多用途,灵活响应变化。
从“技术创新”走向“场景落地”:火山方舟助力快速部署
优秀的模型最终要服务于实际应用。为了加快Seed1.6-Embedding在真实业务中的部署效率,火山方舟同步开放两大接入方式:
火山方舟API接口:模型已上线火山方舟控制台,专业开发者可直接调用API,无需搭建模型训练与部署环境,即可快速集成到业务流程中;
VikingDB向量数据库:火山方舟旗下的VikingDB已完成与Seed1.6-Embedding的深度集成,提供“向量生成+存储+检索”一体化解决方案,企业无需额外开发即可直接使用。
未来,团队将持续深耕向量化技术。预计2025年下半年,用户可在火山方舟体验中心实现可视化操作和多模态检索功能,VikingDB也将支持全模态数据自动向量化,并开源图文与视频检索项目,助力企业和开发者快速集成至实际业务中。火山引擎将以更开放的姿态,携手合作伙伴共同探索“让AI理解世界”的无限可能。
菜鸟下载发布此文仅为传递信息,不代表菜鸟下载认同其观点或证实其描述。
版权投诉请发邮件到 cn486com#outlook.com (把#改成@),我们会尽快处理
Copyright © 2019-2020 菜鸟下载(www.cn486.com).All Reserved | 备案号:湘ICP备2023003002号-8
本站资源均收集整理于互联网,其著作权归原作者所有,如有侵犯你的版权,请来信告知,我们将及时下架删除相应资源