腾讯云WAND音视频AI评测:六大自研模型+60项AI能力
摘要
腾讯云音视频发布AI原生能力底座WAND,采用三层架构,集成六大自研媒体大模型与60余项AI
6月5日,在AI产业应用大会聚光灯下,腾讯云音视频正式推出自研AI原生音视频能力底座——WAND。基于二十余年底层技术沉淀,WAND从模型架构、核心媒体能力到接入范式实现了全栈式重构。音视频AI能力以Agent-Native方式全面开放,标志着腾讯云音视频的战略重心从单一媒体处理能力输出,升级为面向AI原生应用与智能体的全栈媒体基础设施。

WAND采用三层架构:模型引擎层、能力层、场景方案层。模型引擎层集成六大自研媒体专用大模型——编解码、画质增强、内容擦除、多模态生成、语义理解、音频处理,精准补齐通用生成式大模型在专业音视频生产链路中的短板。能力层对60多项音视频AI能力按“生成—理解—处理—编码”四大维度进行体系化重构,并通过标准化API、预置Agent工作流以及可复用Skills组件三种方式开放调用。由此,Agent驱动的端到端自动执行得以实现,全程无需人工干预或工具切换。

WAND能力架构图
落到实际场景,WAND表现亮眼。在电商领域,其生成模型依据商品类目动态匹配处理策略,显著降低任务失败率,同时提升生成图像的可用性与合规性。短剧与漫剧创作方面,WAND打通剧本生成、角色形象一致性维护到分镜渲染的全链条,构建全自动生产流水线,整体创作效率提升90%——目前国内超80%的头部漫剧平台已接入该方案。此外,AI画质增强与无痕内容擦除技术斩获NAB Show 2026年度产品奖,实至名归。
针对赛事直播这类高并发、超低延时核心场景,WAND依靠自研模型协同调度机制,将目标识别、画面生成、实时合成与高效编码深度耦合成闭环自动化流程。在保证极致体验的前提下,相比传统方案可节省超过50%的码率。该能力已成功支撑全球数千场顶级体育赛事直播。
作为连续11年稳居中国及海外音视频云服务市场份额首位的领军者,腾讯云音视频正通过WAND加速音视频能力向“Agent可调度、可编排、可生产”的工业级工具演进。AI Agent时代的视听内容创新技术基座,正在被牢牢夯实。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。