其他资讯综合资讯

腾讯云WAND音视频AI评测：六大自研模型+60项AI能力

2026-06-07

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

腾讯云音视频发布AI原生能力底座WAND，采用三层架构，集成六大自研媒体大模型与60余项AI

6月5日，在AI产业应用大会聚光灯下，腾讯云音视频正式推出自研AI原生音视频能力底座——WAND。基于二十余年底层技术沉淀，WAND从模型架构、核心媒体能力到接入范式实现了全栈式重构。音视频AI能力以Agent-Native方式全面开放，标志着腾讯云音视频的战略重心从单一媒体处理能力输出，升级为面向AI原生应用与智能体的全栈媒体基础设施。

WAND采用三层架构：模型引擎层、能力层、场景方案层。模型引擎层集成六大自研媒体专用大模型——编解码、画质增强、内容擦除、多模态生成、语义理解、音频处理，精准补齐通用生成式大模型在专业音视频生产链路中的短板。能力层对60多项音视频AI能力按“生成—理解—处理—编码”四大维度进行体系化重构，并通过标准化API、预置Agent工作流以及可复用Skills组件三种方式开放调用。由此，Agent驱动的端到端自动执行得以实现，全程无需人工干预或工具切换。

WAND能力架构图

落到实际场景，WAND表现亮眼。在电商领域，其生成模型依据商品类目动态匹配处理策略，显著降低任务失败率，同时提升生成图像的可用性与合规性。短剧与漫剧创作方面，WAND打通剧本生成、角色形象一致性维护到分镜渲染的全链条，构建全自动生产流水线，整体创作效率提升90%——目前国内超80%的头部漫剧平台已接入该方案。此外，AI画质增强与无痕内容擦除技术斩获NAB Show 2026年度产品奖，实至名归。

针对赛事直播这类高并发、超低延时核心场景，WAND依靠自研模型协同调度机制，将目标识别、画面生成、实时合成与高效编码深度耦合成闭环自动化流程。在保证极致体验的前提下，相比传统方案可节省超过50%的码率。该能力已成功支撑全球数千场顶级体育赛事直播。

作为连续11年稳居中国及海外音视频云服务市场份额首位的领军者，腾讯云音视频正通过WAND加速音视频能力向“Agent可调度、可编排、可生产”的工业级工具演进。AI Agent时代的视听内容创新技术基座，正在被牢牢夯实。

来源：互联网

上一篇 人工智能赋能检验检测新篇章：粤检集团院士工作站正式揭牌 下一篇 PlanningBench开源规划评测框架：腾讯人大高瓴联合发布

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

腾讯云WAND音视频AI评测：六大自研模型+60项AI能力

摘要

相关文章推荐