高德开源PilotTTS:轻量级语音合成新路径测评
摘要
高德技术团队开源PilotTTS语音合成系统,采用结构化模块化范式,集成CosyVoice3分词器、Qwen3-
6月3日,高德技术团队正式开源了一款名为 PilotTTS 的语音合成系统。它的目标很明确:用有限的计算资源,做出行业级的 TTS 系统——这听起来像是把“巧妇难为无米之炊”这句话反过来实践了一遍。而实际结果,也确实有些出人意料。
在方法论层面,PilotTTS 严格遵循“结构化的模块化范式”(disciplined modular recipe)。翻译乘人话:所有组件都来自公开可获取的开源项目,没有走多阶段预训练那些又贵又复杂的弯路。具体来说,它集成了 CosyVoice 3 分词器、Qwen3-0.6B 语言模型,以及基于 DiT 架构的 CFM 解码器。关键在于,它首创了基于 Q-Former 的双通路解耦条件建模机制——这项设计将说话人的身份特征与语音风格表征彻底分离开来,为后续的精细控制铺平了道路。
那么,效果如何?在仅使用约 20 万小时开源语音数据训练的条件下,PilotTTS 在主流评测集上的表现相当亮眼:中英文的说话人相似度分别达到了 0.862 和 0.815,字错误率(CER)和词错误率(WER)也逼近当前最优系统。更值得关注的是,它在情感表达、副语言特征(比如停顿、重音、语速变化)以及方言合成这些需要精细控制的任务中,稳定性与表现力都相当出色。
目前,PilotTTS 已经完整开源了全部数据预处理流程、模型权重文件以及端到端的训练/推理代码。对于学术界和工业界来说,这意味着一套高度可复现、易于扩展、鲁棒性强的基线方案——不藏着掖着,直接拿过来就能用、就能改。这种开放姿态,比堆砌一堆空洞的指标更有价值。

来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。