2024年国产开源TTS排行榜:2B参数、30种语言,语音克隆与声音设计全面评测
摘要
OpenBMB团队发布VoxCPM2文本转语音模型,拥有2B参数,支持30种语言,无需语言标签。具备语音
OpenBMB 团队正式发布 VoxCPM2 模型,2B 参数规模,支持语音克隆与语音设计,可输出 48kHz 高保真音频。覆盖中文、英文、日语、韩语、德语、法语等 30 种语言——完全开源,可商用。
VoxCPM2 特点
- 原生支持 30 种语言,无需指定语言标签,输入文本即可自动合成
- 语音设计:仅凭自然语言描述即可生成全新音色,无需参考音频
- 语音克隆:支持风格引导,可精细控制情感、语速与表现力
- 输出 48kHz 高采样率音频,满足专业制作需求
- 完全开源,无商业使用限制
凭借这些特性,VoxCPM2 完全可作为 ElevenLabs 的开源平替。本地部署后,TTS 调用成本显著降低,尤其适合长期、大批量的语音合成任务。
VoxCPM2 架构
VoxCPM 采用无分词器的扩散自回归架构,直接在连续潜在空间中建模语音,而非依赖离散语音单元。这种设计在处理跨语言及多样化语音特征时,能够保留更丰富的声学细节。

本地部署
官方文档已给出基于 PyTorch + CUDA 的部署指南。考虑到大量 macOS 用户,以下重点讲解如何通过 mlx-audio 在 Apple Silicon 上完成部署。
1. 配置虚拟环境
uv venv .venv
source .venv/bin/activate
2. 安装 mlx-audio 和 soundfile
uv pip install "git+o" --prerelease=allow
uv pip install soundfile
3. 下载模型
根据硬件配置与使用场景,选择对应量化版本即可。

hf download mlx-community/VoxCPM2-4bit --local-dir ./models/VoxCPM2-4bit
# or
hf download mlx-community/VoxCPM2-8bit --local-dir ./models/VoxCPM2-8bit
# or
hf download mlx-community/VoxCPM2-bf16 --local-dir ./models/VoxCPM2-bf16
4. Zero-shot Generation
import numpy as np
from mlx_audio.tts.utils import load
from mlx_audio.audio_io import write as audio_writeMODEL_DIR = "models/VoxCPM2-8bit"
OUTPUT_PATH = "zero_shot.wa v"
model = load(MODEL_DIR)result = next(model.generate("Hello, this is VoxCPM2 on Apple Silicon."))
audio_mx = result.audioaudio_write(
str(OUTPUT_PATH),
np.array(audio_mx),
model.sample_rate,
format="wa v",
)
注意:若合成文本包含括号字符,需进行转义,否则合成将失败。
5. Voice Design
import numpy as np
from mlx_audio.tts.utils import load
from mlx_audio.audio_io import write as audio_writeMODEL_DIR = "models/VoxCPM2-8bit"
OUTPUT_PATH = "voice_design.wa v"
model = load(MODEL_DIR)result = next(model.generate(
text="Hello, welcome to VoxCPM2.",
instruct="A young woman, warm and gentle voice",
))
audio_mx = result.audioaudio_write(
str(OUTPUT_PATH),
np.array(audio_mx),
model.sample_rate,
format="wa v",
)
6. Voice Cloning
import numpy as np
from mlx_audio.tts.utils import load
from mlx_audio.audio_io import write as audio_writeMODEL_DIR = "models/VoxCPM2-8bit"
OUTPUT_PATH = "voice_cloning.wa v"
model = load(MODEL_DIR)result = next(model.generate(
text="Hello, this is VoxCPM2 on Apple Silicon.",
ref_audio="lisa.wa v",
))
audio_mx = result.audioaudio_write(
str(OUTPUT_PATH),
np.array(audio_mx),
model.sample_rate,
format="wa v",
)
7. Ultimate Cloning(长文本场景)
对于有声读物等长文本场景,为确保角色声线一致,需同时提供参考音频及其对应转录文本。
import numpy as np
from mlx_audio.tts.utils import load
from mlx_audio.audio_io import write as audio_writeMODEL_DIR = "models/VoxCPM2-8bit"
OUTPUT_PATH = "ultimate_cloning.wa v"
model = load(MODEL_DIR)result = next(model.generate(
text="2B-parameter multilingual tokenizer-free TTS model with 48kHz studio-quality output. Supports zero-shot generation, voice design, voice cloning, and continuation for long-form speech. 30 languages including English, Chinese, Indonesian, Japanese, Korean, and more.",
prompt_text="VoxCPM2 is a tokenizer-free, diffusion autoregressive Text-to-Speech model",
prompt_audio="lisa.wa v",
))audio_mx = result.audioaudio_write(
str(OUTPUT_PATH),
np.array(audio_mx),
model.sample_rate,
format="wa v",
)
总结
VoxCPM2 是一款功能完备的 TTS 模型,适合各类语音合成场景。若其仍无法完全匹配需求,可考虑 Qwen3-TTS:提供 0.6B 与 1.7B 两种参数规模,支持 10 种主流语言,同样具备合成、设计与克隆能力,仅需在不同模型间切换即可。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。