模型技术

2024年国产开源TTS排行榜：2B参数、30种语言，语音克隆与声音设计全面评测

2026-05-30

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

OpenBMB团队发布VoxCPM2文本转语音模型，拥有2B参数，支持30种语言，无需语言标签。具备语音

OpenBMB 团队正式发布 VoxCPM2 模型，2B 参数规模，支持语音克隆与语音设计，可输出 48kHz 高保真音频。覆盖中文、英文、日语、韩语、德语、法语等 30 种语言——完全开源，可商用。

VoxCPM2 特点

原生支持 30 种语言，无需指定语言标签，输入文本即可自动合成
语音设计：仅凭自然语言描述即可生成全新音色，无需参考音频
语音克隆：支持风格引导，可精细控制情感、语速与表现力
输出 48kHz 高采样率音频，满足专业制作需求
完全开源，无商业使用限制

凭借这些特性，VoxCPM2 完全可作为 ElevenLabs 的开源平替。本地部署后，TTS 调用成本显著降低，尤其适合长期、大批量的语音合成任务。

VoxCPM2 架构

VoxCPM 采用无分词器的扩散自回归架构，直接在连续潜在空间中建模语音，而非依赖离散语音单元。这种设计在处理跨语言及多样化语音特征时，能够保留更丰富的声学细节。

本地部署

官方文档已给出基于 PyTorch + CUDA 的部署指南。考虑到大量 macOS 用户，以下重点讲解如何通过 mlx-audio 在 Apple Silicon 上完成部署。

1. 配置虚拟环境

uv venv .venv
source .venv/bin/activate

2. 安装 mlx-audio 和 soundfile

uv pip install "git+o" --prerelease=allow
uv pip install soundfile

3. 下载模型

根据硬件配置与使用场景，选择对应量化版本即可。

hf download mlx-community/VoxCPM2-4bit --local-dir ./models/VoxCPM2-4bit
# or
hf download mlx-community/VoxCPM2-8bit --local-dir ./models/VoxCPM2-8bit
# or
hf download mlx-community/VoxCPM2-bf16 --local-dir ./models/VoxCPM2-bf16

4. Zero-shot Generation

import numpy as np
from mlx_audio.tts.utils import load
from mlx_audio.audio_io import write as audio_writeMODEL_DIR = "models/VoxCPM2-8bit"
OUTPUT_PATH = "zero_shot.wa v"
model = load(MODEL_DIR)result = next(model.generate("Hello, this is VoxCPM2 on Apple Silicon."))
audio_mx = result.audioaudio_write(
    str(OUTPUT_PATH),
    np.array(audio_mx),
    model.sample_rate,
    format="wa v",
)

注意：若合成文本包含括号字符，需进行转义，否则合成将失败。

5. Voice Design

import numpy as np
from mlx_audio.tts.utils import load
from mlx_audio.audio_io import write as audio_writeMODEL_DIR = "models/VoxCPM2-8bit"
OUTPUT_PATH = "voice_design.wa v"
model = load(MODEL_DIR)result = next(model.generate(
    text="Hello, welcome to VoxCPM2.",
    instruct="A young woman, warm and gentle voice",
))
audio_mx = result.audioaudio_write(
    str(OUTPUT_PATH),
    np.array(audio_mx),
    model.sample_rate,
    format="wa v",
)

6. Voice Cloning

import numpy as np
from mlx_audio.tts.utils import load
from mlx_audio.audio_io import write as audio_writeMODEL_DIR = "models/VoxCPM2-8bit"
OUTPUT_PATH = "voice_cloning.wa v"
model = load(MODEL_DIR)result = next(model.generate(
    text="Hello, this is VoxCPM2 on Apple Silicon.",
    ref_audio="lisa.wa v",
))
audio_mx = result.audioaudio_write(
    str(OUTPUT_PATH),
    np.array(audio_mx),
    model.sample_rate,
    format="wa v",
)

7. Ultimate Cloning（长文本场景）

对于有声读物等长文本场景，为确保角色声线一致，需同时提供参考音频及其对应转录文本。

import numpy as np
from mlx_audio.tts.utils import load
from mlx_audio.audio_io import write as audio_writeMODEL_DIR = "models/VoxCPM2-8bit"
OUTPUT_PATH = "ultimate_cloning.wa v"
model = load(MODEL_DIR)result = next(model.generate(
    text="2B-parameter multilingual tokenizer-free TTS model with 48kHz studio-quality output. Supports zero-shot generation, voice design, voice cloning, and continuation for long-form speech. 30 languages including English, Chinese, Indonesian, Japanese, Korean, and more.",
    prompt_text="VoxCPM2 is a tokenizer-free, diffusion autoregressive Text-to-Speech model",
    prompt_audio="lisa.wa v",
))audio_mx = result.audioaudio_write(
    str(OUTPUT_PATH),
    np.array(audio_mx),
    model.sample_rate,
    format="wa v",
)

总结

VoxCPM2 是一款功能完备的 TTS 模型，适合各类语音合成场景。若其仍无法完全匹配需求，可考虑 Qwen3-TTS：提供 0.6B 与 1.7B 两种参数规模，支持 10 种主流语言，同样具备合成、设计与克隆能力，仅需在不同模型间切换即可。

来源：互联网

上一篇 2024年十大智能手机精选推荐排行榜 下一篇 Flutter自定义路径布局实战推荐：Vibe Coding高效方案

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

2024年国产开源TTS排行榜：2B参数、30种语言，语音克隆与声音设计全面评测

摘要

VoxCPM2 特点

VoxCPM2 架构

本地部署

总结

相关文章推荐