菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > AI创作与模型 > 2024年国产开源TTS排行榜:2B参数、30种语言,语音克隆与声音设计全面评测
模型技术

2024年国产开源TTS排行榜:2B参数、30种语言,语音克隆与声音设计全面评测

2026-05-30
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

OpenBMB团队发布VoxCPM2文本转语音模型,拥有2B参数,支持30种语言,无需语言标签。具备语音

OpenBMB 团队正式发布 VoxCPM2 模型,2B 参数规模,支持语音克隆与语音设计,可输出 48kHz 高保真音频。覆盖中文、英文、日语、韩语、德语、法语等 30 种语言——完全开源,可商用。

VoxCPM2 特点

  • 原生支持 30 种语言,无需指定语言标签,输入文本即可自动合成
  • 语音设计:仅凭自然语言描述即可生成全新音色,无需参考音频
  • 语音克隆:支持风格引导,可精细控制情感、语速与表现力
  • 输出 48kHz 高采样率音频,满足专业制作需求
  • 完全开源,无商业使用限制

凭借这些特性,VoxCPM2 完全可作为 ElevenLabs 的开源平替。本地部署后,TTS 调用成本显著降低,尤其适合长期、大批量的语音合成任务。

VoxCPM2 架构

VoxCPM 采用无分词器的扩散自回归架构,直接在连续潜在空间中建模语音,而非依赖离散语音单元。这种设计在处理跨语言及多样化语音特征时,能够保留更丰富的声学细节。

本地部署

官方文档已给出基于 PyTorch + CUDA 的部署指南。考虑到大量 macOS 用户,以下重点讲解如何通过 mlx-audio 在 Apple Silicon 上完成部署。

1. 配置虚拟环境

uv venv .venv
source .venv/bin/activate

2. 安装 mlx-audio 和 soundfile

uv pip install "git+o" --prerelease=allow
uv pip install soundfile

3. 下载模型

根据硬件配置与使用场景,选择对应量化版本即可。

hf download mlx-community/VoxCPM2-4bit --local-dir ./models/VoxCPM2-4bit
# or
hf download mlx-community/VoxCPM2-8bit --local-dir ./models/VoxCPM2-8bit
# or
hf download mlx-community/VoxCPM2-bf16 --local-dir ./models/VoxCPM2-bf16

4. Zero-shot Generation

import numpy as np
from mlx_audio.tts.utils import load
from mlx_audio.audio_io import write as audio_writeMODEL_DIR = "models/VoxCPM2-8bit"
OUTPUT_PATH = "zero_shot.wa v"
model = load(MODEL_DIR)result = next(model.generate("Hello, this is VoxCPM2 on Apple Silicon."))
audio_mx = result.audioaudio_write(
    str(OUTPUT_PATH),
    np.array(audio_mx),
    model.sample_rate,
    format="wa v",
)

注意:若合成文本包含括号字符,需进行转义,否则合成将失败。

5. Voice Design

import numpy as np
from mlx_audio.tts.utils import load
from mlx_audio.audio_io import write as audio_writeMODEL_DIR = "models/VoxCPM2-8bit"
OUTPUT_PATH = "voice_design.wa v"
model = load(MODEL_DIR)result = next(model.generate(
    text="Hello, welcome to VoxCPM2.",
    instruct="A young woman, warm and gentle voice",
))
audio_mx = result.audioaudio_write(
    str(OUTPUT_PATH),
    np.array(audio_mx),
    model.sample_rate,
    format="wa v",
)

6. Voice Cloning

import numpy as np
from mlx_audio.tts.utils import load
from mlx_audio.audio_io import write as audio_writeMODEL_DIR = "models/VoxCPM2-8bit"
OUTPUT_PATH = "voice_cloning.wa v"
model = load(MODEL_DIR)result = next(model.generate(
    text="Hello, this is VoxCPM2 on Apple Silicon.",
    ref_audio="lisa.wa v",
))
audio_mx = result.audioaudio_write(
    str(OUTPUT_PATH),
    np.array(audio_mx),
    model.sample_rate,
    format="wa v",
)

7. Ultimate Cloning(长文本场景)

对于有声读物等长文本场景,为确保角色声线一致,需同时提供参考音频及其对应转录文本。

import numpy as np
from mlx_audio.tts.utils import load
from mlx_audio.audio_io import write as audio_writeMODEL_DIR = "models/VoxCPM2-8bit"
OUTPUT_PATH = "ultimate_cloning.wa v"
model = load(MODEL_DIR)result = next(model.generate(
    text="2B-parameter multilingual tokenizer-free TTS model with 48kHz studio-quality output. Supports zero-shot generation, voice design, voice cloning, and continuation for long-form speech. 30 languages including English, Chinese, Indonesian, Japanese, Korean, and more.",
    prompt_text="VoxCPM2 is a tokenizer-free, diffusion autoregressive Text-to-Speech model",
    prompt_audio="lisa.wa v",
))audio_mx = result.audioaudio_write(
    str(OUTPUT_PATH),
    np.array(audio_mx),
    model.sample_rate,
    format="wa v",
)

总结

VoxCPM2 是一款功能完备的 TTS 模型,适合各类语音合成场景。若其仍无法完全匹配需求,可考虑 Qwen3-TTS:提供 0.6B 与 1.7B 两种参数规模,支持 10 种主流语言,同样具备合成、设计与克隆能力,仅需在不同模型间切换即可。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多