继 ChatTTS 引爆中文语音合成赛道后,多语言、高自然度、快推理速度的 TTS 模型一直是行业刚需。就在近期,小米 k2‑fsa 团队重磅推出OmniVoice—— 一款超大规模多语言零样本语音克隆 TTS 模型,上线即斩获 2.4K Star,凭借600 + 语种覆盖、40 倍实时合成、媲美商业级音质,成为开源社区新宠。
一、项目定位:多语言 TTS 的 “全能型选手”
OmniVoice 是面向全球场景的零样本多语言语音合成框架,基于扩散语言模型架构设计,主打文本直接生成语音,无需复杂中间环节,同时兼顾语音克隆、声音定制、细粒度情感控制,彻底解决传统模型语言少、音质差、速度慢的痛点。
核心定位:
-
一个模型覆盖600 + 语种,含主流语言、方言与低资源语言
-
零样本语音克隆,3‑10 秒音频即可复刻音色
-
推理速度达实时 40 倍,工业级可用
-
多项指标超越 ElevenLabs v2、MiniMax 等商业标杆
-
完全开源,支持本地部署、API 调用、Web 可视化界面
二、六大核心亮点,直接拉满实用性
1. 600 + 语种全覆盖,小语种也能高质量合成
区别于主流模型仅支持数十种语言,OmniVoice 直接将覆盖范围提升至600+,包含方言(四川话、陕西话等)、英语口音(美式 / 英式)及大量低资源语言,对全球化应用、文化遗产保护、多语言工具开发极具价值。
2. 音质 SOTA,超越商业 TTS 标杆
在权威基准测试中表现炸裂:
-
中文 Seed‑TTS:WER 仅 0.84%,清晰度拉满
-
多语言评测:SIM‑o 说话人相似度、WER 全面超越ElevenLabs v2与 MiniMax
开源模型实现商业级音质,个人与小团队可零成本使用。
3. 40 倍实时合成,长文本秒级出音
RTF(实时因子)低至0.025,生成 1 秒语音仅需 0.025 秒,速度达到实时 40 倍,批量处理、长文本播报、实时交互场景完全无压力。
4. 3‑10 秒极速语音克隆
只需一段3‑10 秒普通手机录音,无需专业设备,即可完成高保真语音克隆,音色自然、相似度高,适用于个性化配音、有声内容创作等场景。
5. 自然语言声音设计,自由定制音色
无需参考音频,用文字描述即可生成指定声音:
-
性别:男 / 女
-
年龄:儿童 — 老年
-
音调:高 / 中 / 低
-
口音 / 方言:中英各类口音、方言
-
风格:耳语、播报、情感语气
组合自由度极高,满足多样化创作需求。
6. 细粒度控制,更像 “真人说话”
支持插入非语言声学符号:
-
[laughter]笑声 -
[sigh]叹气 -
支持拼音 / 音标纠正发音
让语音更生动、更贴近真人表达习惯。
三、技术架构:一步生成,简洁高效
OmniVoice 采用扩散语言模型风格的单阶段非自回归架构,核心创新:
-
文本直接映射到多码本声学 token,跳过传统语义 token 阶段
-
全码本随机掩码训练,提升泛化能力
-
预训练 LLM 权重初始化,大幅降低词错误率
架构简洁、推理快、音质稳,是 TTS 工程落地的理想方案。
四、3 分钟快速上手(极简部署)
1. 安装(支持 NVIDIA/Apple Silicon)
bash
运行
# NVIDIA GPU
pip install torch==2.8.0+cu128 torchaudio==2.8.0+cu128 --extra-index-url https://download.python.org/whl/cu128
pip install omnivoice
# Apple Silicon
pip install torch==2.8.0 torchaudio==2.8.0
pip install omnivoice
2. 三种使用方式
① 语音克隆
python
运行
from omnivoice import OmniVoice
import torchaudio
model = OmniVoice.from_pretrained("k2-fsa/OmniVoice", device_map="cuda:0")
audio = model.generate(
text="欢迎使用OmniVoice语音克隆",
ref_audio="ref.wav",
ref_text="参考音频文本"
)
torchaudio.save("out.wav", audio[0], 24000)
② 声音设计
python
运行
audio = model.generate(
text="这是声音设计演示",
instruct="female, low pitch, british accent"
)
③ 一键启动 Web Demo
bash
运行
omnivoice-demo --ip 0.0.0.0 --port 8001
浏览器打开 http://localhost:8001 即可可视化操作。
五、适用场景与行业价值
-
内容创作:多语言有声书、短视频配音、个性化播报
-
全球化工具:多语言客服、导航、教育产品
-
文化保护:濒危语言、方言数字化语音存档
-
企业应用:智能语音交互、私有化 TTS 服务
-
开发者:一站式语音能力,无需集成多套模型
六、总结:开源 TTS 进入多语言高速时代
小米 OmniVoice 以600 + 语种、40 倍速、SOTA 音质、3 秒克隆,重新定义了开源 TTS 的上限。它不只是一款模型,更是一套可直接商用的多语言语音解决方案,让高质量语音合成彻底平民化。
对开发者、创作者、企业而言,这是当前最值得接入的 TTS 工具之一 ——免费、强大、稳定、全场景覆盖。

