2.4K Star 刷屏!小米 OmniVoice 开源炸场:600 + 语种全覆盖,40 倍速 TTS+3 秒语音克隆

继 ChatTTS 引爆中文语音合成赛道后,多语言、高自然度、快推理速度的 TTS 模型一直是行业刚需。就在近期,小米 k2‑fsa 团队重磅推出OmniVoice—— 一款超大规模多语言零样本语音克隆 TTS 模型,上线即斩获 2.4K Star,凭借600 + 语种覆盖、40 倍实时合成、媲美商业级音质,成为开源社区新宠。


一、项目定位:多语言 TTS 的 “全能型选手”

OmniVoice 是面向全球场景的零样本多语言语音合成框架,基于扩散语言模型架构设计,主打文本直接生成语音,无需复杂中间环节,同时兼顾语音克隆、声音定制、细粒度情感控制,彻底解决传统模型语言少、音质差、速度慢的痛点。

核心定位:

  • 一个模型覆盖600 + 语种,含主流语言、方言与低资源语言

  • 零样本语音克隆,3‑10 秒音频即可复刻音色

  • 推理速度达实时 40 倍,工业级可用

  • 多项指标超越 ElevenLabs v2、MiniMax 等商业标杆

  • 完全开源,支持本地部署、API 调用、Web 可视化界面


二、六大核心亮点,直接拉满实用性

1. 600 + 语种全覆盖,小语种也能高质量合成

区别于主流模型仅支持数十种语言,OmniVoice 直接将覆盖范围提升至600+,包含方言(四川话、陕西话等)、英语口音(美式 / 英式)及大量低资源语言,对全球化应用、文化遗产保护、多语言工具开发极具价值。

2. 音质 SOTA,超越商业 TTS 标杆

在权威基准测试中表现炸裂:

  • 中文 Seed‑TTS:WER 仅 0.84%,清晰度拉满

  • 多语言评测:SIM‑o 说话人相似度、WER 全面超越ElevenLabs v2与 MiniMax

    开源模型实现商业级音质,个人与小团队可零成本使用。

3. 40 倍实时合成,长文本秒级出音

RTF(实时因子)低至0.025,生成 1 秒语音仅需 0.025 秒,速度达到实时 40 倍,批量处理、长文本播报、实时交互场景完全无压力。

4. 3‑10 秒极速语音克隆

只需一段3‑10 秒普通手机录音,无需专业设备,即可完成高保真语音克隆,音色自然、相似度高,适用于个性化配音、有声内容创作等场景。

5. 自然语言声音设计,自由定制音色

无需参考音频,用文字描述即可生成指定声音:

  • 性别:男 / 女

  • 年龄:儿童 — 老年

  • 音调:高 / 中 / 低

  • 口音 / 方言:中英各类口音、方言

  • 风格:耳语、播报、情感语气

    组合自由度极高,满足多样化创作需求。

6. 细粒度控制,更像 “真人说话”

支持插入非语言声学符号:

  • [laughter] 笑声

  • [sigh] 叹气

  • 支持拼音 / 音标纠正发音

    让语音更生动、更贴近真人表达习惯。


三、技术架构:一步生成,简洁高效

OmniVoice 采用扩散语言模型风格的单阶段非自回归架构,核心创新:

  • 文本直接映射到多码本声学 token,跳过传统语义 token 阶段

  • 全码本随机掩码训练,提升泛化能力

  • 预训练 LLM 权重初始化,大幅降低词错误率

    架构简洁、推理快、音质稳,是 TTS 工程落地的理想方案。


四、3 分钟快速上手(极简部署)

1. 安装(支持 NVIDIA/Apple Silicon)

bash

运行

# NVIDIA GPU
pip install torch==2.8.0+cu128 torchaudio==2.8.0+cu128 --extra-index-url https://download.python.org/whl/cu128
pip install omnivoice

# Apple Silicon
pip install torch==2.8.0 torchaudio==2.8.0
pip install omnivoice

2. 三种使用方式

① 语音克隆

python

运行

from omnivoice import OmniVoice
import torchaudio
model = OmniVoice.from_pretrained("k2-fsa/OmniVoice", device_map="cuda:0")
audio = model.generate(
    text="欢迎使用OmniVoice语音克隆",
    ref_audio="ref.wav",
    ref_text="参考音频文本"
)
torchaudio.save("out.wav", audio[0], 24000)

② 声音设计

python

运行

audio = model.generate(
    text="这是声音设计演示",
    instruct="female, low pitch, british accent"
)

③ 一键启动 Web Demo

bash

运行

omnivoice-demo --ip 0.0.0.0 --port 8001

浏览器打开 http://localhost:8001 即可可视化操作。


五、适用场景与行业价值

  • 内容创作:多语言有声书、短视频配音、个性化播报

  • 全球化工具:多语言客服、导航、教育产品

  • 文化保护:濒危语言、方言数字化语音存档

  • 企业应用:智能语音交互、私有化 TTS 服务

  • 开发者:一站式语音能力,无需集成多套模型


六、总结:开源 TTS 进入多语言高速时代

小米 OmniVoice 以600 + 语种、40 倍速、SOTA 音质、3 秒克隆,重新定义了开源 TTS 的上限。它不只是一款模型,更是一套可直接商用的多语言语音解决方案,让高质量语音合成彻底平民化。

对开发者、创作者、企业而言,这是当前最值得接入的 TTS 工具之一 ——免费、强大、稳定、全场景覆盖

项目地址:https://github.com/k2-fsa/OmniVoice

部署流程看着挺清晰 我们流水线能直接集成不 重点测下多语言并发稳定性

这个语音克隆速度确实厉害

这模型太狠了600种语言啊