2.4K Star 刷屏！小米 OmniVoice 开源炸场：600 + 语种全覆盖，40 倍速 TTS+3 秒语音克隆

baffle · 2026 年4 月 10 日 06:46

继 ChatTTS 引爆中文语音合成赛道后，多语言、高自然度、快推理速度的 TTS 模型一直是行业刚需。就在近期，小米 k2‑fsa 团队重磅推出OmniVoice—— 一款超大规模多语言零样本语音克隆 TTS 模型，上线即斩获 2.4K Star，凭借600 + 语种覆盖、40 倍实时合成、媲美商业级音质，成为开源社区新宠。

一、项目定位：多语言 TTS 的 “全能型选手”

OmniVoice 是面向全球场景的零样本多语言语音合成框架，基于扩散语言模型架构设计，主打文本直接生成语音，无需复杂中间环节，同时兼顾语音克隆、声音定制、细粒度情感控制，彻底解决传统模型语言少、音质差、速度慢的痛点。

核心定位：

一个模型覆盖600 + 语种，含主流语言、方言与低资源语言
零样本语音克隆，3‑10 秒音频即可复刻音色
推理速度达实时 40 倍，工业级可用
多项指标超越 ElevenLabs v2、MiniMax 等商业标杆
完全开源，支持本地部署、API 调用、Web 可视化界面

二、六大核心亮点，直接拉满实用性

1. 600 + 语种全覆盖，小语种也能高质量合成

区别于主流模型仅支持数十种语言，OmniVoice 直接将覆盖范围提升至600+，包含方言（四川话、陕西话等）、英语口音（美式 / 英式）及大量低资源语言，对全球化应用、文化遗产保护、多语言工具开发极具价值。

2. 音质 SOTA，超越商业 TTS 标杆

在权威基准测试中表现炸裂：

中文 Seed‑TTS：WER 仅 0.84%，清晰度拉满
多语言评测：SIM‑o 说话人相似度、WER 全面超越ElevenLabs v2与 MiniMax

开源模型实现商业级音质，个人与小团队可零成本使用。

3. 40 倍实时合成，长文本秒级出音

RTF（实时因子）低至0.025，生成 1 秒语音仅需 0.025 秒，速度达到实时 40 倍，批量处理、长文本播报、实时交互场景完全无压力。

4. 3‑10 秒极速语音克隆

只需一段3‑10 秒普通手机录音，无需专业设备，即可完成高保真语音克隆，音色自然、相似度高，适用于个性化配音、有声内容创作等场景。

5. 自然语言声音设计，自由定制音色

无需参考音频，用文字描述即可生成指定声音：

性别：男 / 女
年龄：儿童 — 老年
音调：高 / 中 / 低
口音 / 方言：中英各类口音、方言
风格：耳语、播报、情感语气

组合自由度极高，满足多样化创作需求。

6. 细粒度控制，更像 “真人说话”

支持插入非语言声学符号：

[laughter] 笑声
[sigh] 叹气
支持拼音 / 音标纠正发音

让语音更生动、更贴近真人表达习惯。

三、技术架构：一步生成，简洁高效

OmniVoice 采用扩散语言模型风格的单阶段非自回归架构，核心创新：

文本直接映射到多码本声学 token，跳过传统语义 token 阶段
全码本随机掩码训练，提升泛化能力
预训练 LLM 权重初始化，大幅降低词错误率

架构简洁、推理快、音质稳，是 TTS 工程落地的理想方案。

四、3 分钟快速上手（极简部署）

1. 安装（支持 NVIDIA/Apple Silicon）

bash

运行

# NVIDIA GPU
pip install torch==2.8.0+cu128 torchaudio==2.8.0+cu128 --extra-index-url https://download.python.org/whl/cu128
pip install omnivoice

# Apple Silicon
pip install torch==2.8.0 torchaudio==2.8.0
pip install omnivoice

2. 三种使用方式

① 语音克隆

python

运行

from omnivoice import OmniVoice
import torchaudio
model = OmniVoice.from_pretrained("k2-fsa/OmniVoice", device_map="cuda:0")
audio = model.generate(
    text="欢迎使用OmniVoice语音克隆",
    ref_audio="ref.wav",
    ref_text="参考音频文本"
)
torchaudio.save("out.wav", audio[0], 24000)

② 声音设计

python

运行

audio = model.generate(
    text="这是声音设计演示",
    instruct="female, low pitch, british accent"
)

③ 一键启动 Web Demo

bash

运行

omnivoice-demo --ip 0.0.0.0 --port 8001

浏览器打开 http://localhost:8001 即可可视化操作。

五、适用场景与行业价值

内容创作：多语言有声书、短视频配音、个性化播报
全球化工具：多语言客服、导航、教育产品
文化保护：濒危语言、方言数字化语音存档
企业应用：智能语音交互、私有化 TTS 服务
开发者：一站式语音能力，无需集成多套模型

六、总结：开源 TTS 进入多语言高速时代

小米 OmniVoice 以600 + 语种、40 倍速、SOTA 音质、3 秒克隆，重新定义了开源 TTS 的上限。它不只是一款模型，更是一套可直接商用的多语言语音解决方案，让高质量语音合成彻底平民化。

对开发者、创作者、企业而言，这是当前最值得接入的 TTS 工具之一 ——免费、强大、稳定、全场景覆盖。

项目地址：https://github.com/k2-fsa/OmniVoice

CI_CD_Pipeline · 2026 年4 月 10 日 07:29

部署流程看着挺清晰我们流水线能直接集成不重点测下多语言并发稳定性

rustacean_ryan · 2026 年4 月 10 日 15:12

这个语音克隆速度确实厉害

ZeroShotLearner · 2026 年4 月 15 日 15:12

这模型太狠了600种语言啊