语音 AI 主要解决三类问题:把文字变成自然语音、用少量样本复刻某个声线、把已有视频翻译并重新配音。不同工具的侧重点差异很大,有的适合内容创作者直接在网页上处理视频,有的适合开发者本地部署到产品里,还有的专门为大语言模型助手做对话语音输出。
常见能力可以拆成几层:
flowchart LR
A[文本或视频输入] --> B{任务类型}
B --> C[文本转语音 TTS]
B --> D[语音克隆]
B --> E[视频翻译配音]
C --> F[生成音频]
D --> F
E --> G[识别语音]
G --> H[翻译文本]
H --> I[重新配音]
I --> J[对齐视频节奏]
TTS(Text-to-Speech,文本转语音)是基础能力;语音克隆是在 TTS 的基础上加入说话人特征,让模型尽量复现目标声线;视频翻译配音还要叠加语音识别、机器翻译、声音生成和时间轴对齐,工程链路更长。
5 个工具的定位对比
| 工具 | 类型 | 核心特点 | 更适合的场景 |
|---|---|---|---|
| Noiz AI | 在线语音 AI 产品 | 情绪化 TTS、声音风格设计、视频翻译配音 | 出海视频、多语言内容矩阵、低门槛配音 |
| Fish Speech / OpenAudio S1 | 开源 TTS 模型 | 13 种语言、零样本语音克隆、4GB 显存可运行 | 本地部署、有声书、视频配音、虚拟助手 |
| GPT-SoVITS | 开源语音克隆工具 | 5 秒样本克隆,1 分钟样本可提升效果 | 快速复刻声线、跨语言配音、个人化声音 |
| CosyVoice | 开源多语言语音生成模型 | 3 秒克隆、多语言和方言、低延迟双向流式 | 实时语音交互、方言配音、产品级语音生成 |
| ChatTTS | 开源对话 TTS 模型 | 面向对话场景,支持笑声、停顿、插入语控制 | LLM 助手、聊天机器人、对话式播客 |
Noiz AI:面向内容创作者的视频翻译和情绪配音工具
地址:
https://noiz.ai/
Noiz AI 的重点不是简单“把文字读出来”,而是生成带情绪和性格的数字声音。传统 TTS 经常有一个问题:发音清楚,但语气平,停顿和力度变化少,放在短视频、课程、播客里会显得机械。Noiz AI 试图把声音做得更像真人表达,同一条声线可以表现开心、悲伤、紧张、兴奋等不同状态。
它的能力可以分成两块。
一块是情绪化 TTS。用户可以像调节画面风格一样调整声音,包括性格、情绪和表达方式。真正影响自然度的细节通常不是单个字的发音,而是呼吸、停顿、重音、语速变化和句尾处理。Noiz AI 的卖点就在这些韵律细节上。
另一块是 Video Translation,也就是视频翻译配音。它不是单独翻译字幕,而是把视频里的语音识别出来,翻译成目标语言,再用自然语音重新生成一版配音,并尽量对齐原视频的节奏和时长。
sequenceDiagram
participant U as 用户
participant N as Noiz AI
participant ASR as 语音识别
participant MT as 翻译模块
participant TTS as 语音生成
U->>N: 上传原始视频
N->>ASR: 提取并识别语音
ASR-->>N: 返回源语言文本
N->>MT: 翻译为目标语言
MT-->>N: 返回翻译文本
N->>TTS: 生成目标语言配音
TTS-->>N: 返回音频
N-->>U: 输出多语言视频
这种工具适合已经有视频素材、希望快速做多语言版本的人。例如中文视频要分发到英文、西语、日语平台,如果每条都重新找译者、配音演员和剪辑人员,流程会比较重。Noiz AI 把语音识别、翻译、配音和节奏对齐串成一个工作流,能降低试错成本。
它也适合不想频繁录音的创作者。录制长音频需要保持嗓音状态一致,补录时还要重新匹配语气。数字声线能把这部分工作变成文本编辑和语气调整。
不适合的场景也很明确:如果需要把模型完全私有化部署、深度修改推理流程,在线产品的可控性通常不如开源模型;如果业务对数据合规要求很高,也要先确认上传音视频的授权、存储和处理方式。
Fish Speech / OpenAudio S1:兼顾质量和部署门槛的开源 TTS
开源地址:
https://github.com/fishaudio/fish-speech
Fish Speech 是一个开源文本转语音项目,OpenAudio S1 版本在 TTS-Arena2 榜单中表现突出。它比较吸引开发者的地方在于:能力覆盖面比较宽,同时硬件门槛不算夸张。
它支持 13 种语言,并且提供零样本语音克隆能力。零样本语音克隆的意思是,不需要为某个说话人重新训练模型,只给一段参考音频,模型就尝试提取这段音频里的音色、说话习惯和韵律特征,然后用这个声音生成新的文本内容。
flowchart LR
A[参考音频 10~30 秒] --> B[提取说话人特征]
C[待合成文本] --> D[文本编码]
B --> E[语音生成模型]
D --> E
E --> F[目标声线音频]
Fish Speech 的参考音频需求大约是 10 到 30 秒,不需要专门训练一个新模型。对于开发测试、原型验证、少量角色配音来说,这种方式很方便。
它还支持通过标签控制情绪和特殊效果,比如 angry、happy、sad 这类情绪标签,也可以插入笑声、哭声等效果。标签控制的价值在于,语音生成不再只依赖模型自己猜语气,而是能把一部分表达意图显式写进输入。
性能方面,资料中给出的指标是在 RTX 4090 上实时因子约为 1:7,也就是生成 7 秒音频约需 1 秒。实时因子通常用来衡量语音生成速度:
| 实时因子 | 含义 |
|---|---|
| 1:1 | 生成 1 秒音频需要约 1 秒 |
| 1:7 | 生成 7 秒音频需要约 1 秒 |
| 小于 1:1 | 生成速度慢于实时播放,不适合低延迟场景 |
| 大于 1:1 | 生成速度快于实时播放,更适合批量生成或在线服务 |
Fish Speech 提供两个版本:
| 版本 | 参数规模 | 定位 |
|---|---|---|
| S1 | 4B | 旗舰版本,更重,质量优先 |
| S1-mini | 0.5B | 轻量版本,更适合显存有限的设备 |
如果只是做有声书、视频旁白、导航语音、虚拟助手语音输出,Fish Speech 是比较均衡的选择。它比纯在线工具更适合嵌入自己的服务,也比一些大型语音模型更容易在消费级显卡上试起来。
GPT-SoVITS:用很短样本快速克隆声线
开源地址:
https://github.com/RVC-Boss/GPT-SoVITS
GPT-SoVITS 的核心优势是快。它可以用约 5 秒的音频样本生成相似声线,让目标声音朗读新的文本。如果能提供约 1 分钟的训练数据,声音相似度和自然度通常会更好。
语音克隆效果受三类因素影响很大:
| 因素 | 影响 |
|---|---|
| 样本时长 | 样本越短,模型越难稳定捕捉说话人特征 |
| 录音质量 | 噪声、混响、背景音乐会干扰音色提取 |
| 文本和语种 | 跨语言生成时,目标语言发音习惯可能和样本语言不同 |
GPT-SoVITS 支持跨语言生成,例如用中文样本去合成英文、日文、韩文或粤语内容。这个能力适合需要保留某个声线,但内容语言发生变化的场景。
典型工作流是这样的:
flowchart TD
A[准备目标声音样本] --> B{样本长度}
B -->|约 5 秒| C[快速克隆]
B -->|约 1 分钟| D[更高相似度训练/适配]
C --> E[输入要朗读的文本]
D --> E
E --> F[选择目标语言]
F --> G[生成克隆语音]
GPT-SoVITS 适合做个人声线复刻、角色语音、短视频配音和跨语言音频实验。它的优势在于样本要求低,试错速度快;代价是要想达到稳定、自然、接近真人录制的效果,仍然需要干净的样本、合适的文本切分和必要的参数调节。
CosyVoice:多语言、方言和低延迟语音生成
开源地址:
https://github.com/FunAudioLLM/CosyVoice
CosyVoice 是阿里开源的多语言语音生成模型,重点放在内容一致性、说话人相似度和韵律自然度上。它覆盖 9 种常用语言,并支持 18 种以上中文方言和口音,例如广东话、闽南话、四川话、东北话等。
它的招牌能力之一是 3 秒极速克隆。只给一段约 3 秒的音频,模型就能复刻声线,并且可以跨语言生成。比如参考音频是中文,也可以让它生成英文或日文语音。
CosyVoice 还有一个很适合工程落地的能力:双向流式。这里的“双向”可以理解为输入和输出都可以流动起来,文本可以边输入,音频可以边生成。资料中给出的延迟可以低到 150ms。
sequenceDiagram
participant App as 应用
participant Model as CosyVoice
participant Player as 播放端
App->>Model: 连续发送文本片段
Model-->>Player: 持续输出音频流
App->>Model: 继续发送后续文本
Model-->>Player: 继续播放新音频
双向流式对实时场景很重要。假设一个语音助手要回答用户问题,如果必须等完整回答全部生成后再合成音频,用户会明显感觉等待;如果文本一边生成、音频一边播放,交互会顺畅很多。
CosyVoice 也支持指令式控制,可以用自然语言描述想要的语言、方言、情绪、语速和音量。相比固定标签,指令式控制对非技术用户更友好,也更容易接进产品后台。
适合 CosyVoice 的场景包括:
| 场景 | 为什么适合 |
|---|---|
| 实时语音助手 | 双向流式降低等待时间 |
| 方言内容生成 | 支持多种中文方言和口音 |
| 多语言配音 | 语种覆盖较广,支持跨语言克隆 |
| 产品化语音服务 | 指令式控制降低调用复杂度 |
如果只需要批量生成普通旁白,CosyVoice 的实时和方言能力不一定都用得上;如果产品需要“边生成边播放”,它的流式能力就很关键。
ChatTTS:专门面向对话场景的 TTS
开源地址:
https://github.com/2noise/ChatTTS
ChatTTS 是为对话场景设计的 TTS 模型,尤其适合大语言模型助手的语音输出。普通旁白 TTS 更关注“把一整段文字读顺”,而对话 TTS 还要处理插话、短句、停顿、笑声、语气变化和多说话人切换。
ChatTTS 的训练数据规模很大,主模型使用了 10 万小时以上中英文数据,开源版本是 4 万小时预训练模型。它支持多说话人,生成语音更偏自然聊天,而不是播音腔朗读。
它的一个重要能力是细粒度韵律控制,可以在文本中插入控制标记,例如:
你好,[uv_break] 我刚刚看了一下这个问题。[laugh] 其实原因很简单。
这些标记可以影响停顿、笑声、插入语等表达细节。对聊天机器人来说,这类细节很有用。用户听到的不是一段连续播报,而是更接近人类对话的反馈。
典型调用链路可以这样设计:
flowchart LR
A[用户语音输入] --> B[语音识别 ASR]
B --> C[大语言模型 LLM]
C --> D[整理回复文本]
D --> E[插入停顿/笑声等控制标记]
E --> F[ChatTTS 生成语音]
F --> G[播放给用户]
ChatTTS 适合 LLM 助手、对话式 AI 应用、虚拟角色聊天、视频解说和播客生成。它不一定是所有 TTS 任务的最优解;如果目标是严肃新闻播报或长篇有声书,可能更需要稳定统一的播音风格,而不是丰富的对话韵律。
怎么选:按任务而不是按热度
语音 AI 工具不要只看模型名气,关键是任务类型、延迟要求、部署方式和声音控制能力。
| 需求 | 优先考虑 |
|---|---|
| 快速把视频翻译成多语言版本 | Noiz AI |
| 想用在线工具完成情绪配音 | Noiz AI |
| 想本地部署通用 TTS 和语音克隆 | Fish Speech |
| 只有很短的声音样本,想快速克隆 | GPT-SoVITS |
| 需要中文方言、多语言和低延迟流式 | CosyVoice |
| 给 LLM 助手做自然对话语音 | ChatTTS |
| 显存有限但想跑开源模型 | Fish Speech S1-mini |
| 对声音克隆相似度要求更高 | 准备更干净、更长的样本,再测试 GPT-SoVITS 或 CosyVoice |
也可以用一个简单决策流程:
flowchart TD
A[要解决什么问题] --> B{是否处理视频翻译}
B -->|是| C[Noiz AI]
B -->|否| D{是否要接入实时对话}
D -->|是| E{是否需要低延迟流式}
E -->|是| F[CosyVoice]
E -->|否| G[ChatTTS]
D -->|否| H{是否重点做语音克隆}
H -->|是| I{样本是否很短}
I -->|是| J[GPT-SoVITS]
I -->|否| K[Fish Speech / CosyVoice]
H -->|否| L[Fish Speech]
上手前要确认的几件事
开源语音模型的安装方式会随着版本变化,最稳妥的做法是以各自仓库的 README 为准。正式测试前,可以按这个顺序准备环境:
# 1. 准备独立 Python 环境
conda create -n voice-ai python=3.10
conda activate voice-ai
# 2. 拉取项目
git clone <项目仓库地址>
cd <项目目录>
# 3. 按 README 安装依赖
# 常见形式可能是:
pip install -r requirements.txt
# 4. 下载模型权重
# 不同项目的权重地址和目录结构不同,以仓库说明为准
# 5. 运行 demo 或 WebUI,先用短文本验证输出
测试时不要一开始就上复杂任务。更好的方式是准备三组样例:
| 样例 | 用途 |
|---|---|
| 10 秒以内短句 | 检查发音是否清晰 |
| 1 分钟左右长段落 | 检查长文本稳定性和停顿 |
| 带情绪或对话标记的文本 | 检查韵律控制是否符合预期 |
如果要测试语音克隆,参考音频要尽量满足这些条件:
- 只有一个说话人;
- 没有背景音乐和明显噪声;
- 不要有过重混响;
- 说话音量稳定;
- 样本内容最好覆盖常见发音;
- 使用前确认声音授权,避免克隆他人声线造成侵权或滥用。
常见坑和注意事项
语音克隆不是样本越短越好。 5 秒、3 秒克隆能快速出结果,但短样本包含的信息有限,模型很难完整学习口音、语速、情绪和咬字习惯。想要更稳定的效果,干净且稍长的样本通常更可靠。
跨语言克隆会放大口音问题。 用中文样本生成英文时,模型需要同时保持中文说话人的声线和英文发音自然度,这两个目标可能冲突。实际效果要用目标语言文本测试,不能只听源语言样例。
情绪标签不等于真实表演。 angry、happy、sad 或 [laugh] 这类标记能提供控制信号,但生成效果仍然依赖模型能力和文本上下文。情绪过多、标签过密,反而可能让语音不稳定。
实时语音应用要关注端到端延迟。 模型推理快只是其中一环,完整链路还包括大语言模型生成文本、文本切分、TTS 推理、音频编码和网络传输。做语音助手时,要按完整链路测延迟。
商用前要确认许可证和数据合规。 开源不等于可以随意商用,模型权重、代码、训练数据和生成内容可能有不同限制。声音克隆还涉及肖像权、声音权和用户授权,尤其不能在没有许可的情况下复刻真实人物声音。
5 个工具可以理解为 5 个不同方向:Noiz AI 偏内容生产工作流,Fish Speech 偏开源通用 TTS,GPT-SoVITS 偏快速声音克隆,CosyVoice 偏多语言方言和实时生成,ChatTTS 偏对话式语音。选型时先确定任务,再看部署方式、延迟、语言覆盖和声音控制能力,会比单纯追榜单更稳。