RTX 4060 8GB 可以本地运行多款语音克隆工具,但不同模型在速度、显存、音色相似度和语言能力上差异很大。这里对比 IndexTTS v2、CosyVoice 2 和 OpenVoice 的本地运行表现,并给出部署方式与选型建议。
语音 AI 工具可以把文本转成自然语音,也可以基于少量音频样本克隆声线。围绕 Noiz AI、Fish Speech、GPT-SoVITS、CosyVoice 和 ChatTTS,梳理它们适合的场景、核心能力、部署门槛和选型方式。
VoxCPM 是清华大学与面壁智能开源的 0.5B 文本转语音模型,支持零样本语音克隆和流式输出。这里讲清它的能力、评测指标、模型结构、推理流程,以及如何安装、下载模型并用 Python 生成语音。