语音 AI 工具可以把文本转成自然语音,也可以基于少量音频样本克隆声线。围绕 Noiz AI、Fish Speech、GPT-SoVITS、CosyVoice 和 ChatTTS,梳理它们适合的场景、核心能力、部署门槛和选型方式。
出国点餐不是简单把菜单翻译成中文,而是要识别菜品、解释口味、规避过敏食材,并生成可直接给服务员看的点单内容。围绕一个 AI 点餐助手,系统拆解多模态识别、结构化菜单、个性化推荐、语音下单和实时对话翻译的产品与工程设计。
FireRedTTS-2 面向播客、语音助手等多说话人场景,解决逐句生成、说话人稳定、韵律连贯和流式起播问题。内容拆解 12.5Hz 离散语音编码器、文本语音混排建模、双 Transformer 架构和评测指标。