介绍 Rowboat、DeepTutor、andrej-karpathy-skills、claude-mem、ChinaTextbook、MarkItDown 和 VoxCPM 的核心用途、工作方式、适用场景与上手命令,覆盖多 Agent 编排、Claude Code 约束与记忆、文档转换、教材资源和语音合成。
语音 AI 工具可以把文本转成自然语音,也可以基于少量音频样本克隆声线。围绕 Noiz AI、Fish Speech、GPT-SoVITS、CosyVoice 和 ChatTTS,梳理它们适合的场景、核心能力、部署门槛和选型方式。
FireRedTTS-2 面向播客、语音助手等多说话人场景,解决逐句生成、说话人稳定、韵律连贯和流式起播问题。内容拆解 12.5Hz 离散语音编码器、文本语音混排建模、双 Transformer 架构和评测指标。
VoxCPM 是清华大学与面壁智能开源的 0.5B 文本转语音模型,支持零样本语音克隆和流式输出。这里讲清它的能力、评测指标、模型结构、推理流程,以及如何安装、下载模型并用 Python 生成语音。
4 个开源项目覆盖本地 AI PPT 生成、个人知识库、自然语言生成 Next.js 应用和长篇多人语音合成。重点讲清每个工具解决的问题、工作方式、适合场景和上手路径。