FireRed-Image-Edit 是一个面向复杂指令图像编辑的开源基础模型,重点提升指令遵循、主体一致性、文字编辑、多图参考和画质修复能力。核心设计包括规模化编辑数据引擎、三阶段训练流程,以及面向文字布局的 OCR 奖励机制。
VoxCPM 是清华大学与面壁智能开源的 0.5B 文本转语音模型,支持零样本语音克隆和流式输出。这里讲清它的能力、评测指标、模型结构、推理流程,以及如何安装、下载模型并用 Python 生成语音。