DeepSeek-R1 展示了一条以强化学习激发大语言模型推理能力的路线:先让模型在可验证任务中试错,再通过多阶段训练改善可读性、通用能力和安全性。围绕 R1-Zero、GRPO、多阶段 pipeline、评测与同行评审,梳理这套方法为什么重要。