KV Cache 通过复用已经计算过的 Key 和 Value,避免大模型生成时反复处理历史 token。内容覆盖自注意力计算、prefill 和 decode 两个阶段、复杂度变化、显存开销公式、Hugging Face 使用方法以及常见优化方向。