DeepSeek-V4 把上下文窗口扩展到 1M token,同时通过 mHC 残差连接、CSA/HCA 混合稀疏注意力、Muon 优化器、FP4 量化感知训练和 KV Cache 重构解决长上下文带来的计算、显存和训练稳定性问题。