vLLM 是面向大语言模型推理的高吞吐服务框架。围绕一次请求从进入系统到流式输出的完整路径,讲清 Prefill、Decode、KV Cache、PagedAttention、连续批处理和调度器之间的关系。