详细分析大模型推理为什么要PD分离-看完本文就明白!

Post Views: 5 15 一、背景:大模型推理的两大阶段 阶段 主要工作 资源特征 Prefill(全量填充) 把用户的完整 Prompt(数百到数千 token)一次性送入 Transformer,计算出对应的 Key‑Value(KV)Cache 并生成第一个 token。 计算密集型(矩阵乘法占主导),对显存需求相对较小,但对算力(GPU/ NPU)利用率要求高。 Decode(增量
详细分析大模型推理为什么要PD分离-看完本文就明白!

大模型推理过程中KV Cache 分层/层次化处理方案介绍

Post Views: 3 一、KV Cache 为什么会随会话增长而膨胀 在自回归解码时,每生成一个 token,模型的每一层都会产生对应的 Key 与 Value 向量并追加到 KV Cache 中。 如果一次会话的上下文长度为 (包括用户输入、模型已生成的 token),模型层数为 ,每层的注意力头数为 ,每个头的隐藏维度为 ,使用的数值精度为  字节(FP16 = 2 B),则 KV Ca
大模型推理过程中KV Cache 分层/层次化处理方案介绍