本文分类:news发布日期:2026/2/20 17:15:52
打赏

相关文章

大模型推理引擎vLLM(8):PD分离推理架构原理

文章目录1 吞吐量(Throughput)vs 有效吞吐量(Goodput)2 Prefill 与 Decode 共置导致干扰3 PD 分离的整体思路4 分离式推理架构的优化方向4.1 算力与存储4.2 Batching 策略4.3 并行策略5 KV Cache 传输5.1 KV Cache 传输开销5.2 KV…

手机版浏览

扫一扫体验

微信公众账号

微信扫一扫加关注

返回
顶部