本文分类:news发布日期:2026/6/28 19:19:37
打赏

相关文章

第36章:PagedAttention Kernel 与 KV Cache 内存布局

1. 项目背景 某AI Infra团队在vLLM的PagedAttention Kernel中发现了性能回归:从v0.7升级到v0.8后,70B模型的TPOT(每Token生成时间)从45ms恶化到58ms,涨幅近30%。团队怀疑是新版PagedAttention Kernel的访存模式发生了改变——可能是Block Table的查找路径变长了,或者是W…

手机版浏览

扫一扫体验

微信公众账号

微信扫一扫加关注

返回
顶部