本文分类:news发布日期:2026/6/14 6:42:36
打赏

相关文章

CANN Transformer算子库ops-transformer深度实践:昇腾NPU上Attention计算、位置编码与LayerNorm融合优化的工程实现

前言 某大模型推理团队的服务器机房里,工程师们盯着监控屏幕上不断跳动的显存指标发愁。他们刚刚将一个70亿参数的模型部署到昇腾NPU集群上,却发现推理延迟远超预期。经过排查,问题锁定在Transformer解码层的Attention计算上——每次生成长度…

手机版浏览

扫一扫体验

微信公众账号

微信扫一扫加关注

返回
顶部