本文分类:news发布日期:2026/6/24 9:36:25
打赏

相关文章

不用重写 C++,用 TileLang 优化 AMD 算子实战

为什么不再死磕 C 手写内核 做算法优化的朋友都有个共识:在 AMD GPU 上跑大模型,通用算子往往“能跑但不够快”。尤其是 Attention 这种计算密集且访存频繁的操作,直接复用从 CUDA 迁移过来的默认实现,经常导致 Matrix Cores 吃不…

手机版浏览

扫一扫体验

微信公众账号

微信扫一扫加关注

返回
顶部