本文分类:news发布日期:2026/3/5 3:45:42
打赏

相关文章

分组查询注意力(GQA)的Pytorch实现

自注意力层(分组查询注意力) 初始化 class SelfAttention(nn.Module):def __init__(self, config, layer_idx):super().__init__()self.layer_idx = layer_idxself.n_head = config.n_head # 查询头的数量self.kv_he…

手机版浏览

扫一扫体验

微信公众账号

微信扫一扫加关注

返回
顶部