120 万奖金池里，有一块没人抢的肥肉：RWKV-7 × transformers 训练适配-拓冰建站

RWKV-7 “Goose” 出来一阵子了，100% RNN、无 KV cache、constant-space、linear-time，state 比同档 Qwen3.5 小三倍多——BlinkDL 那边单卡 fp16 decode 已经跑到 13000 tok/s 的量级。问题是：vLLM / SGLang / transformers / llama.cpp 四个方向的适配，目前都还没到生产级。

于是有了这笔120 万奖金池，按贡献打分分配，四个方向可分开认领、可重叠拿分。

💡 重点来了：四个方向里，transformers 这一块几乎是空的，而且和其他三个零重叠——独立计分。

为什么是 transformers 方向值得冲

BlinkDL 原话：“transformers 的适配，需要能正常用各种常见的基于 transformers 的 PEFT 和 RL 库等等训练。”

而 HF 官方transformers目前只合了 RWKV-v5 / v6，v7 是 gap。谁能先把 v7 在 transformers 上跑通训练栈（PEFT / DPO / GRPO / SFT / DeepSpeed），谁就拿下了这个方向的 baseline + 后续优化空间。

更关键的是不重叠：

方向	社区进度	与别人重叠	生态价值
vLLM	有人在做 PR	高（state cache / chunked prefill 三家都要）	推理 serving
SGLang	空白较多	高	推理 serving
transformers（本项）	~空，这个 repo 在填	无	PEFT / LoRA / DPO / GRPO / SFT 全训练生态
llama.cpp	有人在摸	低	边缘

训练方向做好了，下游 PEFT / TRL / 各种 RL 库直接能用——这是 vLLM/SGLang 两个推理方向吃不到的红利。

dfytensor/transformers-rwkv7 已经做到哪了

这个 repo 就是冲着"RWKV-7 × transformers 训练适配"去的，作者已经把地基打完了，而且全栈可验证：

🔧核心能力（已绿）

✅ Pure-PyTorch forward，parallel（训练）/ RNN（decode）双模，数值对齐官方 demo，rel dev ~8e-7，argmax 100% 一致
✅ backward 通 → 训练就绪
✅ 加载官方 checkpoint（0.1B / 0.4B / 1.5B / 2.9B / 7.2B / 13.3B 同结构）
✅AutoModelForCausalLM.from_pretrained()零代码加载（auto-register）
✅ PEFT / LoRA：get_peft_model，0.69% trainable，grad 通
✅ HF Trainer（SFT）、TRL DPOTrainer、TRL GRPOTrainer —— 全跑通
✅ padding mask、DeepSpeed ZeRO-2/3 config、transformers 5.x compat（_is_hf_initializedguard）

⚡加速三档

fla chunk kernel（flash-linear-attention + Triton / triton-windows）：RTX 4090 上52–145×纯 PyTorch，bsz=1/T=2048 → 47859 tok/s
增强 CUDA WKV kernel（dtype-templated fp16/bf16 + 出 state，nvcc JIT，失败静默 fallback）
Pure-PyTorch loop 保底（CPU/GPU/任意 dtype，正确性参照）

🧪测试覆盖：smoke / alignment / autoload / peft / trl / dpo / grpo / fla / cuda_kernel / grad_checkpoint / padding / deepspeed，Windows CPU + Windows CUDA 全绿，11/14 项无 GPU 也能跑——光"Windows 原生能跑"这一点，就把很多推理引擎方向卡死的平台问题绕过去了。

那还能提什么 PR？（这才是重点）

地基有了，但 120w 评分是按"改进程度"来的，能加分的活还很多，随便列几个作者 roadmap 里和周边能啃的：

把 fla / CUDA kernel 再推一档——对齐 Albatross 里 BlinkDL 新写的 sm120 kernel（faster3a_2605/rwkv7_fast_v3a.py），看能不能在 transformers 路径里复现那个 decode 13000 / prefill 17000 的水准
量化推理接入——w8 / w4，目标是 llama.cpp 的Q*_K_M精度档，老卡也要快于 w16
TP / PP 训练侧验证——DeepSpeed ZeRO-3 config 已有，但需要 Linux 多卡 runtime 验证 + 可能修边角
投机解码 draft 用小 RWKV——DFlash 类后续项目，先搭骨架
autotune 选 kernel——纯 PyTorch / fla / CUDA 三档运行时按 shape+dtype+device 自动挑，这块目前是硬编码优先级
更多模型尺寸的全流程验真——0.1B / 0.4B 验过，1.5B+ 的 PEFT/DPO 跑通能加分
文档 + example——examples/ 目录刚建，SFT / DPO / GRPO 的端到端脚本是 contributor 友好入口

⚠️ 奖金是按"多个强 AI 评分 + 写明贡献"分配的，所以PR 描述里写清楚你改了什么、对标 Albatross 哪个 kernel、测了多少 tok/s、哪些测试新加的——这比闷头写代码更重要。

怎么上手（5 分钟能跑）

gitclone https://github.com/dfytensor/transformers-rwkv7cdtransformers-rwkv7 pipinstall-e".[peft,trl]"# 转 checkpoint（官方 .pth → HF 目录）python-mtransformers_rwkv7.convert_checkpoint\--srcrwkv7-g1d-0.1b-xxxx.pth\--dst./rwkv7-0.1b-hf\--vocabrwkv_vocab_v20230424.txt# 验一遍官方对齐python tests/test_alignment.py

Windows + Python 3.12 + RTX 4090 是作者主环境（triton-windows 3.7.1 绕过 CUDA 13.1 cudafe++ 崩），Linux 当然也能跑，fla 在 Linux 原生 Triton 更稳。

最后说句实在的

120w 摊到四个方向，transformers 这块竞争最小、生态杠杆最大——vLLM/SGLang 那边已经有几个人在卷 state cache 和 chunked prefill 了，transformers 训练栈这边，dfytensor/transformers-rwkv7目前是唯一一个把 PEFT+TRL+DeepSpeed+5.x 全打通的 repo，但离"Albatross 级别的生产性能"还有距离。

BlinkDL 给的参考 kernel、给的 NumPy 参考实现、给的 Qwen3.5 对照——材料都铺好了。缺的是人把 transformers 这条路径推到和 Albatross 同一个量级的 tok/s。

PR 地址放这了：https://github.com/dfytensor/transformers-rwkv7 ，奖金公告在这：https://mp.weixin.qq.com/s/vFWC2kAzstLMb99sia-usQ

冲不冲？# 120 万奖金池里，有一块没人抢的肥肉：RWKV-7 × transformers 训练适配

RWKV-7 “Goose” 出来一阵子了——100% RNN、无 KV cache、constant-space、linear-time，state 比同档 Qwen3.5 小三倍多。BlinkDL 那边单卡 fp16 decode 已经跑到13000 tok/s、prefill 17000 tok/s（Pro 6000，5090 略低但更大 bsz 反超）。问题是：vLLM / SGLang / transformers / llama.cpp 四个方向的适配，目前都还没到生产级。

于是有了这笔120 万奖金池，按贡献打分分配，四个方向可分开认领、可重叠拿分。

💡 重点来了：四个方向里，transformers 这一块几乎是空的，而且和其他三个零重叠——独立计分，干净可分。

为什么 transformers 方向值得冲

BlinkDL 原话：“transformers 的适配，需要能正常用各种常见的基于 transformers 的 PEFT 和 RL 库等等训练。”

而 HFtransformers官方目前只合了 RWKV-v5 / v6，v7 是 gap。谁能先把 v7 在 transformers 上跑通完整训练栈（PEFT / DPO / GRPO / SFT / DeepSpeed），谁就拿下这个方向的 baseline + 后续优化空间。

更关键的是不重叠——这张表是奖金分配时的关键判断：

方向	社区进度	与别人重叠	生态价值
vLLM	有人 PR #157514 在飞	高（state cache / chunked prefill 三家都要）	推理 serving
SGLang	空白较多	高	推理 serving
transformers（本项）	~空，dfytensor 这个 repo 在填	无	PEFT / LoRA / DPO / GRPO / SFT 全训练生态
llama.cpp	有人在摸	低	边缘 / 移动

训练方向做好了，下游 PEFT / TRL / 各种 RL 库直接能用——这是 vLLM/SGLang 两个推理方向吃不到的红利。

dfytensor/transformers-rwkv7 已经做到哪了

这个 repo 就是冲着"RWKV-7 × transformers 训练适配"去的，作者把地基打完了，全栈可验证：

🔧核心能力（测试全绿）

✅ Pure-PyTorch forward，parallel（训练）/ RNN（decode）双模，数值对齐官方 demo，rel dev ~8e-7，argmax 100% 一致
✅ backward 通 → 训练就绪
✅ 加载官方 checkpoint（0.1B / 0.4B / 1.5B / 2.9B / 7.2B / 13.3B 同结构，dim 自动推断）
✅AutoModelForCausalLM.from_pretrained()零代码加载（auto-register）
✅ PEFT / LoRA：get_peft_model，0.69% trainable，grad 流通
✅ HF Trainer（SFT）、TRL DPOTrainer、TRL GRPOTrainer —— 全跑通
✅ padding mask、DeepSpeed ZeRO-2/3 config、transformers 5.x compat（_is_hf_initializedguard 防权重覆写）

⚡加速三档，自动选择

fla chunk kernel（flash-linear-attention + Triton / triton-windows）：RTX 4090 上52–145×纯 PyTorch，bsz=1/T=2048 →47859 tok/s
增强 CUDA WKV kernel（dtype-templated fp16/bf16 + 出 state，nvcc JIT，失败静默 fallback 到纯 PyTorch）
Pure-PyTorch loop 保底（CPU/GPU/任意 dtype，正确性参照）

🧪测试覆盖：smoke / alignment / autoload / peft / trl / dpo / grpo / fla / cuda_kernel / grad_checkpoint / padding / deepspeed，Windows CPU + Windows CUDA 全绿，11/14 项无 GPU 也能跑——光"Windows 原生能跑"这一点，就把推理引擎方向卡死的平台问题绕过去了。

那还能提什么 PR？（这才是重点）

地基有了，但 120w 是按"改进程度"由多个强 AI 评分分配的，能加分的活还很多。结合作者 roadmap + BlinkDL 给的参考，随手列几个有分量的方向：

把 fla / CUDA kernel 再推一档——对齐 Albatross 里 BlinkDL 新写的 sm120 kernel（faster3a_2605/rwkv7_fast_v3a.py），看能不能在 transformers 路径里复现 decode 13000 / prefill 17000 的水准
量化推理接入——w8 / w4，目标 llama.cpp 的Q*_K_M精度档，老卡也要快于 w16（Pascal 起都要能跑）
TP / PP 训练侧验证——DeepSpeed ZeRO-3 config 已有，但需要 Linux 多卡 runtime 验证 + 边角修补
投机解码 draft 用小 RWKV——DFlash 类后续项目，先搭骨架
autotune 选 kernel——纯 PyTorch / fla / CUDA 三档按 shape+dtype+device 自动挑，目前是硬编码优先级
更多尺寸全流程验真——0.1B / 0.4B 验过，1.5B+ 的 PEFT/DPO 跑通能加分
文档 + example——examples/目录刚建，SFT / DPO / GRPO 端到端脚本是 contributor 友好入口

⚠️ 奖金分配规则：参加者写明自己贡献，多个强 AI 评分，公平分配。所以 PR 描述里写清楚——改了什么、对标 Albatross 哪个 kernel、测了多少 tok/s、新增/修了哪些测试——这比闷头写代码更重要。

5 分钟上手

gitclone https://github.com/dfytensor/transformers-rwkv7cdtransformers-rwkv7 pipinstall-e".[peft,trl]"# 官方 .pth → HF 目录（一行命令）python-mtransformers_rwkv7.convert_checkpoint\--srcrwkv7-g1d-0.1b-20260129-ctx8192.pth\--dst./rwkv7-0.1b-hf\--vocabrwkv_vocab_v20230424.txt# 验官方数值对齐（rel dev ~1e-6 量级）python tests/test_alignment.py

Windows + Python 3.12 + RTX 4090 是作者主环境（triton-windows 3.7.1 绕过 CUDA 13.1 cudafe++ 崩），Linux 原生 Triton 更稳，CPU 也能全绿跑测试。

最后说句实在的

120w 摊到四个方向，transformers 这块竞争最小、生态杠杆最大——vLLM/SGLang 那边已经有人卷 state cache 和 chunked prefill 了，transformers 训练栈这边，dfytensor/transformers-rwkv7目前是唯一把 PEFT+TRL+DeepSpeed+5.x 全打通的 repo，但离"Albatross 级别的生产性能"还有距离。

BlinkDL 给的参考 kernel、NumPy 参考实现、Qwen3.5 对照——材料都铺好了。缺的是人把 transformers 这条路径推到和 Albatross 同一个量级的 tok/s。