RWKV-7 “Goose” 出来一阵子了,100% RNN、无 KV cache、constant-space、linear-time,state 比同档 Qwen3.5 小三倍多——BlinkDL 那边单卡 fp16 decode 已经跑到 13000 tok/s 的量级。问题是:vLLM / SGLang / transformers / llama.cpp 四个方向的适配,目前都还没到生产级。
于是有了这笔120 万奖金池,按贡献打分分配,四个方向可分开认领、可重叠拿分。
💡 重点来了:四个方向里,transformers 这一块几乎是空的,而且和其他三个零重叠——独立计分。
为什么是 transformers 方向值得冲
BlinkDL 原话:“transformers 的适配,需要能正常用各种常见的基于 transformers 的 PEFT 和 RL 库等等训练。”
而 HF 官方transformers目前只合了 RWKV-v5 / v6,v7 是 gap。谁能先把 v7 在 transformers 上跑通训练栈(PEFT / DPO / GRPO / SFT / DeepSpeed),谁就拿下了这个方向的 baseline + 后续优化空间。
更关键的是不重叠:
| 方向 | 社区进度 | 与别人重叠 | 生态价值 |
|---|---|---|---|
| vLLM | 有人在做 PR | 高(state cache / chunked prefill 三家都要) | 推理 serving |
| SGLang | 空白较多 | 高 | 推理 serving |
| transformers(本项) | ~空,这个 repo 在填 | 无 | PEFT / LoRA / DPO / GRPO / SFT 全训练生态 |
| llama.cpp | 有人在摸 | 低 | 边缘 |
训练方向做好了,下游 PEFT / TRL / 各种 RL 库直接能用——这是 vLLM/SGLang 两个推理方向吃不到的红利。
dfytensor/transformers-rwkv7 已经做到哪了
这个 repo 就是冲着"RWKV-7 × transformers 训练适配"去的,作者已经把地基打完了,而且全栈可验证:
🔧核心能力(已绿)
- ✅ Pure-PyTorch forward,parallel(训练)/ RNN(decode)双模,数值对齐官方 demo,rel dev ~8e-7,argmax 100% 一致
- ✅ backward 通 → 训练就绪
- ✅ 加载官方 checkpoint(0.1B / 0.4B / 1.5B / 2.9B / 7.2B / 13.3B 同结构)
- ✅
AutoModelForCausalLM.from_pretrained()零代码加载(auto-register) - ✅ PEFT / LoRA:
get_peft_model,0.69% trainable,grad 通 - ✅ HF Trainer(SFT)、TRL DPOTrainer、TRL GRPOTrainer —— 全跑通
- ✅ padding mask、DeepSpeed ZeRO-2/3 config、transformers 5.x compat(
_is_hf_initializedguard)
⚡加速三档
- fla chunk kernel(flash-linear-attention + Triton / triton-windows):RTX 4090 上52–145×纯 PyTorch,bsz=1/T=2048 → 47859 tok/s
- 增强 CUDA WKV kernel(dtype-templated fp16/bf16 + 出 state,nvcc JIT,失败静默 fallback)
- Pure-PyTorch loop 保底(CPU/GPU/任意 dtype,正确性参照)
🧪测试覆盖:smoke / alignment / autoload / peft / trl / dpo / grpo / fla / cuda_kernel / grad_checkpoint / padding / deepspeed,Windows CPU + Windows CUDA 全绿,11/14 项无 GPU 也能跑——光"Windows 原生能跑"这一点,就把很多推理引擎方向卡死的平台问题绕过去了。
那还能提什么 PR?(这才是重点)
地基有了,但 120w 评分是按"改进程度"来的,能加分的活还很多,随便列几个作者 roadmap 里和周边能啃的:
- 把 fla / CUDA kernel 再推一档——对齐 Albatross 里 BlinkDL 新写的 sm120 kernel(
faster3a_2605/rwkv7_fast_v3a.py),看能不能在 transformers 路径里复现那个 decode 13000 / prefill 17000 的水准 - 量化推理接入——w8 / w4,目标是 llama.cpp 的
Q*_K_M精度档,老卡也要快于 w16 - TP / PP 训练侧验证——DeepSpeed ZeRO-3 config 已有,但需要 Linux 多卡 runtime 验证 + 可能修边角
- 投机解码 draft 用小 RWKV——DFlash 类后续项目,先搭骨架
- autotune 选 kernel——纯 PyTorch / fla / CUDA 三档运行时按 shape+dtype+device 自动挑,这块目前是硬编码优先级
- 更多模型尺寸的全流程验真——0.1B / 0.4B 验过,1.5B+ 的 PEFT/DPO 跑通能加分
- 文档 + example——examples/ 目录刚建,SFT / DPO / GRPO 的端到端脚本是 contributor 友好入口
⚠️ 奖金是按"多个强 AI 评分 + 写明贡献"分配的,所以PR 描述里写清楚你改了什么、对标 Albatross 哪个 kernel、测了多少 tok/s、哪些测试新加的——这比闷头写代码更重要。
怎么上手(5 分钟能跑)
gitclone https://github.com/dfytensor/transformers-rwkv7cdtransformers-rwkv7 pipinstall-e".[peft,trl]"# 转 checkpoint(官方 .pth → HF 目录)python-mtransformers_rwkv7.convert_checkpoint\--srcrwkv7-g1d-0.1b-xxxx.pth\--dst./rwkv7-0.1b-hf\--vocabrwkv_vocab_v20230424.txt# 验一遍官方对齐python tests/test_alignment.pyWindows + Python 3.12 + RTX 4090 是作者主环境(triton-windows 3.7.1 绕过 CUDA 13.1 cudafe++ 崩),Linux 当然也能跑,fla 在 Linux 原生 Triton 更稳。
最后说句实在的
120w 摊到四个方向,transformers 这块竞争最小、生态杠杆最大——vLLM/SGLang 那边已经有几个人在卷 state cache 和 chunked prefill 了,transformers 训练栈这边,dfytensor/transformers-rwkv7目前是唯一一个把 PEFT+TRL+DeepSpeed+5.x 全打通的 repo,但离"Albatross 级别的生产性能"还有距离。
BlinkDL 给的参考 kernel、给的 NumPy 参考实现、给的 Qwen3.5 对照——材料都铺好了。缺的是人把 transformers 这条路径推到和 Albatross 同一个量级的 tok/s。
PR 地址放这了:https://github.com/dfytensor/transformers-rwkv7 ,奖金公告在这:https://mp.weixin.qq.com/s/vFWC2kAzstLMb99sia-usQ
冲不冲?# 120 万奖金池里,有一块没人抢的肥肉:RWKV-7 × transformers 训练适配
RWKV-7 “Goose” 出来一阵子了——100% RNN、无 KV cache、constant-space、linear-time,state 比同档 Qwen3.5 小三倍多。BlinkDL 那边单卡 fp16 decode 已经跑到13000 tok/s、prefill 17000 tok/s(Pro 6000,5090 略低但更大 bsz 反超)。问题是:vLLM / SGLang / transformers / llama.cpp 四个方向的适配,目前都还没到生产级。
于是有了这笔120 万奖金池,按贡献打分分配,四个方向可分开认领、可重叠拿分。
💡 重点来了:四个方向里,transformers 这一块几乎是空的,而且和其他三个零重叠——独立计分,干净可分。
为什么 transformers 方向值得冲
BlinkDL 原话:“transformers 的适配,需要能正常用各种常见的基于 transformers 的 PEFT 和 RL 库等等训练。”
而 HFtransformers官方目前只合了 RWKV-v5 / v6,v7 是 gap。谁能先把 v7 在 transformers 上跑通完整训练栈(PEFT / DPO / GRPO / SFT / DeepSpeed),谁就拿下这个方向的 baseline + 后续优化空间。
更关键的是不重叠——这张表是奖金分配时的关键判断:
| 方向 | 社区进度 | 与别人重叠 | 生态价值 |
|---|---|---|---|
| vLLM | 有人 PR #157514 在飞 | 高(state cache / chunked prefill 三家都要) | 推理 serving |
| SGLang | 空白较多 | 高 | 推理 serving |
| transformers(本项) | ~空,dfytensor 这个 repo 在填 | 无 | PEFT / LoRA / DPO / GRPO / SFT 全训练生态 |
| llama.cpp | 有人在摸 | 低 | 边缘 / 移动 |
训练方向做好了,下游 PEFT / TRL / 各种 RL 库直接能用——这是 vLLM/SGLang 两个推理方向吃不到的红利。
dfytensor/transformers-rwkv7 已经做到哪了
这个 repo 就是冲着"RWKV-7 × transformers 训练适配"去的,作者把地基打完了,全栈可验证:
🔧核心能力(测试全绿)
- ✅ Pure-PyTorch forward,parallel(训练)/ RNN(decode)双模,数值对齐官方 demo,rel dev ~8e-7,argmax 100% 一致
- ✅ backward 通 → 训练就绪
- ✅ 加载官方 checkpoint(0.1B / 0.4B / 1.5B / 2.9B / 7.2B / 13.3B 同结构,dim 自动推断)
- ✅
AutoModelForCausalLM.from_pretrained()零代码加载(auto-register) - ✅ PEFT / LoRA:
get_peft_model,0.69% trainable,grad 流通 - ✅ HF Trainer(SFT)、TRL DPOTrainer、TRL GRPOTrainer —— 全跑通
- ✅ padding mask、DeepSpeed ZeRO-2/3 config、transformers 5.x compat(
_is_hf_initializedguard 防权重覆写)
⚡加速三档,自动选择
- fla chunk kernel(flash-linear-attention + Triton / triton-windows):RTX 4090 上52–145×纯 PyTorch,bsz=1/T=2048 →47859 tok/s
- 增强 CUDA WKV kernel(dtype-templated fp16/bf16 + 出 state,nvcc JIT,失败静默 fallback 到纯 PyTorch)
- Pure-PyTorch loop 保底(CPU/GPU/任意 dtype,正确性参照)
🧪测试覆盖:smoke / alignment / autoload / peft / trl / dpo / grpo / fla / cuda_kernel / grad_checkpoint / padding / deepspeed,Windows CPU + Windows CUDA 全绿,11/14 项无 GPU 也能跑——光"Windows 原生能跑"这一点,就把推理引擎方向卡死的平台问题绕过去了。
那还能提什么 PR?(这才是重点)
地基有了,但 120w 是按"改进程度"由多个强 AI 评分分配的,能加分的活还很多。结合作者 roadmap + BlinkDL 给的参考,随手列几个有分量的方向:
- 把 fla / CUDA kernel 再推一档——对齐 Albatross 里 BlinkDL 新写的 sm120 kernel(
faster3a_2605/rwkv7_fast_v3a.py),看能不能在 transformers 路径里复现 decode 13000 / prefill 17000 的水准 - 量化推理接入——w8 / w4,目标 llama.cpp 的
Q*_K_M精度档,老卡也要快于 w16(Pascal 起都要能跑) - TP / PP 训练侧验证——DeepSpeed ZeRO-3 config 已有,但需要 Linux 多卡 runtime 验证 + 边角修补
- 投机解码 draft 用小 RWKV——DFlash 类后续项目,先搭骨架
- autotune 选 kernel——纯 PyTorch / fla / CUDA 三档按 shape+dtype+device 自动挑,目前是硬编码优先级
- 更多尺寸全流程验真——0.1B / 0.4B 验过,1.5B+ 的 PEFT/DPO 跑通能加分
- 文档 + example——
examples/目录刚建,SFT / DPO / GRPO 端到端脚本是 contributor 友好入口
⚠️ 奖金分配规则:参加者写明自己贡献,多个强 AI 评分,公平分配。所以 PR 描述里写清楚——改了什么、对标 Albatross 哪个 kernel、测了多少 tok/s、新增/修了哪些测试——这比闷头写代码更重要。
5 分钟上手
gitclone https://github.com/dfytensor/transformers-rwkv7cdtransformers-rwkv7 pipinstall-e".[peft,trl]"# 官方 .pth → HF 目录(一行命令)python-mtransformers_rwkv7.convert_checkpoint\--srcrwkv7-g1d-0.1b-20260129-ctx8192.pth\--dst./rwkv7-0.1b-hf\--vocabrwkv_vocab_v20230424.txt# 验官方数值对齐(rel dev ~1e-6 量级)python tests/test_alignment.pyWindows + Python 3.12 + RTX 4090 是作者主环境(triton-windows 3.7.1 绕过 CUDA 13.1 cudafe++ 崩),Linux 原生 Triton 更稳,CPU 也能全绿跑测试。
最后说句实在的
120w 摊到四个方向,transformers 这块竞争最小、生态杠杆最大——vLLM/SGLang 那边已经有人卷 state cache 和 chunked prefill 了,transformers 训练栈这边,dfytensor/transformers-rwkv7目前是唯一把 PEFT+TRL+DeepSpeed+5.x 全打通的 repo,但离"Albatross 级别的生产性能"还有距离。
BlinkDL 给的参考 kernel、NumPy 参考实现、Qwen3.5 对照——材料都铺好了。缺的是人把 transformers 这条路径推到和 Albatross 同一个量级的 tok/s。
- 项目地址:https://github.com/dfytensor/transformers-rwkv7
- 奖金公告:https://mp.weixin.qq.com/s/vFWC2kAzstLMb99sia-usQ
- QQ 群(社区):579490404
冲不冲你定,但这个方向独立计分 + 零重叠,光这条在 120w 池子里就已经值回票价了。🚀