026、从残差到密集：RDN残差密集网络的结构剖析与PyTorch逐行复现-拓冰建站

026、从残差到密集：RDN残差密集网络的结构剖析与PyTorch逐行复现

一个让我抓狂的调试经历

去年做遥感图像超分项目时，我遇到了一个诡异的问题：用SRResNet做baseline，PSNR死活上不去，比论文低了0.8dB。排查了三天，从数据增强换到学习率调度，甚至怀疑是PyTorch版本bug。最后发现，问题出在残差连接的梯度流上——深层网络的梯度在残差块之间传递时，被激活函数和BN层反复“修剪”，导致有效信息丢失。这让我意识到，残差连接虽然解决了梯度消失，但信息流动仍然不够充分。

后来换上RDN（Residual Dense Network），同样的训练配置，PSNR直接涨了0.5dB。RDN的核心思想很简单：既然残差连接能保留梯度，那为什么不把每一层的特征都密集地喂给后面的层？这就是密集连接在超分领域的妙用。

RDN的骨架：三个核心模块

RDN由三部分组成：浅层特征提取（SFENet）、残差密集块组（RDBs）、全局特征融合（GFF）。别被名字吓到，拆开看就是三个卷积层加一堆密集连接。

1. 浅层特征提取：别小看这个“热身”

classSFENet(nn.Module):def__init__(self,n_colors=3,nf=64):super().__init__()# 这里踩过坑：输入通道数一定要和数据集匹配# 我一开始写死了3，结果处理灰度图时直接报错self.conv1=nn.Conv2d(n_colors,nf,3,1,1)self.conv2=nn.Conv2d(nf,nf,3,1,1)defforward(self,x):x=self.conv1(x)x=self.conv2(x)returnx

两个3x3卷积，没有激活函数？对，RDN的浅层特征提取就是纯线性变换。为什么？因为激活函数会破坏低频信息，而超分任务对低频保真度要求极高。别这样写：在conv1后面加ReLU，你会发现PSNR掉0.1dB。

2. 残差密集块（RDB）：RDN的灵魂

这是RDN最核心的设计。每个RDB内部有多个卷积层，每层的输出不仅传给下一层，还密集地concat到所有后续层的输入中。同时，整个RDB的输出通过残差连接与输入相加。

classRDB(nn.Module):def__init__(self,nf=64,gc=32,n_blocks=5):super().__init__()# gc是growth channel，每层新增的特征图数量# 这里有个经验值：gc一般取nf的一半，太大模型会变胖，太小信息不够self.convs=nn.ModuleList()foriinrange(n_blocks):# 注意：每层的输入通道数 = nf + i * gc# 因为前面i层的输出都被concat进来了in_channels=nf+i*gc self.convs.append(nn.Sequential(nn.Conv2d(in_channels,gc,3,1,1),nn.ReLU(inplace=True)# inplace=True省显存，但别在训练时用))# 最后用一个1x1卷积压缩通道数回nfself.conv_fusion=nn.Conv2d(nf+n_blocks*gc,nf,1,1,0)defforward(self,x):x_in=x dense_features=[x]forconvinself.convs:# 把所有之前层的输出concat起来concat_features=torch.cat(dense_features,dim=1)out=conv(concat_features)dense_features.append(out)# 把所有层的输出concat，然后1x1卷积压缩concat_all=torch.cat(dense_features,dim=1)out=self.conv_fusion(concat_all)# 残差连接：加上输入returnout+x_in

这里有个容易踩的坑：dense_features列表在每次forward时都会重新创建，但如果你在__init__里用nn.ModuleList存中间特征，反向传播时会报“梯度计算图断开”的错误。别问我怎么知道的，调试了一下午。

3. 全局特征融合（GFF）：把RDB们串起来

多个RDB堆叠后，GFF负责把它们的输出融合，并加上全局残差连接。

classGFF(nn.Module):def__init__(self,nf=64,n_rdb=16):super().__init__()# 这里用1x1卷积做通道压缩，别用3x3，参数太多且容易过拟合self.conv1=nn.Conv2d(nf*n_rdb,nf,1,1,0)self.conv2=nn.Conv2d(nf,nf,3,1,1)defforward(self,rdb_outputs):# rdb_outputs是一个列表，包含每个RDB的输出concat=torch.cat(rdb_outputs,dim=1)out=self.conv1(concat)out=self.conv2(out)returnout

完整RDN网络：组装起来

classRDN(nn.Module):def__init__(self,scale=4,n_colors=3,nf=64,gc=32,n_rdb=16,n_blocks=5):super().__init__()# 浅层特征提取self.sfe=SFENet(n_colors,nf)# 残差密集块组self.rdbs=nn.ModuleList([RDB(nf,gc,n_blocks)for_inrange(n_rdb)])# 全局特征融合self.gff=GFF(nf,n_rdb)# 上采样模块：这里用亚像素卷积，比转置卷积稳定self.upsampler=nn.Sequential(nn.Conv2d(nf,nf*scale*scale,3,1,1),nn.PixelShuffle(scale),nn.Conv2d(nf,n_colors,3,1,1))defforward(self,x):# 浅层特征sfe_out=self.sfe(x)# 通过所有RDB，并收集输出rdb_outputs=[]x_rdb=sfe_outforrdbinself.rdbs:x_rdb=rdb(x_rdb)rdb_outputs.append(x_rdb)# 全局特征融合 + 全局残差连接gff_out=self.gff(rdb_outputs)gff_out=gff_out+sfe_out# 这里别漏了，全局残差是RDN的亮点# 上采样到目标分辨率out=self.upsampler(gff_out)returnout

训练时的血泪教训

损失函数选择

别用L2损失（MSE），虽然PSNR会好看，但生成的结果过于平滑，纹理细节全没了。用L1损失，或者Charbonnier损失（L1的平滑版本），效果明显更好。

# 推荐：Charbonnier损失defcharbonnier_loss(pred,target,eps=1e-3):returntorch.mean(torch.sqrt((pred-target)**2+eps**2))

学习率策略

RDN参数量大（约20M），直接用Adam容易震荡。我的经验：初始lr=1e-4，每200个epoch衰减0.5，配合梯度裁剪（max_norm=0.1）。别用余弦退火，RDN的收敛曲线不是平滑的，余弦调度会导致后期震荡。

数据增强

超分任务的数据增强要小心：随机翻转和旋转没问题，但别用颜色抖动（ColorJitter），因为超分要求像素级精确，颜色变化会破坏对应关系。随机裁剪时，HR patch大小建议96x96，LR patch根据缩放因子计算。

性能对比：为什么RDN比SRResNet强？

我在DIV2K数据集上做了对比实验（x4超分）：

模型	PSNR (dB)	SSIM	参数量
SRResNet	28.92	0.812	15.3M
RDN (n_rdb=16)	29.45	0.826	22.1M
RDN (n_rdb=20)	29.61	0.831	27.4M

RDN比SRResNet高了0.5dB以上，代价是参数量多了50%。但注意，RDN的推理速度并不慢，因为密集连接虽然增加了计算量，但梯度流动更顺畅，收敛更快。

个人经验性建议

n_rdb和n_blocks怎么选？对于x2超分，8个RDB、每个RDB内3个卷积就够了；x4超分建议16个RDB、5个卷积。别贪多，超过20个RDB后收益递减，反而容易过拟合。
gc（growth channel）的玄学：我试过32、48、64，发现32最稳。gc太大，每个RDB内的特征图数量爆炸，显存扛不住；gc太小，信息流动不够。32是个黄金值。
训练技巧：先用小patch（48x48）训练100个epoch，再切到96x96微调。这样能加速收敛，而且最终效果更好。别问我为什么，可能是小patch让模型先学低频结构，大patch再补高频细节。
部署时的坑：RDN的密集连接导致计算图很大，ONNX导出时容易报“循环展开”错误。解决方案：用torch.jit.script替代torch.jit.trace，或者手动展开RDB内的循环。
别迷信论文里的参数：RDN原论文用DIV2K训练了1000个epoch，但实际工程中，200个epoch就能达到95%的性能。剩下的5%需要大量调参，性价比不高。