Pre-Norm和Post-Norm

在深度学习架构(如 Transformer)中,残差连接与层归一化(Layer Normalization)的排列顺序主要分为 Post-Norm 和 Pre-Norm 两种形式。残差表示为x+F(x)x+F(x)x+F(x)