JZTXT

nlp八股-深入思考的一些博客

发布时间 2023-09-18 19:06:11作者: shiiiilong

Norm

浅谈Transformer的初始化、参数化与标准化

RMSNorm：去掉了LayerNorm的均值，只保留了方差

Pre-norm和Post-norm的对比：

为什么Pre-norm效果更差数学解释
- Pre-norm模型没有Post-norm '深'，所以理论上限更低
- Pre-norm的残差连接作用更明显，Post-norm弱化了残差连接数学解释，所以Pre-norm更容易收敛

梯度消失和梯度爆炸

数学解释
 汇总