nlp八股-深入思考的一些博客

发布时间 2023-09-18 19:06:11作者: shiiiilong

Norm

浅谈Transformer的初始化、参数化与标准化

RMSNorm:去掉了LayerNorm的均值,只保留了方差

Pre-norm和Post-norm的对比:

  • 为什么Pre-norm效果更差数学解释
    • Pre-norm模型没有Post-norm '深',所以理论上限更低
    • Pre-norm的残差连接作用更明显,Post-norm弱化了残差连接数学解释,所以Pre-norm更容易收敛

梯度消失和梯度爆炸

数学解释
汇总