nlp基础-深度学习的博客及其提炼

发布时间 2023-09-28 14:17:08作者: shiiiilong

Norm

浅谈Transformer的初始化、参数化与标准化

RMSNorm:去掉了LayerNorm的均值,只保留了方差

Pre-norm和Post-norm的对比:

  • 为什么Pre-norm效果更差数学解释
    • Pre-norm模型没有Post-norm '深',所以理论上限更低
    • Pre-norm的残差连接作用更明显,Post-norm弱化了残差连接数学解释,所以Pre-norm更容易收敛

梯度消失和梯度爆炸

梯度消失:例如sigmoid的两端梯度饱和,容易梯度消失
梯度爆炸:例如w权重初始化不合理

数学解释
汇总

位置编码

RoPE 博客 作者博客

MHA,MQA,GQA

详细对比博客

我的理解是:计算速度的提升,来自于减少了计算K,Q时的计算量(需要算的头数变少)

  • MHA(Multi-head Attention)是标准的多头注意力机制,h个Query、Key 和 Value 矩阵。

  • MQA(Multi-Query Attention,Fast Transformer Decoding: One Write-Head is All You Need)是多查询注意力的一种变体,也是用于自回归解码的一种注意力机制。与MHA不同的是,MQA 让所有的头之间共享同一份 Key 和 Value 矩阵,每个头只单独保留了一份 Query 参数,从而大大减少 Key 和 Value 矩阵的参数量。

  • GQA(Grouped-Query Attention,GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints)是分组查询注意力,GQA将查询头分成G组,每个组共享一个Key 和 Value 矩阵。GQA-G是指具有G组的grouped-query attention。GQA-1具有单个组,因此具有单个Key 和 Value,等效于MQA。而GQA-H具有与头数相等的组,等效于MHA。