结构

发布时间 2023-11-27 20:51:10作者: 黑逍逍

论文:https://arxiv.org/abs/1706.03762

 

结构:

  1. 输入

  2. 编码器(Encoder)N个

  3. 解码器(Decoder)N个

  4. 输出

 

概念:

  • inputs :句子等
  • input Embedding

  输入嵌入,将输入的文本,每个单词都被映射为一个多维度的实数向量,这个向量的维度通常由模型的设计参数决定

'I':                     [0.2, -0.1, 0.5, 0.8]
'love':                  [-0.6, 0.3, -0.7, 0.2]
'transformer':           [0.9, 0.4, -0.2, -0.5]

  这些向量将被输入到模型的下一层,添加位置编码

 

  • Output Embedding

  • positional Encoding 

  • 多头注意力(Multi-Head Attention)

  

  • "Add & Norm" :

    加法操作(Addition)和归一化操作

  • 前馈神经网络(Feedforward Neural Network)
  • outputs(shifted right)
  • Output Embedding

  • Masked Multi-Head Attention(掩码多头自注意力)

 

流程

  1.

疑问

  • positional Encoding 怎么添加

 

  • Embedding和Encoding的区别