论文:https://arxiv.org/abs/1706.03762

结构:
1. 输入
2. 编码器(Encoder)N个
3. 解码器(Decoder)N个
4. 输出
概念:
- inputs :句子等
- input Embedding
输入嵌入,将输入的文本,每个单词都被映射为一个多维度的实数向量,这个向量的维度通常由模型的设计参数决定
'I': [0.2, -0.1, 0.5, 0.8] 'love': [-0.6, 0.3, -0.7, 0.2] 'transformer': [0.9, 0.4, -0.2, -0.5]
这些向量将被输入到模型的下一层,添加位置编码
-
Output Embedding
-
positional Encoding
- 多头注意力(Multi-Head Attention)
- "Add & Norm" :
加法操作(Addition)和归一化操作
- 前馈神经网络(Feedforward Neural Network)
- outputs(shifted right)
-
Output Embedding
- Masked Multi-Head Attention(掩码多头自注意力)
流程
1.
疑问
- positional Encoding 怎么添加
- Embedding和Encoding的区别