GPT前世今生-transformer-注意力机制

背景：

心理学知识，随意线索和非随意线索。

注意力机制中概念：

　　query：你的要求查询的东西。如问“你要干嘛？”

　　key：如杯子，本子

　　value：可以也是杯子本子，也可以是对应的分值(即注意力重要程度)

　　f(x) = xi，yi，即就是yi 函数表示给定一个query x，f函数会找到它所最关注的xi，yi

　　cnn可以抽取feature，那么每个feature就是query，在下一个卷积/或别的运算时，求f(query) = 最关注的权值。

原始做法非参数注意力池化层：

其中K 为kernel。

　　可以是高斯kernel，本质度量x与xi的相近程度，这里过程就类似knn找到这个最近xi。

若想训练，则可以添加参数：

小结：注意力机制可以写为

其中α就是对于每个yi值的权重。

那么问题是：

　　1 如何确定 x呢，又如何确定 xi呢？确定了xi 如何设定对应的yi value呢

　　加入x为 feature， x为后面的计算图，位置就是xi，里面的值就是yi吗？

　　未完待续---------------------------------------