VIT-JZTXT

1. 为什么有patch0，需要一个整合信息的向量，如果只有原始输出的9个向量，用哪个向量来分类都不好。

全用计算量又很大所以加一个可学习的vector，也就是patch 0来整合信息。分类需要，分割和检测不是

2. 位置编码

图像切分重排后失去了位置信息并且Transformer的内部运算是空间信息无关的，所以需要把位置信息编码重新传进网络
ViT使用了一个可学习的vector来编码，编码vector和patch vector直接相加组成输入

3. Attention距离和网络层数的关系

Attention的距离可以等价为Conv中的感受野大小
可以看到越深的层数，Attention跨越的距离越远，但是在最底层，也有的head可以覆盖到很远的距离
这说明他们确实在负责Global信息整合

4. SIFT

SIFT是用于图像处理领域的一种描述。这种描述具有不变性，可在图像中检测出关键点，是一种局部特征描述子

a.尺度空间极值检测:计算的第一阶段搜索所有尺度和图像位置。通过使用高斯差分函数来识别对尺度和方向不变的潜在兴趣点，有效地实现了该算法。

b.关键点定位:在每个候选位置，一个详细的模型被用来确定位置和比例。关键点是基于它们的稳定性度量来选择的。

c.方向分配:基于局部图像梯度方向，将一个或多个方向分配给每个关键点位置。所有未来的操作都在已经相对于每个特征的指定方向、比例和位置进行了变换的图像数据上执行，从而为这些变换提供了不变性。

d.关键点描述符:在每个关键点周围的区域中，以选定的比例测量局部图像梯度。这些被转换成允许显著水平的局部形状失真和照明变化的表示