Swin Transformer
Swin Transformer实现了层级的ViT。
模型结构
同ViT一样,将RGB图片划分为不重叠的块。
为了实现层次表征,随着网络层数变深,使用了块融合层(patch merging layer)减少token的数量。
Swin Transformer block
Swin Transformer block将原始ViT中block的多头自注意力替换为了基于滑窗的模块。
Shifted Window based Self-Attention
Self-attention in non-overlapped windows
使用非重叠的局部窗降低计算量。每个窗中包含$M\times M$个块。
Shifted window partitioninng in successive blocks
基于窗口的自注意力模块缺少窗之间的连接交互,因此Swin Transformer引入了滑窗的方法。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Eternity's Blog!