Swin Transformer

Swin Transformer实现了层级的ViT。

模型结构

同ViT一样,将RGB图片划分为不重叠的块。

为了实现层次表征,随着网络层数变深,使用了块融合层(patch merging layer)减少token的数量。

Swin Transformer block

Swin Transformer block将原始ViT中block的多头自注意力替换为了基于滑窗的模块。

Shifted Window based Self-Attention

Self-attention in non-overlapped windows

使用非重叠的局部窗降低计算量。每个窗中包含$M\times M$个块。

Shifted window partitioninng in successive blocks

基于窗口的自注意力模块缺少窗之间的连接交互,因此Swin Transformer引入了滑窗的方法。