摘要

因为transformer太大了,本文就设计了一个新的方式计算transformer,和新的transformer block使其复杂度降低成$O(C^2WH)$的同时刷新了sota。

方法

网络结构

创新点主集中在transformer block:

  • GDFN(gate de-conv feedforward network):

    这部分由gate(gelu)+de-conv+1x1 conv组成,这个门似乎是灵光一闪出来的,凑创新点。

  • MDTA(muti-head de-conv transpose attention):

    这个论文里面说的很nb,仔细看就发现他是相当于把矩阵转置然后再乘,原本的$HW^2$就变成了$C^2$,个人感觉这个东西挺好想的,但是为什么没人做呢。

进化学习

前面说其他transformer用了patch对图片空间性不好,对于图像重建不友好等等,我还以为他把patch去掉了,结果只是越往后patch size越大来搞,唬人。

这个idea和fine tune很像,首先训练2x放大,再训练4x放大,这样训练出的网络会更好。可以借鉴一下思想。

消融实验

就说一下比较关注的GDFN和MDTA,其他的像progressive learning和加深网络什么的我觉得没有什么好讲的。

如下图:

可以发现MTA+GFN是不如MTA+FN的但是MTA+DFN却有很大增长,同样MDTA+FN比MTA+FN也有很大增长,相比之下gelu的效果就没有那么明显,说明这个de-conv非常重要,这可以思考借鉴一下。

后记

  • GDTA:de-conv的效果比门gelu提升更明显,更有借鉴意义。
  • MDTA:文章明明强调了attention的优化,但是对比实验里面却没有着重对比速度,flops之类的,只有摘要旁边的那个图,就很迷惑。
  • progressive learning可以记一笔。