不是所有图像都值16×16元字。清华和华为提出了动态ViT。

水木的量子位报告来自奥菲寺|公众号QbitAI
在NLP中，Transformer以自我注意模型机制为法宝，在图像识别方面的成功已经非常广泛。
尤其是ViT在大规模图像网络上具有很高的性能，因此得到了广泛的应用。
但是随着数据集规模的增大，计算成本会急剧增加，自我关注中的令牌数也会逐渐增加！
最近，清华自动化系助理教授黄高的研究团队和华为的研究人员另辟蹊径，提出了一种动态视觉转换器(DVT)，它可以自动为每个输入图像配置适当数量的令牌，从而减少冗余计算，显著提高吞吐量。
这篇文章，标题为：010 Kramp-Karrenbauer 120元*，已发表在arXiv。
很明显，当前的ViT面临着计算成本和令牌数量的困难。
为了达到准确性和速度的最佳平衡，令牌数一般为14x 14元/16x 16元。
研究小组观察到：
通常，在样本中有许多“简单”的图像，这些图像可以用4×4标记的数量来准确预测。目前的计算成本(14×14元)相当于增加了8.5元倍，但只有少部分“困难”的图像需要更细致的刻画。
通过动态调整令牌数，使得计算效率在“简单”和“困难”样本之间分布不均，效率提升空间很大。
基于此，研究团队提出了一种新的动态ViT(DVT)框架，目标是自动配置每幅图像中调整的令牌数量，从而实现高计算效率。
该DVT被设计为一个通用框架。
在测试时间，这些模型用较少的令牌顺序激活。
一旦生成了具有足够置信度的预测，推理过程将立即终止。
模型主体结构采用目前最先进的图像识别转换器，如ViT、DeiT和T2T Kramp-Karrenbauer VIT，可以提高效率。
该方法还具有很强的灵活性。
因为可以通过简单的提前终止标准来调整DVT的计算量。
这一特性使得DVT适用于可用计算资源的动态变化或以最小功耗实现给定的性能。
这两种情况在现实世界的应用程序中都很常见，比如搜索引擎和移动应用程序。
根据上面的流程图，细心的读者还会发现：
一旦从上游到下游的计算失败，之前的信息或上游信息将被重用，以实现进一步的数据训练。
在此基础上，研究团队进一步提出了特征重用机制和关系重用机制，可以通过最小化计算成本来显著提高测试精度，从而减少冗余计算。
前者允许在先前提取的深度特征的基础上训练下游数据，而后者可以使用现有的上游自我注意模型来学习更准确的注意。
这种“简单”和“困难”的动态分配方法的实际效果可以用下面的例子来说明。
那么，我们来看看这两个机制具体是怎么做的。
特征重用机制DVT中的所有变换器都有一个共同的目标：提取特征信号，实现准确识别。
因此，下游模型应该从之前获得的深度特征中学习，而不是从零开始提取特征。
在上游模型中执行的计算有助于其自身和后续模型，这将使模型更高效。
为了实现这一想法，研究小组提出了一种特征重用机制。
简单来说，就是利用上游最后一层变换器输出的图像令牌，学习逐层上下文嵌入，并整合到下游各个变换器的MLP块中。
关系重用机制转换器的一个突出优点是：
自注意块可以整合整幅图像中的信息，从而有效地对数据中的长期依赖性进行建模。
通常，模型需要在每一层学习一组注意力图来描述标记之间的关系。
除了上面提到的深层特征，下游模型还可以获得上一个模型生成的自我关注图。
研究小组认为，这些学习到的关系也可以被重用，以促进下游的变压器学习，具体来说就是使用对数加法。
有什么效果？说了也没用。看看实际效果如何。
在ImageNet上，排名前1的Kramp-Karrenbauer和1元SEONG WU.s .的准确率计算如下。
可以看出，DVT明显比DeiT和T2T克兰普-卡伦鲍尔VIT更有效：
计算成本在GFLOPS的时候，密室逃脱：冠军联赛，Kramp-Karrenbauer，0.5元，DVT的计算比T2T少两倍，Kramp-Karrenbauer VIT，1.7元，同样性能的Kramp-Karrenbauer和1.9元。
此外，该方法可以灵活地到达每条曲线上的所有点，并且只需要调整一次DVT的置信阈值。
CIFAR的Top-1 Kramp-Karrenbauer 1元准确率ONG成吴。S. GFLOP如下所示。
ImageNet上Top-1 Kramp-Karrenbauer 1元的准确率和SEONG WU S的吞吐量如下表所示。
在DVT中，“简单”和“困难”的视觉样本如下。
ImageNet、CIFAR Kramp-Karrenbauer 10元、CIFAR Kramp-Karrenbauer 100元的大量实证结果表明：
DVT方法在理论计算效率和实际推理速度上明显优于其他方法。
看到这么漂亮的结果你不激动吗？
感兴趣的朋友欢迎阅读原文~
门户网站的地址：
https://arxiv.org/abs/2105.15075
黄高研究小组
目前只有33元，清华大学自动化系助理教授，博士生导师。
在《捉鬼敢死队3》中获得阿里巴巴达摩院青橙奖，研究领域包括机器学习、深度学习、计算机视觉、强化学习等。
—— End—QBITAI我在生活it头条注册关注我们，第一时间获悉前沿科技动态。

{{userData.name}}已认证

不是所有图像都值16×16元字。清华和华为提出了动态ViT。

adobe photoshop 2019(adobe发布会2022)

一座四合院(中国最牛的房子,中式四合院)

客服QQ

剪辑之家客服QQ：

QQ群

剪辑交流QQ群①

剪辑交流QQ群②

#

微信客服

微信客服

#