不是所有图像都值16×16元字。清华和华为提出了动态ViT。

水木的量子位报告来自奥菲寺|公众号QbitAI
在NLP中,Transformer以自我注意模型机制为法宝,在图像识别方面的成功已经非常广泛。
尤其是ViT在大规模图像网络上具有很高的性能,因此得到了广泛的应用。
但是随着数据集规模的增大,计算成本会急剧增加,自我关注中的令牌数也会逐渐增加!
最近,清华自动化系助理教授黄高的研究团队和华为的研究人员另辟蹊径,提出了一种动态视觉转换器(DVT),它可以自动为每个输入图像配置适当数量的令牌,从而减少冗余计算,显著提高吞吐量。
这篇文章,标题为:010 Kramp-Karrenbauer 120元*,已发表在arXiv。
很明显,当前的ViT面临着计算成本和令牌数量的困难。
为了达到准确性和速度的最佳平衡,令牌数一般为14x 14元/16x 16元。
研究小组观察到:
通常,在样本中有许多“简单”的图像,这些图像可以用4×4标记的数量来准确预测。目前的计算成本(14×14元)相当于增加了8.5元倍,但只有少部分“困难”的图像需要更细致的刻画。
通过动态调整令牌数,使得计算效率在“简单”和“困难”样本之间分布不均,效率提升空间很大。
基于此,研究团队提出了一种新的动态ViT(DVT)框架,目标是自动配置每幅图像中调整的令牌数量,从而实现高计算效率。
该DVT被设计为一个通用框架。
在测试时间,这些模型用较少的令牌顺序激活。
一旦生成了具有足够置信度的预测,推理过程将立即终止。
模型主体结构采用目前最先进的图像识别转换器,如ViT、DeiT和T2T Kramp-Karrenbauer VIT,可以提高效率。
该方法还具有很强的灵活性。
因为可以通过简单的提前终止标准来调整DVT的计算量。
这一特性使得DVT适用于可用计算资源的动态变化或以最小功耗实现给定的性能。
这两种情况在现实世界的应用程序中都很常见,比如搜索引擎和移动应用程序。
根据上面的流程图,细心的读者还会发现:
一旦从上游到下游的计算失败,之前的信息或上游信息将被重用,以实现进一步的数据训练。
在此基础上,研究团队进一步提出了特征重用机制和关系重用机制,可以通过最小化计算成本来显著提高测试精度,从而减少冗余计算。
前者允许在先前提取的深度特征的基础上训练下游数据,而后者可以使用现有的上游自我注意模型来学习更准确的注意。
这种“简单”和“困难”的动态分配方法的实际效果可以用下面的例子来说明。
那么,我们来看看这两个机制具体是怎么做的。
特征重用机制DVT中的所有变换器都有一个共同的目标:提取特征信号,实现准确识别。
因此,下游模型应该从之前获得的深度特征中学习,而不是从零开始提取特征。
在上游模型中执行的计算有助于其自身和后续模型,这将使模型更高效。
为了实现这一想法,研究小组提出了一种特征重用机制。
简单来说,就是利用上游最后一层变换器输出的图像令牌,学习逐层上下文嵌入,并整合到下游各个变换器的MLP块中。
关系重用机制转换器的一个突出优点是:
自注意块可以整合整幅图像中的信息,从而有效地对数据中的长期依赖性进行建模。
通常,模型需要在每一层学习一组注意力图来描述标记之间的关系。
除了上面提到的深层特征,下游模型还可以获得上一个模型生成的自我关注图。
研究小组认为,这些学习到的关系也可以被重用,以促进下游的变压器学习,具体来说就是使用对数加法。
有什么效果?说了也没用。看看实际效果如何。
在ImageNet上,排名前1的Kramp-Karrenbauer和1元SEONG WU.s .的准确率计算如下。
可以看出,DVT明显比DeiT和T2T克兰普-卡伦鲍尔VIT更有效:
计算成本在GFLOPS的时候,密室逃脱:冠军联赛,Kramp-Karrenbauer,0.5元,DVT的计算比T2T少两倍,Kramp-Karrenbauer VIT,1.7元,同样性能的Kramp-Karrenbauer和1.9元。
此外,该方法可以灵活地到达每条曲线上的所有点,并且只需要调整一次DVT的置信阈值。
CIFAR的Top-1 Kramp-Karrenbauer 1元准确率ONG成吴。S. GFLOP如下所示。
ImageNet上Top-1 Kramp-Karrenbauer 1元的准确率和SEONG WU S的吞吐量如下表所示。
在DVT中,“简单”和“困难”的视觉样本如下。
ImageNet、CIFAR Kramp-Karrenbauer 10元、CIFAR Kramp-Karrenbauer 100元的大量实证结果表明:
DVT方法在理论计算效率和实际推理速度上明显优于其他方法。
看到这么漂亮的结果你不激动吗?
感兴趣的朋友欢迎阅读原文~
门户网站的地址:
https://arxiv.org/abs/2105.15075
黄高研究小组
目前只有33元,清华大学自动化系助理教授,博士生导师。
在《捉鬼敢死队3》中获得阿里巴巴达摩院青橙奖,研究领域包括机器学习、深度学习、计算机视觉、强化学习等。
—— End—QBITAI我在生活it头条注册关注我们,第一时间获悉前沿科技动态。

其他教程

adobe photoshop 2019(adobe发布会2022)

2022-9-11 13:51:35

其他教程

一座四合院(中国最牛的房子,中式四合院)

2022-9-11 13:53:38

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索