Transformer的兴起:提高实时视觉处理的准确度

2017 年在 google的一篇研究论文中首次提出了transformer模型,它最初是为自然语言处理 (nlp) 任务而设计的。最近,研究人员将transformer应用在了视觉应用领域(在过去十年中由卷积神经网络 (cnns) 占据主导地位),并获得了有趣的结果。事实证明,transformer对图像分类和物体检测等视觉任务的适应性令人惊讶。这些结果为transformer赢得了在视觉任务中与 cnn 比肩的地位。这些任务旨在提高机器对环境的理解,以用于情境感知视频推理等未来应用。
2012 年,名为 alexnet 的卷积神经网络(cnn)赢得了 imagenet 大规模视觉识别挑战赛 (ilsvrc),这是一项年度计算机视觉竞赛。任务是让您的机器学习并“分类”1000 个不同的图像(基于 imagenet 数据集)。alexnet 实现了 15.3% 的 top-5 错误率。往届的获胜者是基于传统编程模型,实现的 top-5 错误率大约是 26%(见图 1)。在这之后,cnn 一直占据统治地位。2016 年和 2017 年,获胜的 cnn 实现了比人类更高的准确度。大多数参与者实现了超过 95% 的准确度,促使 imagenet 在 2018 年推出一项难度更高的全新挑战。cnn 在 ilsvrc 挑战赛中的统治地位推动了人们大量研究如何将 cnn 应用于实时视觉应用。在准确度不断提高的同时,resnet 和 efficientnet 分别于 2015 年和 2020 年将效率提升了 10 倍。实时视觉应用不仅需要准确度,还需要更高的性能(推理/秒或每秒帧数 (fps))、缩小模型尺寸(提高带宽),以及功率和面积效率。
图 1:ilsvrc 结果凸显了 alexnet(一种卷积神经网络)带来了显著提高的视觉分类准确度。
分类是更复杂、更有用的视觉应用的基石。这些视觉应用包括对象检测(在二维图像中找到对象的位置)、语义分割(对图像中的每个像素进行分组/标记)和全景分割(识别对象位置以及对每个对象中的每个像素进行标记/分组)。2017 年 google brain 的论文中首次介绍的transformer旨在改进递归神经网络 (rnn) 和长短时记忆 (lstm),用于翻译、问答和对话式 ai 等 nlp 任务。rnn 和 lstm 已用于处理顺序数据(即数字化语言和语音),但其架构不易并行化,因此通常具有非常有限的带宽,难以训练。transformer的结构与 rnn 和 lstm 相比具有几个优势。与必须按顺序读取一串文本的 rnn 和 lstm 不同,transformer明显更易并行化,并且可以同时以完整的单词顺序读取,从而更好地学习文本字符串中单词之间的上下文关系。
2018年底,谷歌提出了预训练模型双向编码表征transformer(bert),其在多项nlp任务上均取得了突破性的进展,大受欢迎,以至于被纳入 mlcommons 的 mlperf 神经网络推理基准测试套件中。除了准确度高之外,transformer还更容易被训练,使大型transformer成为可能。mtm、gpt-3、t5、albert、roberta、t5、switch as 只是处理 nlp 任务的一些大型转换器。由 openai 于 2020 年推出的生成预训练transformer3 (gpt-3) 使用深度学习来生成类似人类的文本,准确度很高,以至于很难判定该文本是否由人类编写。
像 bert 这样的transformer可以成功地应用于其他应用领域,并具有极具前景的嵌入式使用效果。可以在广泛的数据上训练并应用于各种应用的 ai 模型被称为基础模型。在其中的视觉领域,transformer取得了令人惊叹的成就。
应用于视觉的transformer
2021 年发生了一些非凡的事情。google brain 团队将其transformer模型应用于图像分类。一连串单词和二维图像之间存在很大差异,但 google brain 团队将图像切成小块,将这些小块图像中的像素放入矢量中,并将矢量馈送到transformer中。结果令人惊讶。在不对模型进行任何修改的情况下,transformer在分类方面的准确度优于最先进的 cnn。虽然准确度不是实时视觉应用的唯一指标(功率、成本、面积)和推理/秒也很重要),但这在视觉领域中堪称一项重大成果。
图 2:transformer和 cnn 结构对比
比较 cnn 和transformer对了解其类似结构很有帮助。在图 2 中,transformer的结构由图像左侧的方框组成。为了进行比较,我们使用与 resnet 中发现的结构类似的典型 cnn 结构来绘制 cnn 的类似结构。resnet 是具有逐元素加法的 1x1 卷积。我们发现transformer的前馈部分在功能上与 cnn 的 1x1 卷积相同。这些是矩阵乘法运算,可在特征图中的每个点上应用线性转换。
transformer和 cnn 之间的区别在于两者如何混合来自相邻像素的信息。这发生在transformer的多头注意力和卷积网络的 3x3 卷积中。对于cnn,混合的信息基于每个像素的固定空间位置,如图 3 中所示。对于 3x3 卷积,使用相邻像素(中心像素周围的九个像素)计算加权和。
图 3:说明 cnn 的卷积和transformer的注意力网络在混合其他令牌/像素的特征方面有何差异。
transformer的注意力机制不仅基于位置,还基于学习属性来混合数据。在训练期间,transformer可以学习关注其他像素。注意力网络具有更强的学习和表达更复杂关系的能力。
推出视觉transformer转换器和偏移窗口transformer
专门用于视觉任务的新型transformer正在兴起。专门从事图像分类的视觉transformer (vit) 现在正在准确度方面击败 cnn(尽管要实现这种准确度,vit需要用非常大的数据集进行训练)。vit 还需要更多的计算,这会降低其 fps 性能。
transformer也正在应用于对象检测和语义分割。swin(偏移窗口)transformer为对象检测 (coco) 和语义分割 (ade20k) 提供了最先进的准确度。虽然 cnn 通常应用于静态图像,但由于对以前或将来的帧不了解,转换器可以应用于视频帧。swin 的变体可直接应用于视频,用于动作分类等用途。将transformer的注意力分别应用于时间和空间,为 kinetics-400 和 kinetics-600 动作分类基准测试提供了最先进的结果。
apple 于 2022 年初推出的 mobilevit(图 4)提供了transformer和cnn的有趣组合。mobilevit 结合了transformer和 cnn 功能,为针对移动应用程序的视觉分类创建了轻量级模型。与仅使用 cnn 的 mobilenet 相比,这种transformer和cnn的组合使相同尺寸的模型(6m 系数)的准确度提高了 3%。尽管 mobilevit 的性能优于 mobilenet,但它仍然慢于当今支持 cnn 但没有针对transformer进行优化的手机上的 cnn 实现。要想利用transformer的优势,未来的视觉 ai 加速器将需要更好的transformer支持。
图 4:mobilevit:轻量、通用和移动友好型视觉transformer(图片来源:https://arxiv.org/abs/2110.02178)
尽管transformer在视觉任务方面取得了成功,但卷积网络不太可能很快消失。这两种方法之间仍然存在权衡,transformer具有更高的准确度,但 fps 性能低得多,需要更多的计算和数据移动。为了规避两者的弱点,将transformer和 cnn 相结合可以产生具有巨大前景的灵活解决方案。
transformer的实现尽管在架构上存在相似之处,但无法让专门为 cnn 设计的加速器有效地执行transformer。至少需要考虑架构增强,以处理注意力机制。
新思科技 的 arc npx6 npu ip 是 ai 加速器的一个例子,该加速器旨在高效处理 cnn 和transformer。npx6 的计算单元(图 5)包括卷积加速器,该加速器旨在处理对 cnn 和transformer都至关重要的矩阵乘法。张量加速器也至关重要,因为它旨在处理所有其他非卷积张量算子集架构 (tosa) 运算,包括transformer运算。
图 5:新思科技 arc npx6 npu ip
总结
视觉transformer已经取得了快速进步,并将继续保持。这些基于注意力的网络在准确度方面优于仅支持 cnn 的网络。将视觉transformer与卷积相结合的模型在推理(如 mobilevit)方面更高效,并提高了性能效率。这种新型神经网络模型正在开启解决未来 ai 任务的大门,例如完全视觉感知,其需要的知识单靠视觉可能不易获取。transformer与 cnn 相结合,引领着新一代 ai 的发展。选择同时支持 cnn 和transformer的架构,对于新兴 ai 应用的 soc 成功至关重要。


B&O也推出了全新的E8 3.0
动力电池系统中的液冷板类型及产品实例
深海捷智能AI外呼语音机器人价值在哪
无锡除尘器、废气处理设备系列安全生产万里行
走向荷比卢:把欧洲十字路口变成出海第一站
Transformer的兴起:提高实时视觉处理的准确度
森兰SB61P型变频器一拖四电路图
安乃达沪主板IPO注册!主打直驱轮毂电机,募资10.39亿大扩产
我国制造业目前面临哪五大困境
特斯拉斥资10亿元为其上海工厂采购土地
adolbook14开售 全球首款金属渐变笔记本首发价4999元
LED显示屏发光字常见问题及解决
基于模板元编程的量纲检测方法
英飞凌聚焦汽车电子,功率半导体关业者都可受惠
谷歌光纤的展望:高速宽带会成为主流
全球半导体厂商20强联发科登上冠军宝座
双绕组电流互感器的设计及应用
上海+商汤:共同推进智慧城市在上海的发展
ATX-3000线束测试仪:汽车线束线缆故障及线缆测试仪应用
【4月20日|上海】三年磨一剑!是德科技华东区首场B5G新技术与测试方案研讨会
s