两年前,当 meliusnet 问世时,机器之心曾发表过一篇技术文章《第一次胜过 mobilenet 的二值神经网络,-1 与 + 1 的三年艰苦跋涉》,回顾了 bnn 的发展历程。彼时,依靠早期 bnn 工作 xnor-net 起家的 xnor.ai 被苹果公司收购,大家曾畅想过这种低功耗、高效能的二值神经网络技术会不会即将开启广阔的应用前景。
然而,过去的两年时间,我们很难从对技术严格保密的苹果公司获得关于 bnn 技术应用的更多信息,而不论是学界和业界也未出现其他特别亮眼的应用案例。另一方面,随着终端设备数量的暴涨,边缘 ai 应用和市场正在迅速增长: 预计到 2030 年将产生 500 到 1250 亿台边缘设备,边缘计算市场将暴涨到 600 亿美元规模。这其中有几个目前热门的应用领域:aiot、元宇宙和机器人终端设备。相关业界正在加速发力技术落地,与此同时 ai 能力已经嵌入到以上领域的诸多核心技术环节中,如 ai 技术在三维重建、视频压缩以及机器人实时感知场景中的广泛应用。在这样的背景下,业界对基于边缘的高能效、低功耗 ai 技术、软件工具以及硬件加速的需求变的日益迫切。
目前,制约 bnn 应用的瓶颈主要有两方面:首先,无法有效缩小和传统 32-bit 深度学习模型的精度差距;第二则是缺乏在不同硬件上的高性能算法实现。机器学习论文上的加速比通常无法体现在你正在使用的 gpu 或 cpu 上。第二个原因的产生可能正是来自于第一个原因,bnn 无法达到令人满意的精度,因此无法吸引来自系统和硬件加速、优化领域的从业者的广泛关注。而机器学习算法社区通常无法自己开发高性能的硬件代码。因此,想要同时获得高精度和强加速效果,bnn 应用或加速器无疑需要来自这两个不同领域的开发者进行协作。
bnn 为什么对于计算和内存高效
举个例子,meta 推荐系统模型 dlrm 使用 32-bit 浮点数来储存权重和激活参数,它的模型大小约为 2.2gb。而一个少量精度下降 ( 80% 准确率的二值神经网络架构,具体的网络架构设计如图 4 所示。作者首先设计了基于 info-recoupling (info-rcp) 模块的基础二值处理单元。针对邻接卷积间的信息瓶颈问题,通过引入额外的 batch normalization 层与 prelu 层完成对二值卷积输出分布的初步校准设计。接着作者构造了基于逆向残差结构与 squeeze-and-expand 分支结构的二次动态分布校准设计。如图 3 所示,相比传统的 real2binary 校准结构,额外的逆向残差结构充分考虑了二值单元输入与输出间的特征差距,避免了完全基于输入信息的次优分布校准。这种双阶段的动态分布校准可以有效降低后续邻接二值卷积层的特征提取难度。
图 3 卷积模块设计对比图
其次,作者提出结合 element-wise attention (elm-attention) 的增强二值 basic block 模块。作者通过堆叠多个 info-rcp 模块完成 basic block 的基础搭建,并对每个 info-rcp 模块引入额外的 batch normalization 和连续的残差连接以进一步缓解不同 info-rcp 模块间的信息瓶颈问题。基于旁路结构对二值模型优化影响的分析, 作者提出使用 element-wise 矩阵乘法分支对每个 basic block 的首个 3x3 info-rcp 模块输出进行分布校准。额外的空域注意力加权机制可以帮助 basic block 以更灵活的机制进行前向信息融合与分发,改善模型 loss landscape 平滑度。如图 2.e 和图 2.f 所示,所提出的模块设计可以显著改善模型 loss landscape 平滑度。
图 4 bnext 架构设计。processor 代表 info-rcp 模块,bn 代表 batch normalization 层,c 表示模型基本宽度,n 和m 表示模型不同阶段的深度比例参数。
table 1 bnext 系列。“q”表示输入层、sebranch以及输出层量化设置。
作者将以上结构设计同流行的mobolenetv1基准模型结合,并通过改变模型深度与宽度的比例系数构建了四种不同复杂度的 bnext 模型系列 (table 1):bnex-tiny,bnext-small,bnext-middle,bnext-large。
由于相对粗糙的 loss landscape,当前二值模型优化普遍依赖于 knowledge distillation 等方法提供的更精细监督信息,以此摆脱广泛存在的次优收敛。bnext作者首次考虑了优化过程中teache模型与二值student模型预测分布巨大差距可能带来的影响,,指出单纯基于模型精度进行的 teacher 选择会带来反直觉的 student 过拟合结果。为解决这一问题,作者提出了 knowledge-complexity (kc) 作为新的 teacher-selection 度量标准,同时考虑 teacher 模型的输出软标签有效性与 teacher 模型参数复杂度之间的关联性。
如图 5 所示,基于 knowledge complexity,作者对流行全精度模型系列如 resnet、efficientnet、convnext 进行了复杂度度量与排序,结合 bnext-t 作为 student 模型初步验证了该度量标准的有效性,并基于排序结果用于后续实验中的 knowledge distillation 模型选择。
图 5 反直觉的过拟合效应和不同教师选择下的知识复杂性影响
在此基础上,论文作者进一步考虑了强 teacher 优化过程中由于早期预测分布差距造成的优化问题,提出 diversified consecutive kd。如下所示,作者通过强弱 teachers 组合的知识集成方法对优化过程中的目标函数进行调制。在此基础上,进一步引入 knowledge-boosting 策略,利用多个预定义候选 teachers 在训练过程中对弱 teacher 进行均匀切换,将组合知识复杂度按照从弱到强的顺序进行课程式引导,降低预测分布差异性带来的优化干扰。
在优化技巧方面,bnext 作者充分考虑了现代高精度模型优化中数据增强可能带来的增益,并提供了首个针对现有流行数据增强策略在二值模型优化中可能带来影响的分析结果,实验结果表明,现有数据增强方法并不完全适用于二值模型优化,这为后续研究中特定于二值模型优化的数据增强策略设计提供了思路。
基于所提出架构设计与优化方法,作者在大规模图像分类任务 imagenet-1k 进行方法验证。实验结果如图 6 所示。
图 6 基于 imagenet-1k 的 sota bnn 方法比较。
相比于现有方法,bnext-l 在 imagenet-1k 上首次将二值模型的性能边界推动至 80.57%,对大多数现有方法实现了 10%+ 的精度超越。相比于来自 google 的 pokebnn, bnext-m 在相近参数量前提下要高出 0.7%,作者同时强调,pokebnn 的优化依赖于更高的计算资源,如高达 8192 的 bacth size 以及 720 个 epoch 的 tpu 计算优化,而 bnext-l 仅仅以常规 batch size 512 迭代了 512 个 epoch,这反映了 bnext 结构设计与优化方法的有效性。在基于相同基准模型的比较中,bnext-t 与 bnext-18 都有着大幅度的精度提升。在同全精度模型如 regnety-4g (80.0%)等的对比中,bnext-l 在展现相匹配的视觉表征学习能力同时,仅仅使用了有限的参数空间与计算复杂度,这为在边缘端部署基于二值模型特征提取器的下游视觉任务模型提供了丰富想象空间。
what next?
bnext 作者在论文中提到的,他们和合作者们正积极在 gpu 硬件上实现并验证这个高精度 bnn 架构的运行效率,未来计划扩展到其他更广泛的硬件平台上。然而在编者看来,让社区对 bnn 重拾信心,被更多系统和硬件领域的极客关注到,也许这个工作更重要的意义在于重塑了 bnn 应用潜力的想象空间。从长远来看,随着越来越多的应用从以云为中心的计算范式向去中心化的边缘计算迁移,未来海量的边缘设备需要更加高效的 ai 技术、软件框架和硬件计算平台。而目前最主流的 ai 模型和计算架构都不是为边缘场景设计、优化的。因此,在找到边缘 ai 的答案之前,相信 bnn 始终都会是一个充满技术挑战又蕴涵巨大潜力的重要选项。
S7-300集成DP口与S7-200的DP主从通信设计实现
工业级温湿度传感器相比普通传感器的优势是什么
深度盘点2019年物联网发展的6大方向
IO多路复用的几种实现机制的分析
华为P9和荣耀9哪个好?华为P9与荣耀9深度评测对比
首个在ImageNet上精度超过80%的二值神经网络BNext问世
用于电流检测应用的高 CMR 隔离放大器分析
智慧济南 华为昇腾发力人工智能与实体经济深度融合
便携式全项目食品安全综合检测仪价格
SDC计划将LCD面板停产最长延期至明年底
绕地球飞行的第一名美国人、全球年龄最大的宇航员辞世
Propt learnimng是如何发展形成的
我国首条自动驾驶车辆测试道路正式对外开放
优点Cuber智能净饮机高清图赏
99划算节投影仪怎么选?数码达人强推靠谱投影仪排行榜
台积电迎来大涨价,背后的五大原因分析
华为手机用哪款充电宝合适,最受华为用户欢迎的品牌
中国出现共享宝马!每公里只收1.5元如此便宜,共享汽车被视为下一个风口?
DIN44-A4-P1-A3 4-20mA转0-20mA分配器变送器四进四出
【冷剪机维修】冷剪机轴承位磨损的现场修复技术