深度学习模型压缩与加速综述

目前在深度学习领域分类两个派别,一派为学院派,研究强大、复杂的模型网络和实验方法,为了追求更高的性能;另一派为工程派,旨在将算法更稳定、高效的落地在硬件平台上,效率是其追求的目标。复杂的模型固然具有更好的性能,但是高额的存储空间、计算资源消耗是使其难以有效的应用在各硬件平台上的重要原因。所以,卷积神经网络日益增长的深度和尺寸为深度学习在移动端的部署带来了巨大的挑战,深度学习模型压缩与加速成为了学术界和工业界都重点关注的研究领域之一。本文主要介绍深度学习模型压缩和加速算法的三个方向,分别为加速网络结构设计、模型裁剪与稀疏化、量化加速。
i. 加速网络设计
分组卷积
分组卷积即将输入的feature maps分成不同的组(沿channel维度进行分组),然后对不同的组分别进行卷积操作,即每一个卷积核至于输入的feature maps的其中一组进行连接,而普通的卷积操作是与所有的feature maps进行连接计算。分组数k越多,卷积操作的总参数量和总计算量就越少(减少k倍)。然而分组卷积有一个致命的缺点就是不同分组的通道间减少了信息流通,即输出的feature maps只考虑了输入特征的部分信息,因此在实际应用的时候会在分组卷积之后进行信息融合操作,接下来主要讲两个比较经典的结构,shufflenet[1]和mobilenet[2]结构。
1) shufflenet结构:
如上图所示,图a是一般的group convolution的实现效果,其造成的问题是,输出通道只和输入的某些通道有关,导致全局信息 流通不畅,网络表达能力不足。图b就是shufflenet结构,即通过均匀排列,把group convolution后的feature map按通道进行均匀混合,这样就可以更好的获取全局信息了。图c是操作后的等价效果图。在分组卷积的时候,每一个卷积核操作的通道数减少,所以可以大量减少计算量。
2)mobilenet结构:
如上图所示,mobilenet采用了depthwise separable convolutions的思想,采用depthwise (或叫channelwise)和1x1 pointwise的方法进行分解卷积。其中depthwise separable convolutions即对每一个通道进行卷积操作,可以看成是每组只有一个通道的分组卷积,最后使用开销较小的1x1卷积进行通道融合,可以大大减少计算量。
分解卷积
分解卷积,即将普通的kxk卷积分解为kx1和1xk卷积,通过这种方式可以在感受野相同的时候大量减少计算量,同时也减少了参数量,在某种程度上可以看成是使用2k个参数模拟k*k个参数的卷积效果,从而造成网络的容量减小,但是可以在较少损失精度的前提下,达到网络加速的效果。
右图是在图像语义分割任务上取得非常好的效果的erfnet[3]的主要模块,称为nonbottleneck结构借鉴自resnet[4]中的non-bottleneck结构,相应改进为使用分解卷积替换标准卷积,这样可以减少一定的参数和计算量,使网络更趋近于efficiency。
bottleneck结构
右图为enet[5]中的bottleneck结构,借鉴自resnet中的bottleneck结构,主要是通过1x1卷积进行降维和升维,能在一定程度上能够减少计算量和参数量。其中1x1卷积操作的参数量和计算量少,使用其进行网络的降维和升维操作(减少或者增加通道数)的开销比较小,从而能够达到网络加速的目的。
c.relu[7]结构
c.relu来源于cnns中间激活模式引发的。输出节点倾向于是配对的,一个节点激活是另一个节点的相反面,即其中一半通道的特征是可以通过另外一半通道的特征生成的。根据这个观察,c.relu减少一半输出通道(output channels)的数量,然后通过其中一半通道的特征生成另一半特征,这里使用 negation使其变成双倍,最后通过scale操作使得每个channel(通道)的斜率和激活阈值与其相反的channel不同。
squeezenet[8]结构
squeezenet思想非常简单,就是将原来简单的一层conv层变成两层:squeeze层+expand层,各自带上relu激活层。在squeeze层里面全是1x1的卷积kernel,数量记为s11;在expand层里面有1x1和3x3的卷积kernel,数量分别记为e11和e33,要求s11 < input map number。expand层之后将 1x1和3x3的卷积output feature maps在channel维度拼接起来。
神经网络搜索[18]
神经结构搜索(neural architecture search,简称nas)是一种自动设计神经网络的技术,可以通过算法根据样本集自动设计出高性能的网络结构,在某些任务上甚至可以媲美人类专家的水准,甚至发现某些人类之前未曾提出的网络结构,这可以有效的降低神经网络的使用和实现成本。
nas的原理是给定一个称为搜索空间的候选神经网络结构集合,用某种策略从中搜索出最优网络结构。神经网络结构的优劣即性能用某些指标如精度、速度来度量,称为性能评估,可以通过nas自动搜索出高效率的网络结构。
本节主要介绍了模型模型设计的思路,同时对模型的加速设计以及相关缺陷进行分析。总的来说,加速网络模型设计主要是探索最优的网络结构,使得较少的参数量和计算量就能达到类似的效果。

联通腾讯“造”5G联合实验室,翼卡用户数破500万!
使用TDA2050的音频放大器的制作
浅析LT8672有源整流控制器技术特点
性能提升超200%,亿道三防加固计算机高算力为行业效率加速
KVM电脑延长器功能功效首选
深度学习模型压缩与加速综述
贴片电容常见型号,贴片电容识别方法
基于MSP430单片机的智能阻抗测量仪设计[图]
“工业大脑”PLC产业链及相关公司深度梳理
破解TD-LTE语音难题
对于FPGA高灵活性的芯片来说,在5G的时代将有着怎样的发展?
挑机箱不只看外观还要看材质篇
奥托立夫和沃尔沃将授权许可辅助驾驶系统的知识产权转移至合资公司
详解uc3842芯片的电压反馈电路工作原理
中航光电赋能数据中心算力提升及架构优化
红石阳光合作打造智慧空间管理平台 JBL合作推出耳机产品
智能交通系统对发展智慧城市的影响
哈工大机器人集团华中总部落户武汉
纳米机器人是什么意思_纳米机器人的用途
为什么Type-C接口能够在连接器市场中快速崛起