神经网络瘦身:关于SqueezeNet的创新点、网络结构

今年二月份,uc berkeley和stanford一帮人在arxiv贴了一篇文章:
squeezenet: alexnet-level accuracy with 50x fewer parameters and<0.5mb model size(https://arxiv.org/abs/1602.07360)
这篇文章做成了许多人梦寐以求的事——压缩神经网络参数。但和以往不同,原作不是在前人网络基础上修修补补(例如deep compression),而是自己设计了一个全新的网络,它用了比alexnet少50倍的参数,达到了alexnet相同的精度!
关于squeezenet的创新点、网络结构,国内已经有若干爱好者发布了相关的简介,如这篇(http://blog.csdn.net/xbinworld/article/details/50897870)、这篇(http://blog.csdn.net/shenxiaolu1984/article/details/51444525),国外的文献没有查,相信肯定也有很多。
本文关注的重点在squeezenet为什么能实现网络瘦身?难道网络参数的冗余性就那么强吗?或者说很多参数都是浪费的、无意义的?
为了更好的解释以上问题,先给出alexnet和squeezenet结构图示:
alexnet
图1 alexnet示意图
图2 alexnet网络结构
squeezenet
图3 squeezenet示意图
图4 squeezenet网络结构
为什么squeezenet能够以更少的参数实现alexnet相同的精度?
下面的表格直观的展示了squeezenet的参数量,仅为alexnet的1/48。
网络 参数量
alexnet 60m
squeezenet 1.25m
乍一看,感觉非常不科学,怎么可能相差如此悬殊的参数量实现了相同的识别精度?
我们先考虑一个非常简单的例子,这个例子可以说是squeezenet和alexnet的缩影:
1、一层卷积,卷积核大小为5×5
2、两层卷积,卷积核大小为3×3
以上两种卷积方式除了卷积核大小不同,其它变量均相同,为了方便后文计算,定义输入通道数1,输出通道数为c(两层卷积为c'),输出尺寸n×n。
按照目前的理论,神经网络应该尽可能的采用多层小卷积,以减少参数量,增加网络的非线性。但随着参数的减少,计算量却增加了!根据上面的例子,大致算一下,为了简便,只考虑乘法的计算量:
5×5一层卷积计算量是25×c×n×n
3×3两层卷积的计算量是9×c×(1+c')×n×n
很明显25c<9c(1+c')。
这说明了什么?说明了“多层小卷积核”的确增大了计算量!
我们再回过头考虑squeezenet和alexnet,两个网络的架构如上面4幅图所示,可以看出squeezenet比alexnet深不少,squeezenet的卷积核也更小一些,这就导致了squeezenet计算量远远高于alexnet(有待商榷,需要进一步确认,由于fire module中的squeeze layer从某种程度上减少了计算量,squeezenet的计算量可能并不大)。
可是论文原文过度关注参数个数,忽略计算量,这样的对比方式貌似不太妥当。事实上,目前最新的深层神经网络都是通过增加计算量换来更少的参数,可是为什么这样做效果会很好?
因为内存读取耗时要远大于计算耗时!
如此一来,问题就简单了,不考虑网络本身架构的优劣性,深层网络之所以如此成功,就是因为把参数读取的代价转移到计算量上了,考虑的目前人类计算机的发展水平,计算耗时还是要远远小于数据存取耗时的,这也是“多层小卷积核”策略成功的根源。
关于dense-sparse-dense(dsd)训练法
不得不说一下原作的这个小发现,使用裁剪之后的模型为初始值,再次进行训练调优所有参数,正确率能够提升4.3%。 稀疏相当于一种正则化,有机会把解从局部极小中解放出来。这种方法称为dsd (dense→sparse→dense)。
这个和我们人类学习知识的过程是多么相似!人类每隔一段时间重新温习一下学过的知识,会增加对所学知识的印象。我们可以把“隔一段时间”理解为“裁剪”,即忘却那些不怎么重要的参数,“再学习”理解为从新训练,即强化之前的参数,使其识别精度更高!

Oculus呼吁:不要开发“劣质”的虚拟现实产品
Ping命令的7个基础用法
国芯思辰|功耗低至2.5mA的中科阿尔法双极锁存型霍尔开关AH502(替代HAL1502)用在微型无刷直流电机中
在非隔离类多电源域电平转换应用
蓝牙定位技术原理
神经网络瘦身:关于SqueezeNet的创新点、网络结构
英伟达显卡驱动更新_英伟达显卡驱动设置
简单介绍硅通孔(TSV)封装工艺
labview前面板滚动条怎么设置
机器人超声波传感器应用技术
5G推开了三重门 5G的产业之门 5G的个人之门 5G的社会之门
齿轮减速机安全操作指南
ST推出新一代高频功率晶体管
2nm芯片将于2025年量产,将启用全新技术
诠欣成功进入特斯拉供应链,今年车用连接器占营收比重可望达13%
地平线自主创新的征程1.0处理器
全连接工厂以数据来驱动管理,“1+1+6+N”体系架构成内生动力
豪威科技发布OVMed OCHSA和OCHTA电缆模块
PCB行业铜箔涨价将对下游成本造成很大压力
企业为什么选择工业控制主板?