开源深度学习框架对比研究的三个主要维度学习

本节对5个开源深度学习框架进行对比研究，主要侧重于3个维度研究：硬件支持率、速度和准确率、社区活跃性。他们分别是：tensorflow、caffe、keras、torch、dl4j 。
2.3.1 硬件支持率
本节研究的硬件利用率指不同开源深度学习框架对于不同cpu／gpu配置下对硬件的支持效率与通用性能表现。
表2.1展示了各框架对于不同硬件的通用支持性能。
2.3.2 速度和准确率
本节将梯度计算时间、前馈传播和反馈传播时间总和度量，不对各项进行细分。且所有试验数据基于cpu。
模型本节选取全链接神经网络(fully connected neural network, fcnn)作为深度学习框架速度测试模型。fcnn被视为前馈多层感知网络，意味着网络神经元之间的连接是单向的，不包含环状连接，因此容易获得时间数据。fcnn最主要的用途在于进行数据分类工作，因此适合对不同框架下的准确率进行对比。
数据集本节选取mnist手写数字图片集作为fcnn的数据集对不同框架进行测试。mnist数据集由6000张训练图像集和1000张测试图像集组成，均为28x28像素的手写数字图片。
测试方法本节目标在于对比测试fcnn类型的神经网络在不同框架上的收敛所耗时间以及预训练网络在不同框架上对于分类结果预测的准确性。主要考察以下方面：1.收敛速度；2.预测耗时；3.分类准确性；4.源代码规模；
为了评估模型的可扩展性，采用不同的扩展性因子来度量上述1-3点。神经网络结构采用两种尺度进行测试：1.使用相同的神经元数来改变网络的“深度”(见图2.10)；2.使用相同的层数来改变网络的“宽度”(见图2.11)；
图2.9 “深度”改变了的神经网络
图2.10 “宽度”改变了的神经网络
测试结果图2.11-图2.14展示了fcnn基于各框架使用tanh非线性激活函数的情况下的训练时间、预测时间和分类准确度。所有试验的epoch设定为10。
图2.11 基于tanh激活的fcnn在改变“深度”情况下的训练时间
图2.12 基于tanh激活的fcnn在改变“深度”情况下的预测时间
图2.13 基于tanh激活的fcnn在改变“深度”情况下的分类准确率
类似的，图2.14-图2.16展示了fcnn基于各框架使用relu非线形激活函数的情况下的训练时间。
图2.14 基于relu激活的fcnn在改变“深度”情况下的训练时间
图2.15 基于relu激活的fcnn在改变“深度”情况下的预测时间
图2.16 基于relu激活的fcnn在改变“深度”情况下的分类准确率
下面的试验考察当网络隐含层的尺寸(如神经元个数)如图2.10的方式改变时，fcnn在不同框架上的速度、准确率的变化情况。试验结果分别于图2.17-图2.19种一同样的方式被展示。
图2.17 基于relu激活的fcnn在改变“宽度”情况下的训练时间
图2.18 基于relu激活的fcnn在改变“宽度”情况下的预测时间
图2.19 基于relu激活的fcnn在改变“宽度”情况下的分类准确率
我们结合相关算法实现的代码量与接口语言来衡量深度学习框架的复杂度。各框架的复杂度对比见表2.1和图2.20所示。
表2.1 各框架的复杂性
图2.20 复杂性的代码行表现
2.3.3 社区活跃度速度是衡量源深度学习框架性能的一个重要指标，同时，对各开源深度学习框架的贡献者数量和开源社区的活跃度也同等重要。无论对于学术研究或是工业项目开发与部署，社区活跃度与知识获取与开发成本关系十分密切。
github社区项目的watch、star、fork数量可反映出各深度学习框架的活跃度(如图2.21-2.23所示)。其中watch反应了各框架的浏览量，star数量代表社区使用者对框架的点赞数，fork则指框架被拷贝的数量。
图2.21 github社区各开源深度学习框架的watch数
图2.22 github社区各开源深度学习框架的star数
图2.23 github社区各开源深度学习框架的fork数
当跳出深度学习框架本身，在github检索基于各框架的项目、笔记、讨论时，图2.24-图2.26展示出了基于各框架的项目的活跃情况。
图2.24 github社区基于各开源深度学习框架的repositories
图2.25 github社区基于各开源深度学习框架的commits
图2.26 github社区基于各开源深度学习框架的commits
2.3.3 工业表现能力
开源深度学习框架不仅对学术研究提供了有力的支持，同时也为工业界解决任务提供了众多解决方案。本节将从模型表达能力、接口、部署、性能和架构等方面度量各开源框架在工业生产领域的表现。
图2.27 各框架支持语言
表2.2 各框架工业能力评分(github)
网络和模型能力 caffe在计算机视觉领域是最流行的工具包，有很多扩展，但对递归网络和语言建模的支持很差。此外，在caffe中图层需要使用c++定义，而网络则使用protobuf定义。
tensorflow是一个理想的rnn api和实现，向量运算的图方法使得新网络的指定变得相当容易，但其并不支持双向rnn和3d卷积，同时公共版本的图定义也不支持循环和条件控制，这使得rnn的实现并不理想，因为必须要使用python循环且无法进行图编译优化。
theano支持大部分先进的网络，很多研究想法都来源于theano，它引领了符号图在编程网络中使用的趋势。theano的符号api支持循环控制，让rnn的实现更加容易且高效。
torch对卷积网络的支持非常好，通过时域卷积的本地接口使得它的使用非常直观。torch通过很多非官方的扩展支持大量的rnn，同时网络的定义方法也有很多种。但torch本质上是以图层的方式定义网络的，这种粗粒度的方式使得它对新图层类型的扩展缺乏足够的支持。与caffe相比，在torch中定义新图层非常容易，不需要使用c++编程，图层和网络定义方式之间的区别最小。
接口 caffe支持pycaffe接口，但这仅仅是用来辅助命令行接口的，而即便是使用pycaffe也必须使用protobuf定义模型。
tensorflow支持python和c++两种类型的接口。用户可以在一个相对丰富的高层环境中做实验并在需要本地代码或低延迟的环境中部署模型。
theano支持python接口。
torch运行在luajit上，与c++、c#以及java等工业语言相比速度非常快，用户可编写任意类型的计算而不需要担心性能，但lua并非主流语言。
模型部署 caffe基于c++，可在多种设备上编译，具有跨平台性，是部署项目的最佳选择。
tensorflow支持c++接口，同时能够基于arm架构编译和优化。用户可将成熟模型部署在多种设备上而不需实现单独的模型解码器或者加载python/luajit解释器。
theano缺少底层的接口，并且其python解释器也很低效。
torch的模型运行需要luajit的支持，对集成造成了很大的障碍。
性能 caffe 简单快速。
tensorflow仅使用了cudnn v2，但即使如此它的性能依然要比同样使用cudnn v2的torch要慢1.5倍，并且在批大小为128时训练googlenet还出现了内存溢出的问题。
theano在大型网络上的性能与torch7不相上下。但其因需要将c/cuda代码编译成二进制而启动时间过长。此外，theano的导入也会消耗时间，并且在导入之后无法摆脱预配置的设备。
torch非常好，没有tensorflow和theano的问题。
架构 caffe的主要劣势是图层需要使用c++定义，而模型需要使用protobuf定义。此外，如果想要支持cpu和gpu，用户还必须实现额外的函数；对于自定义的层类型，还须为其分配id，并将其添加到proto文件中。
tensorflow的架构清晰，采用了模块化设计，支持多种前端和执行平台。
theano 的整个代码库都使用python，连c/cuda代码也要被打包为python字符串，这使其难以导航、调试、重构和维护。
torch7和nn类库拥有清晰的设计和模块化的接口。
2.2.4 结论 1. 各深度学习框架对于硬件的利用情况：
多线程cpu的情况下torch使用的最广泛；
tensorflow在多gpu的条件下最为灵活可用；
2. 各深度学习框架对于速度：
在网络“深度”改变的情况下，keras具有最快的训练速度，tensorflow具有最快的预测响应速度；
在网络“宽度”改变的情况下，caffe具有最快的训练速度，tensorflow在“宽度”改变较小的情况下具有最快的预测响应速度，“宽度”改变较大时keras具有最快的响应速度，tensorflow紧随其后；
3. 各深度学习框架对于准确率：
在网络“深度”改变的情况下，tensorflow和torch的分类准确率随网络“深度”的增加而下降；
在网络“宽度”改变的情况下，tensorflow的分类预测准确率相对稳定，超越caffetorch；
无论在网络“深度”或是“宽度”改变的情况下，keras对分类预测的准确率十分稳定，且超越其他框架，具有最佳的预测准确率；
4. 各深度学习框架的社区活跃度：
tensorflow可以定义为“最流行”、“最被认可”的开源深度学习框架。其在github上无论是star数、fork数，或是检索基于tensorflow的项目数，都大大超过其他框架，甚至超越其他框架资源的总和。
5. 各深度学习框架的工业表达能力：
caffe具有优秀的模型表达能力和工业部署能力，尤其是计算机视觉方面，但对rnn和语言建模的支持很差。caffe适用于视觉任务处理，尤其是基于深度学习的工业项目，其具有无可争议的生产稳定性；但其缺乏灵活性，这使得对网络结构的改变比其他框架麻烦，且caffe的文档十分匮乏，代码阅读困难高于其他框架。
tensorflow具有很好的模型表达能力、优秀的接口和清晰的内部框架，适用于工业项目部署，但其速度性能不具备优势；tensorflow支持分布式计算，使得硬件设备的性能得到最充分发挥；其代码的可读性和社区活跃度使得无论是学术研究或工业生产变得容易；
keras具有良好的速度性能、模型表达能力，使用简洁、方便—只需几行代码就能构建一个神经网络。keras具有完整的文档，使得学习和使用十分容易—即便不熟悉python。其更适用于学术研究、实验或轻量级工业任务(如获取特征值)；
torch具有十分优秀的速度性能，但其使用lua语言；
dl4j兼容jvm，也适用 java、clojure和 scala；

锁相环性能度量标准解读
5G商用时代，新闻媒体成最先受益者
论口碑：小米6和一加3T评测对比，你会怎么选？
人脸识别测温一体机可保障校园学生宿舍的安全
2019年工程建设科学技术奖颁奖名单
开源深度学习框架对比研究的三个主要维度学习
三大热门HiFi APP，VIPER HiFi高性价比坐拥千万级无损曲库
明纬推出世界第一款LED恒流型LED驱动器
寄存器模型Register Model学习笔记
一种无APFC的低成本全电压设计方案
是什么引起电能质量问题？
iPhone8什么时候上市？iPhone8最新消息：iPhone8可能要到2018年才能上市，硬件升级导致的制造延期？
极智嘉将在2021年底前为eStore Logistics部署逾200台AMR机器人
无线传感器技术在物联网领域的应用案例分析
浅析新能源汽车快速换电技术
从5G赢家高通谈全球5G竞争态势
微软Win10搜索磁盘和CPU使用率过高的问题修复
华为麒麟810正式发布 “弹药级”芯片的绝地反击!
2022年人工智能发展情况详细分析
你不可不知的11个Linux命令