许多不同的硬件架构在深度学习市场中共存

在深度神经网络(dnn)发展的简短历史中,业界不断尝试各种可提升性能的硬件架构。通用cpu最容易编程,但每瓦特性能的效率最低。gpu针对平行浮点运算进行了优化,性能也比cpu更高几倍。因此,当gpu供货商有了一大批新客户,他们开始增强设计,以进一步提高dnn效率。例如,nvidia新的volta架构增加专用矩阵乘法单元,加速了常见的dnn运算。
即使是增强型的gpu,仍然受其图形专用逻辑的拖累。此外,尽管大多数的训练仍然使用浮点运算,但近来的趋势是使用整数运算进行dnn推论。例如nvidia volta的整数性能,但仍然建议使用浮点运算进行推论。芯片设计人员很清楚,整数单元比浮点单元更小且功效更高得多;当使用8位(或更小)整数而非16位或32位浮点数时,其优势更加明显。
相较于gpu,dsp则是针对整数数学而设计的,特别适用于卷积神经网络(cnn)中的卷积函数。向量dsp使用宽simd单元进一步加速推论计算,例如,cadence的c5 dsp核心包括四个2048位宽度的simd单元;因此,核心在每个周期内可以完成1,024个8位整数乘法累加(mac)作业。在16nm设计中,它能每秒处理超过1兆个mac运算。联发科技(mediatek)即取得了cadence的dsp ip授权,用于其最新智能手机处理器的dnn加速器。
新架构的机会
最有效率的架构是从头开始设计dnn,消除其它应用的特性,并针对dnn需要的特定计算进行优化。这些架构能建置于专用asic或销售至系统制造商的芯片(这些芯片称为专用标准产品或assp)中。最显著的dnn asic是google的tpu,它为推论任务进行了优化,主要包括65,536个mac单元的脉动数组和28mb内存,以容纳dnn权重和累加器。tpu使用一个简单的四阶流水线,而且只执行少数指令。
多家新创公司也在为dnn开发客制架构。英特尔(intel)去年收购了其中的一家(nervana),并计划在今年年底前出样其第一款assp;但该公司尚未透露该架构的任何细节。wave computing为dnn开发了数据流处理器。其它为此获得众多资金的新创公司包括cerebras、graphcore和groq。我们预计这些公司至少有几家会在2018年投产组件。
另一种建置优化架构的方法是利用fpga。微软(microsoft)广泛采用fpga作为其catapult和brainwave计划的一部份;百度(baidu)、facebook以及其它云端服务器供货商(csp)也使用fpga加速dnn。这种方法避免了数百万美元的asic和assp投片费用,并提供了更快的产品验证时程;只要设计改动,fpga就能在几分钟内重新编程和设计。但它们作业于较低的时钟速率,并且比asic所能容纳的逻辑块更少得多。图1总结了我们对这些解决方案之间相对效率的看法。
图1:根据不同的硬件设计,各种深度学习加速器之间的性能/功耗比至少存在两个数量级的差异
有些公司藉由客制程度更高的加速器来强化现有设计,从而提供了一定的空间与弹性,例如,nvidia专为自动驾驶车设计的xavier芯片增加了一个整数数学模块以加速dnn推论。ceva和新思科技(synopsys)设计了类似的单元,以便增强其simd dsp核心。这些模块只包含大量的整数mac单元,从而提高了数学运算效率。然而,由于他们并未置换底层的gpu或dsp架构,所以也不像从头设计那么有效率。
客制设计的挑战之一在于深度学习算法持续迅速发展中。时下最流行的dnn开发工具tensorflow两年前才出现,数据科学家们已经在评估新的dnn结构、卷积函数和数据格式了。对于两年后的dnn来说,如今为现有工作负载客制的设计可能不再是理想的选择,或甚至无法发挥作用。为了解决这个问题,大多数的asic和assp设计都是可编程且灵活的,但是fpga提供了最大灵活度。例如,微软已经将专有的9位浮点格式定义为其brainwave深度学习平台的一部份。
融会贯通各种选择
纵观深度学习发展史,半导体产业通常首先在通用cpu中实现新应用。如果应用适用于现有的专用芯片,如gpu和dsp,那么接下来可能会转移到这两者。随着时间的推移,如果新应用发展成一个规模市场,业界公司就会开始开发asic和assp,虽然这些组件可能保留一定的可编程性。只有当算法变得极其稳定时(例如mpeg),才能真的看到以固定功能逻辑的应用建置。
深度学习目前也正按这一发展路线展开。gpu和dsp显然是适用的,而且因需求够高,所以asic开始出现。几家新创公司和其它公司正在开发即将在2018年及其后出货的assp。至于少量或利基应用,fpga通常更受欢迎;深度学习已经显示出足以为asic投片带来的前景了。
然而,哪一种dnn架构将会胜出?如今看来还不够明朗。尽管深度学习市场正迅速成长,但仍远低于pc、智能手机和汽车市场。因此,asic和assp的商业案例看起来还微不足道。相形之下,像英特尔和nvidia这样的公司可以采用来自其它市场的高性能处理器,并增强其深度学习,透过大量的软件支持和持续的更新以提供具竞争力的产品。未来几年,我们将会看到许多不同的硬件架构在深度学习市场中共存。

矿井破碎机轴承位磨损如何解决
京东方拟定增不超过200亿 扩大产能抢占OLED市场
光速中国:半导体制造环节短板亟待弥补,应抓住产业机遇
德州仪器推出面向高电流DC/DC应用的功率MOSFET,可以
视频多媒体集中控制系统实现的关键技术研究
许多不同的硬件架构在深度学习市场中共存
山寨液晶电视低价的秘密:大尺寸杀到千元
使用Thanos+Prometheus+Grafana构建监控系统
中国芯片花费十二亿到底买了什么?
Helio P90跑分曝光,安兔兔称联发科Helio P90总成绩为162861分
植物根系分析仪扫描结果准确吗
如何为先进的电动汽车电池管理系统设计智能电池接线盒
5G、车联网助力,自动驾驶B端商用初探
非洲猪瘟的症状与治疗方案
当无人机遇上直播 会让大疆无人机都比现在更火吗?
一锂电设备企业获宁德时代8份订单:金额约3.92亿元
ROHM开发出高音质音响设备用32位D/A转换器IC“BD34352EKV”
邀请函 | 富奥星邀您共赴第二十四届高交会,一起解锁更多微波雷达感知应用!
UWB定位实现的核心功能
SCALE驱动器在100kVA电力机车辅助变流器中的应用