攀登深度学习之巅 对AI领域会产生什么深远影响

2018 年,由美国国家能源研究科学计算中心 (nersc) 与 nvidia组成的联合团队取得了一项突破性成就。他们成功将一种科学严谨的深度学习应用扩展至 27000 多个nvidia v100tensor 核心 gpu,攻克了此过程中百亿亿次运算的难关。凭借该项成就,研究团队由此斩获高性能计算领域的最高奖项acm 戈登贝尔奖。除 2018 年的技术论文与新闻稿之外,我们还将在本文中探讨这项成就对 ai 领域产生的深远影响,以及未来面临的开放性挑战。
由伯克利实验室与橡树岭国家实验室各自领导的两个研究团队共享 2018 年 acm 戈登贝尔奖
深度学习软件:性能与生产力
低级工具能为开发者带来精确度,高级工具则可提高工作效率,这二者之间总存在一个折衷点。我们已为此找到解决方案。在本次项目中,我们用高效的 python 和 tensorflow 表示网络架构与整体的应用工作流。tensorflow 反过来会利用在 c 和 c++ 环境中实施的例程来实现高性能,提供精确度,并解放开发者以提高其工作效率。因此,在 8 个月的时间里,我们的团队从头开始构建网络原型,并在全球最大的高性能计算 (hpc) 系统 summit 上对其性能与扩展作出了优化。
我们相信,此项目能够展示出研究人员长期推测的 hpc 与 ai 软件堆栈的实际融合效果,即以 c/c++ 编写的高性能库 (cudnn) 和框架 (tensorflow),以及通过 python 公开的高效接口。同理,我们还在 nccl 和 mpi 中实施经高度优化且基于拓扑感知的通信集合,但通过简单高效的 horovod 接口实现公开。展望未来,我们相信,在助力科学家及更广泛的研究社区探索更复杂架构的过程中,为混合并行模式(数据、模型、流水线)提供透明支持将至关重要。
深度学习硬件:gpu 和混合精度
本次项目利用 nvidia volta gpu 来训练 deeplabv3+ 分割网络。在混合精度模式下,volta 上可达到的峰值性能为 125 万亿次浮点运算。该模式由 nvidia 通过 tensor 核心 gpu 架构推出,可执行 fp16 精度计算并能以 fp32 精度模式累积结果。在本项目开展之前,该领域存在一个仍待解决的问题,即现实的科学应用能否利用 fp16(不损失精确度)并获得较高的峰值性能。我们的研究最终证明,对于科学领域的模式识别问题,16 位精度可能足以满足相关需求。此外,对于拥有 4000 多个计算核心的复杂应用而言,极高的峰值亦有可能实现:在规模庞大的 gpu 集群上,我们的应用实现了每块 gpu 大约 40 万亿次浮点运算的峰值性能。
我们相信,这些结果为科学应用打开了通往低精度加速器的一扇大门。虽然原始数据集可能具有高精度(64 位或 32 位),但我们或许仍可以在不损失收敛或稳定性的前提下,以低精度模式执行模式识别任务。
开放性挑战
如要在当代的 hpc 系统上实现百亿亿级的性能,我们需对所有组件仔细调优,包括硬件(cpu、gpu、nvlink、文件系统、网络互连)和软件。虽然我们的项目成功实现了大幅调优、优化和扩展,但我们想指出两项挑战,以便向行业及研究社区征求更多意见。
大规模数据管理
得益于 gpu 架构在加快计算方面取得的进展,我们现已能在单个硅处理器上畅享高于 100 万亿次浮点运算级的性能。随着 gpu 速度越来越快,向其输送数据的能力会逐渐限制性能。本次项目中,我们对 20 太字节的数据集展开分析,这实际上需要整个 summit 系统保持每秒大约 4 太字节的 i/o 速率。summit 上的 gpfs 文件系统根本无法胜任该项任务,在 nersc cori 系统的 lustre 文件系统上执行的类似实验也以彻底失败而告终。对于这两种情况,在节点本地 nvme上暂存数据和突发缓冲区技术便显得至关重要。
传统的 hpc 文件系统主要用于支持以写入为主的工作负载;而深度学习工作负载则属于读取密集型负载,对数据带宽和元数据操作速率要求颇高。如要支持大规模深度学习工作负载,我们可能必须先对缓存分层、分片和混编操作提供透明支持。
大规模收敛
提供深度学习解决方案的时间由两部分构成:计算扩展效率和统计扩展效率。我们的研究已经展示出卓越的计算扩展性能,并且提供了许多有关系统级注意事项的建议。一个未解决的问题是,如何使用 sgd(随机梯度下降)的其中一个收敛属性取代大批量(在本项目中,批量大小高于 27000)。
在 hpc 资源上提供高度并行性具有正反两方面作用。如要以超高并发级别在大规模资源上运行,我们需在短时间内对超参数进行调优。有关收敛算法行为的启发式方法可能会或不会继承自较小规模的运行。尽管目前对于选择各类超参数所产生效果的实证评估都很合理,但我们预计,科学界将需要更好的指导原则,以及用于解决新问题的收敛保证。
我们相信,在解决收敛问题的过程中,进一步开发 lars 与 larc 等新算法和潜在的高阶优化方法将是至关重要的一环。

针对大功率超声波电源高精度、高功率输出的控制策略设计
如何测量单相功率和三相功率呢?
功分器和合路器的区别
微软否认 Windows Defender 新功能存在安全风险?
E载波系统中最常用的电路之E1链路
攀登深度学习之巅 对AI领域会产生什么深远影响
神画F1投影评测 家庭观影的不二之选
iPhone8什么时候上市:iPhone8如期而至9月发布,一机难求限量发售!iPhone8或有悬浮系统
什么是诺顿定理_诺顿定理求解电流步骤_诺顿定理例题详解
英特尔推出了以数据为中心的创新解决方案
字节跳动精简枝干,一收再收
美团大数据杀熟:股价大跌 3%,逾 400 亿市值蒸发
Varjo XR-1推出新用户界面Workspace 可让用户在AR和VR模式之间切换
汽车通信的深刻变革
中国汽车的消费市场模式格局将发生巨变
LDR6282——适配器快充HDMI高清输出USB数据充电头
迎接物联网,企业需要了解哪些基本知识?
NB-IOT特点介绍以及发展需求
5G和千兆宽是未来电信业的最重要的焦点
手机中集成的各类传感器