采用NVIDIA GPU加速HPC应用性能提升

本文作者：
ashraf eassa nvidia 加速计算部门高级产品营销经理
chris porter nvidia hpc & ai 高级技术营销经理
高性能计算（hpc）已经成为必不可少的科学研究工具。
无论是研发出拯救生命的新药，还是抵御气候变化，或是精确模拟我们的世界，这些解决方案都需要强大的处理能力，而且这一需求正在快速增长，日益超出传统计算方法能够应对的范畴。
因此，业界纷纷采用 nvidia 的 gpu 进行加速计算。结合 ai，它能带来数百万倍的性能加速，推动科学的进步。如今，已有 2700 个应用受益于 nvidia gpu 加速，而在日益增长的 300 万开发者共同组成的社区支持下，这一数字仍在不断攀升。
hpc 应用性能提升
为将所有 hpc 应用的速度提升数倍，我们需要在堆栈的每个层面进行不断的创新，包括芯片、系统以及应用框架本身。
随着架构和 nvidia 软件栈整体上的不断进步， nvidia 平台的性能每年都会显著提高。与六年前发布的 p100 相比， h100 tensor core gpu 的性能提高 26 倍，比摩尔定律快 3 倍以上。
nvidia 平台的核心是一个功能丰富的高性能软件堆栈。为了方便各种 hpc 应用实现 gpu 加速，该平台加入了 nvidia hpc sdk。sdk 使开发者能够使用标准语言、导语指令以及 cuda 来编写和移植 gpu 加速应用，为开发者带来了无与伦比的灵活性。
nvidia hpc sdk 的强大之处在于其庞大且高度优化的 gpu 加速数学库，使用户能够充分发挥 nvidia gpu 的性能潜力。为了实现最佳的多 gpu 和多节点扩展性能， nvidia hpc sdk 还提供强大的通信库：
nvshmem 为跨多个 gpu 内存的数据创建了一个全局地址空间。
nvidia 集合通信库（nccl）优化了 gpu 之间的通信。
总之，该平台提供最高的性能和灵活性，为庞大的、不断增长的 gpu 加速 hpc 应用提供支持。
hpc 的性能和能效
为了展示 nvidia 全栈创新如何助力加速 hpc 实现最高性能，我们将一台配备 4 颗 nvidia gpu 的慧与（hpe）服务器与一台配备另一家厂商同等数量加速器模块且配置相似的服务器进行了性能比较。
我们使用多种算例测试了广泛使用的五个 hpc 应用。尽管在各个行业中有约 2700 个应用基于 nvidia 平台实现了加速，但由于另一家厂商的加速器只支持部分软件和应用版本，我们在此次比较中所能使用的应用有限。
对于除 namd （用于分子动力学模拟的软件）以外的所有应用，我们首先获得多个算例的结果，然后使用它们的几何平均值作为计算结果，这样可以将异常值的影响最小化并反映客户的体验。
我们还在多 gpu 和单 gpu 场景下测试了这些应用。
在多 gpu 场景中，测试系统中的所有加速器都被用来运行一个模拟，基于 a100 tensor core gpu 的服务器所提供的性能比起另一台服务器高出 2.1 倍。
得益于计算性能的持续进步，分子动力学领域正朝着模拟更大的原子体系和更长的时间的方向发展。这使研究者能够模拟越来越多的生物化学机制，例如光合电子传递和视觉信号转导。对于此类过程，由于模拟这一主要验证方式耗时过长，之前无法通过模拟来对其进行验证，导致这类过程也一直引发科学界的争论。
但我们认识到，并非所有用户都会在每次模拟时使用多个 gpu 运行。为了获得最佳吞吐量，最好的方法往往是为每次模拟分配一个 gpu。
当在单一加速器模块（ nvidia a100 上一个的完整 gpu 和另一款产品上的两个计算芯片）上运行这些应用时，基于 nvidia a100 的系统提供了高达 1.9 倍的性能。
电力成本占据了数据中心和超级计算中心总拥有成本（tco）中的很大一部分，这突出了高能效计算平台的重要性。根据我们的测试， nvidia 平台的每瓦吞吐量比其他产品高 2.8 倍。
多年来，我们为了最大限度地提高应用性能和效率而坚持不懈地进行软硬件协同优化，最终打造出具有卓越性能和能效的 nvidia a100 gpu。欲进一步了解 nvidia ampere 架构，请参见 nvidia a100 tensor core gpu 白皮书。
a100 在操作系统中也表现为一个单一的处理器，只需要启动一个 mpi 线程就可以充分发挥它的性能。而且由于一个节点中所有 gpu 之间都采用 600-gb/s nvlink 互联，因此 a100 可以提供出色的扩展性能。
ai 与 hpc 的融合
正如加速计算将模拟和仿真应用的速度提高了数倍， ai 和 hpc 的结合也将进一步提升性能，推动下一波科学研究的发展。
从我们首次提交 mlperf 训练结果到最近一次提交，已有三年的时间。在这三年里， nvidia 平台在这套由同行评审的行业标准基准测试中将深度学习性能提高了 20 倍。这些成果来自于芯片、软件和规模上的全面提高。
科学家和研究者已在使用 ai 大幅提升性能，加快科学研究的速度。
使识别引力波所需的时间减少为原来 10 万分之一。
对呼吸道飞沫中的 delta sars-cov-2 病毒（原子数超过 10 亿）进行模拟的速度提高 1000 倍。
加速清洁聚变能源的发展。
为余热锅炉（hrsg）工厂创建预测性数字孪生。
世界各地的超级计算中心都在持续使用加速 ai 超级计算机。
阿贡领导力计算设施（alcf）的 polaris 超级计算机、美国国家能源研究科学计算中心（nersc）的 perlmutter、意大利多所大学组建的 cineca 联盟建设的 leonardo，均采用 a100 tensor core gpu 加速。
即将在 2023 年上线的 alps 超级计算机基于 nvidia 的 grace hopper 超级芯片打造而成。
计划于 2023 年交付的洛斯阿拉莫斯国家实验室的 venado 系统，将包含 grace hopper 超级芯片以及 grace cpu 超级芯片节点。
原文标题：nvidia 通过全栈创新推动高性能计算的发展
文章出处：【微信公众号：nvidia英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

OPPO Reno6好不好？直角边框+90Hz直屏有颜有实力
Tesla欧洲市场销量(2023)
【开学季】拍视频赢好礼！天猫精灵等着你！
专业电源模块噪音过大的原因及解决办法！
模块电源的作用模块电源应用优势
采用NVIDIA GPU加速HPC应用性能提升
国产碳化硅肖特基二极管B2D30120HC1
自动驾驶汽车应该是电动车而不是混合动力或插电式混合动力车
5g芯片有哪些处理器
OTA升级：如何打造常用常新的智能产品
英特尔新一代处理器
Galaxy A42 5G现在已在中国3C认证局发现
会话式机器阅读理解概述
现代汽车上的电子“器官”
为方便统一管理这六座水电站，采用了区域集控模式控中心
AMD b650主板参数测试深度研究
腾讯携手长安汽车推出智能网联汽车
空气净化器十大名牌，家用空气净化器十大品牌科普
你不知道的BGA封装芯片横截面
荣耀20系列全球首发,499欧元起!