使用Nsight Compute进行高级内核评测

nsight compute 的这一版本扩展了现有的重播模式,提供了范围重播的高要求功能。 range replay 捕获并重放分析应用程序中 cuda api 调用和内核启动的完整范围。度量与整个范围相关联,而不是单个内核。这允许该工具在不序列化的情况下执行内核,并支持出于正确性或性能原因而需要并发运行的评测内核。范围由起点和终点标记组成;并包括所有 cuda api 调用和从任何 cpu 线程在这些标记之间启动的内核。
范围标记可以使用以下任一方法定义:
分析器启动/停止 api
nvtx 系列图 1 。范围回放可视化:捕获范围后,每个过程都会收集整个范围的性能信息。
记忆分析
在 a100 上评测时,内存分析部分中的一个新二级缓存收回策略表可以帮助您了解各种 缓存逐出策略 的访问次数和达到的命中率。在同一部分中,二级缓存表现在有一个新的 ecc 行,用于显示通过在 gpu 上启用硬件纠错代码而创建的流量。
图 2 。内存工作负载分析表的改进: ecc 和二级缓存逐出策略信息。
引导分析
nsight compute 现在通过在打开报表时在摘要和详细信息页面之间动态选择,可以更轻松地在多结果集合中选择初始分析目标。规则被扩展以检测非融合浮点指令作为优化机会。最后,但并非最不重要的一点是,当触发未恢复的内存访问规则时,它们会显示一个包含五个最有价值实例的表,从而更容易在源页面上检查和解决它们。
图 3 。打开多结果报告现在会显示摘要页面,允许您对结果进行排序并决定优化顺序。
图 4 。这两种未恢复的内存访问规则都以更简洁、更有序的格式呈现结果。
其他改进
进一步的改进包括 occupancy calculator 自动更新。源页面中 register dependency 列还有一个新的“执行的线程指令”度量和注册名工具提示,以及 nvlink 更新。
关于作者
chaitrali joshi 是 nvidia 的产品营销经理,专注于电信 5g 系统的设计和开发。她对网络空间有着深入的了解,是移动通信系统和云栈方面的专家。在英特尔之前,她是一名领导,向开发人员宣传电信技术和边缘计算技术。她获得了加利福尼亚大学计算机科学硕士学位,戴维斯专注于软件定义的网络和多址边缘计算( mec )。
jackson marusarz 是 nvidia 计算开发工具的产品经理。他关注如何使用工具使所有开发人员能够轻松高效地评测、调试和优化 cuda 代码。杰克逊拥有 boulder 科罗拉多大学计算机工程硕士学位。


敏芯股份副总经理张辰良:打造MEMS技术平台型公司
华为构筑软件定义的“云网边端”立体防御体系
全球32项最新创新技术发明:牙齿传感器
TLK3132工作原理 CPRI接口应用(二)
5G会有真假之说的源头在于网络存在两种制式
使用Nsight Compute进行高级内核评测
锤子T3/T3X真机图爆出:这完全就是小米iPhone的合体
基于具有USB功能的STM32微控制器
基于RT9119 的家庭版高效能音效放大器设计
雷曼巨幕满足消费升级下高净值人群的家居需求
Redmi Note 8系列连续3个月每日售出11万台,全球销量突破一千万台
SMT贴片加工中上锡不饱满光泽度不够的原因与对策
华为云桌面,如何为办公而生
Xbox Series X实机游戏测试,在局部光照和积云效果上更胜一筹
按键式时控开关每天定时一样该如何去设置
光纤放大器/EDFA,光纤放大器/EDFA的原理和分类
PS VR眼镜模糊、起雾戴起来晕眩怎么办 小编教你如下几招
Pasternack将其射频同轴探针产品线扩展至40GHz工作频率范围
物联网设备在家庭虐待和隐私安全如何做到平衡?
北京电信面向垂直行业细分场景定制方案,打造新型网络基础设施