CUDA学习笔记第一篇:一个基本的CUDA C程序

来源:ai人工智能初学者
作者:chaucerg
目录
1、cuda的简介
2、gpu架构和cuda介绍
3、cuda架构
4、开发环境说明和配置
5、开始第一个hello cuda程序
    5.1、vs2017创建nvidia cuda项目
    5.2、vs2017中输入 cuda代码(附.cu代码以及讲解)
    5.3、vs2017生成并开始执行
参考
1、cuda的简介
计算统一设备架构(compute unified device architecture,cuda)是由英伟达(nvidia)开发的一套非常流行的并行计算平台和编程模型。它只支持nvidia gpu卡。opencl则用来为其他类型的gpu编写并行代码,比如amd和英特尔,但它比cuda更复杂。cuda可以使用简单的编程api在图形处理单元(gpu)上创建大规模并行应用程序。
使用c和c++的软件开发人员可以通过使用cuda c或c++来利用gpu的强大性能来加速他们的软件应用程序。用cuda编写的程序类似于用简单的c或c++编写的程序,添加需要利用gpu并行性的关键字。cuda允许程序员指定cuda代码的哪个部分在cpu上执行,哪个部分在gpu上执行。
2、gpu架构和cuda介绍
geforce 256是英伟达于1999年开发的第一个gpu。最初只用在显示器上渲染高端图形。它们只用于像素计算。后来,人们意识到如果可以做像素计算,那么他们也可以做其他的数学计算。现在,gpu除了用于渲染图形图像外,还用于其他许多应用程序中。这些gpu被称为通用gpu(gpgpu)。
cpu具有复杂的控制硬件和较少的数据计算硬件。复杂的控制硬件在性能上提供了cpu的灵活性和一个简单的编程接口,但是就功耗而言,这是昂贵的。而另一方面,gpu具有简单的控制硬件和更多的数据计算硬件,使其具有并行计算的能力。这种结构使它更节能。缺点是它有一个更严格的编程模型。在gpu计算的早期,opengl和directx等图形api是与gpu交互的唯一方式。对于不熟悉opengl或directx的普通程序员来说,这是一项复杂的任务。这促成了cuda编程架构的开发,它提供了一种与gpu交互的简单而高效的方式。
一般来说,任何硬件架构的性能都是根据延迟和吞吐量来度量的。延迟是完成给定任务所花费的时间,而吞吐量是在给定时间内完成任务的数量。这些概念并不矛盾。通常情况下,提高一个,另一个也会随之提高。在某种程度上,大多数硬件架构旨在提高延迟或吞吐量。
同样,正常的串行cpu被设计为优化延迟,而gpu被设计为优化吞吐量。cpu被设计为在最短时间内执行所有指令,而gpu被设计为在给定时间内执行更多指令。gpu的这种设计理念使它们在图像处理和计算机视觉应用中非常有用,这也是本书的目的,因为我们不介意单个像素处理的延迟。我们想要的是在给定的时间内处理更多的像素,这可以在gpu上完成。
综上所述,如果我们想在相同的时钟速度和功率要求下提高计算性能,那么并行计算就是我们所需要的。gpu通过让许多简单的计算单元并行工作来提供这种能力。现在,为了与gpu交互,并利用其并行计算能力,我们需要一个由cuda提供的简单的并行编程架构。
3、cuda架构
cuda架构包括几个专门为gpu通用计算而设计的特性,这在早期的架构中是不存在的。它包括一个unified shedder管道,它允许gpu芯片上的所有算术逻辑单元(alu)被一个cuda程序编组。alu还被设计成符合ieee浮点单精度和双精度标准,因此它可以用于通用应用程序。指令集也适合于一般用途的计算,而不是特定于像素计算。它还允许对内存的任意读写访问。这些特性使cuda gpu架构在通用应用程序中非常有用。
所有的gpu都有许多被称为核心(core)的并行处理单元。
在硬件方面,这些核心被分为流处理器和流多处理器。gpu有这些流多处理器的网格。
在软件方面,cuda程序是作为一系列并行运行的多线程(thread)来执行的。每个线程都在不同的核心上执行。可以将gpu看作多个块(block)的组合,每个块可以执行多个线程。每个块绑定到gpu上的不同流多处理器。
cuda程序员不知道如何在块和流多处理器之间进行映射,但是调度器知道并完成映射。来自同一块的线程可以相互通信。gpu有一个分层的内存结构,处理一个块和多个块内线程之间的通信。这将在接下来的章节中详细讨论。
作为一名程序员,你会好奇cuda中的编程模型是什么,以及代码将如何理解它是应该在cpu上执行还是在gpu上执行。我们将cpu及其内存称为主机(host),gpu及其内存称为设备(device)。cuda代码包含主机和设备的代码。主机代码由普通的c或c++编译器在cpu上编译,设备代码由gpu编译器在gpu上编译。主机代码通过所谓的内核调用调用设备代码。它将在设备上并行启动多个线程。在设备上启动多少线程是由程序员来决定的。
现在,你可能会问这个设备代码与普通c代码有何不同。答案是,它类似于正常的串行c代码。只是这段代码是在大量内核上并行执行的。然而,要使这段代码工作,它需要设备显存上的数据。因此,在启动线程之前,主机将数据从主机内存复制到设备显存。线程处理来自设备显存的数据,并将结果存储在设备显存中。最后,将这些数据复制回主机内存进行进一步处理。综上所述,cuda c程序的开发步骤如下:
1)为主机和设备显存中的数据分配内存。
2)将数据从主机内存复制到设备显存。
3)通过指定并行度来启动内核。
4)所有线程完成后,将数据从设备显存复制回主机内存。
5)释放主机和设备上使用的所有内存。
4、开发环境说明和配置
先决条件:
1、电脑具有支持cuda的gpu(一般具有独立显卡就可以,不过最好不要太老的版本);
    2、英伟达显卡驱动;
    3、标准c编译器;
    4、cuda开发工具包。
windows10下cuda工具包的安装:
1、microsoft visio studio 2017的安装(也可以是其他的版本,笔者使用的是2017)
    2、下载cuda10.1安装包(最新的是10.2);
    3、直接点击.exe文件进行安装,选择自定义安装,所有选项均勾选;
    4、配置cuda系统环境变量(和配置深度学习环境一样配置系统环境变量)。
5、开始第一个hello cuda程序
5.1、vs2017创建nvidia cuda项目
步骤如下:
1)打开microsoft visual studio。
  2)进入file|new|project。
  3)依次选择nvidia|cuda 10.1|cuda 10.1 runtime。
  4)为项目自定义名称,然后单击ok按钮。
  5)它将创建一个带有kernel.cu示例文件的项目。现在双击打开这个文件。
  6)从文件中删除现有代码,写入前面编写的那段代码。
  7)从生成(build)选项卡中选择生成(build)进行编译,并按快捷键ctrl+f5调试代码。
5.2、vs2017中输入 cuda代码
#include 
与c编程的区别:
1)一个名为myfirstkernel的空函数,前缀为/_/_global/_/_
2)使用>调用myfirstkernel函数
/_/_global/_/_是cuda c在标准c中添加的一个限定符,它告诉编译器在这个限定符后面的函数定义应该在设备上而不是在主机上运行。在前面的代码中,myfirstkernel将运行在设备上而不是主机上,但是,在这段代码中,它是空的。
那么,main函数将在哪里运行?nvcc编译器将把这个函数提供给c编译器,因为它没有被global关键字修饰,因此main函数将在主机上运行。
代码中的第二个不同之处在于对空的myfirstkernel函数的调用带有一些尖括号和数值。这是一个cuda c技巧:从主机代码调用设备代码。它被称为内核调用。内核调用的细节将在后面的章节中解释。尖括号内的值表示我们希望在运行时从主机传递给设备的参数。基本上,它表示块的数量和将在设备上并行运行的线程数。因此,在这段代码中,<>表示myfirstkernel将运行在设备上的一个块和一个线程或块上。虽然这不是对设备资源的最佳使用,但是理解在主机上执行的代码和在设备上执行的代码之间的区别是一个很好的起点。
让我们再来重温和修改“hello,cuda!”代码,myfirstkernel函数将运行在一个只有一个块和一个线程或块的设备上。它将通过一个称为内核启动的方法从main函数内部的主机代码启动。
5.3、vs2017生成并开始执行


我们应该如何挑选电线电缆,这其中有什么方法吗
魅族Pro7什么时候上市?魅族Pro7最新消息:魅族Pro7全面升级即将发布,魅族Pro7价格曝光2599元?
人机界面设计在工业设计中的应用
传感器在汽车底盘控制系统中的应用
烽火提出智慧可行的方案,可让企业高质量、高水平的“走出去”
CUDA学习笔记第一篇:一个基本的CUDA C程序
采用MSP430F247单片机实现TMP275测温仪的I2C模块的连接
无风扇嵌入式工控机的优势有哪些
1小时搭建一个企业级物联网平台,是怎样的体验?
Windows 8消费者预览版正式发布 支持多国语言提供下载
动力电池胶粘剂、动力电池结构胶热管理应用解决方案!
富士推出X100V微单相机,双向翻折液晶触摸屏
对中国发展宽带接入及光纤的思考
IDT公司推出9WDV3501可同时监控多个处理过程的单芯
物联网新起的塑料处理器,能否当担大任
嵌入式环境下的轻量级GUI系统解决方案设计详解
布局MCU,“国民芯”版图新格局
linux系统中驱动软件架构设计
Arduino库可以直接在RT-Thread上运行了 附详细解读
高性能低功耗I2C接口智能门锁触摸芯片GTX314L