使用LabVIEW进行GPU计算

具有并行处理架构的平台，例如fpga和gpu，在快速分析大型数据集方面得到了广泛应用。这两项技术可以减轻运算密集型算法对cpu造成的负担，在高度并行的平台上进行处理。fpga灵活性高、处理延迟低，但是由于容量不足，在浮点运算方面具有一定的局限性。gpu因为其灵活性、便捷性以及低成本的特点，已经成为并行处理的普遍选择。它们可以成功地与fpga协同工作，优化一个算法的执行速度。举例来说，在一个算法中，当 gpu分析浮点数据时，内联（inline）计算能够在fpga上快速地执行。nvidia®计算统一设备架构（compute unified device architecture）cuda™,，可以帮助创建基于gpu计算的算法，cuda™允许用户使用c编程语言及其nvidia扩展创建程序代码。
图1.fpga和gpu可以与cpu协同工作，优化性能。
对于实时高性能计算领域的许多应用来说，都可以将数据和任务需求很好地映射到gpu中进行处理。高强度算术运算的算法应用非常适合在gpu上进行处理；如果一个应用中的算术运算相对于内存运算的比例较高，则表明当在gpu架构上解决这个计算任务可以带来明显的速度提升。举例来说，对于处理多通道运算的应用，（如可以并行计算几个fft变换），或者数学运算（如大型的矩阵运算），都可以有效地映射到gpu中。
labview gpu分析工具包让开发人员能够在labview应用框架中充分利用gpu并行架构。该工具包利用了nvidia的cuda工具包的功能，以及cublas和cufft库，同时允许开发人员直接调用那些在lvgpu sdk已经写好的gpu代码。
labview gpu 分析工具包 labview gpu分析工具包允许开发人员利用nvidia cuda以及cublas和cufft方法的核心资源，可以在labview中调用这些库中封装的函数。对于高级的运算，利用在cuda中已经被开发的代码，可以使用labview gpu分析工具包，将计算任务转移到gpu中。请注意，该工具包将无法编译labview代码用于gpu，但是它可以在labview中使用封装好的cuda函数或者自定义的cuda内核代码。在唯一的设备执行环境中（即cuda环境），通过处理cuda核心程序运算及其参数，高级的自定义内核代码可以在labview执行过程中安全地调用。该环境还确保了所有的gpu资源和功能要求得到妥善管理。
labview gpu分析工具包的出现能够使科学家和工程师执行大规模的数据采集、将数据块转移到gpu进行快速处理，并在统一的labview应用程序中查看处理的数据。常见的信号处理技术和数学运算，例如信号的快速傅立叶变换，可以通过直接调用nvidia库中相应的vi来实现，非常方便。这样，开发人员可以使用所有可用的计算资源快速开发应用的原型。对于那些已经在cuda出来的复杂的应用程序，能够被用于labview当中，使用自定义的算法快速地处理数据。
在gpu上快速处理fft运算一般情况下，使用labview gpu 分析工具包与gpu通信可以被细分为三个阶段：gpu初始化、在gpu上执行运算，以及释放gpu资源。下面的部分将讨论使用labview gpu分析工具包将一个fft运算任务从cpu fft转移到gpu中。
图2. 将一个fft运算任务从cpu转移到gpu进行分析的程序流程。
本范例对来自多个仿真通道的仿真信号进行fft运算，来模拟来自daq设备或日志文件的多通道输入数据的采集。该工作流程是典型的将一个fft运算任务从cpu转移到gpu进行分析的过程。
i. 初始化gpu资源
图3. 初始化gpu资源
首先，选择一个gpu设备是很有必要的。接着，将创建cuda环境，用于实现labview和gpu间的通信。这是通过使用initialize device vi来完成的。接下来，gpu将通过选择fft的类型为fft运算做准备。该类型包括fft大小、在gpu上并行执行ftt的数量，以及输入信号或者谱线的数据类型等信息。该过程将预定gpu上的资源，实现最高的性能。allocate memory vi在gpu上创建一个内存缓冲区，用于cpu和gpu间的数据传输，以便进行fft运算。它将存储用于下载到gpu的通道数据，以及gpu上计算完成后准备上传到cpu的数据结果。
ii. 在gpu上执行fft计算
图4. 在gpu上执行fft通信
首先，从cpu传输数据到gpu的缓冲区上来执行计算。在gpu上执行fft计算时，将利用其大规模的并行架构来同时计算每个通道的fft。当计算完成后，数据从gpu的缓冲区传输回cpu中的数组中。download data vi将存储在labview数组中的多通道数据从cpu传输到在初始化阶段已经分配的缓冲区中。fft vi为每一个下载的通道数据并行计算其频谱。最后，upload data vi将存储在gpu缓冲区中的频谱数据传输回labview数组，用于cpu进一步处理。
iii. 释放gpu资源
图5.释放gpu资源
最后一步的操作是释放第一步中初始化的gpu资源。free memory vi释放gpu上用来存储fft数据的缓冲区。release library vi释放gpu上在fft运算初始化过程中保留的资源。最后，release device vi释放cuda环境初始化过程中为建立gpu通信所保留的gpu资源。
结论使用labview gpu 分析工具，开发人员能够将重要的运算转移到gpu中进行处理，从而释放cpu资源用于其它任务。这为labview用户提供了一个非常强大的、前所未有的处理资源。现在，无论使用fpga和cpu，还是gpu，采集到的数据可以快速地被处理，并可以从一个单一的labview应用程序中查看。因此，用户能够更有效地利用系统资源，同时最大限度地减少高度并行的数据处理运算和转换所带来的计算成本。

选择合适的 IP 实现 Die-to-Die 连接
AirPods的无线充电盒上市之日出现眉目,可能就在今年年底！
FPGA构建高性能DSP
三个电压如何判断npn还是pnp
甲骨文创始人炮轰亚马逊云:“用了必死无疑”？
使用LabVIEW进行GPU计算
关于PROFET摩托车BTS6110-1SJA的分析和介绍
切比雪夫逼近方法在滤波器电路理论中的应用
输送机流量体积监控系统
谈谈电视和显示器背后的面板类型与背光技术
LED VF值偏髙5V不亮失效分析
喜欢炫酷的伙伴们看看，这风扇够不够酷
基于单片机控制的多功能充电系统设计
USB接口WiFi模块将助力智慧安防实时高清视频数据传输
数据库为什么有可能喜欢Linux AIO（异步I/O）?
新一代直线马达式抽油机在大庆油田正式上岗
硅基氮化镓充电器的原理有哪些优缺点
联想发布骁龙芯片首款搭载高通骁龙855的手机
D类音频功放芯片WT9110B概述及特点
数字控制挑战传统电源设计理念VMC、CMC