GPU编程 | 如何使得CUDA编写的GPU程序变得更高效？

在上一篇文章《那么CUDA是如何进行并行编程的？》中，为了让GPU的并行计算更加高效，本篇文章从高效的内存策略和屏障和同步机制下的编程规则这两个角度来建议CUDA编程者更加高效的利用GPU。

高效的内存策略

所谓的高效的内存策略，其实就是两个原则：第一保证每个线程的计算量大，第二每个线程计算时对内存的读取速度快。本篇文章主要展开讨论下如何使得线程计算时对内存的读取速度快。直白来说就是如下两种策略能够达到该目的：

每个线程读少量数据
每个线程读更快些

上述的第一点我们可以由编写的程序来控制，而上述的第二点可以从两个层面做到，包括硬件和程序。

所述的硬件，其实就是我们在上一篇文章中讲到的，不同位置的内存读取速度不同，如下图所示，我们要尽可能多的读取GPU的本地内存。

所述的程序，其实是当你必须使用全局内存，而没办法使用本地内存的情况下，利用编写程序来加快内存的读取速度，该策略被称为合并全局内存，示意图如下：

如上图所示，我们尽可能保证在全局内存中连续读取，退而求其次可以保证有规律的读取，务必减少使用随机读取内存的方式。而上述左侧的代码段中g表示全局内存，threadIdx.x表示线程号，线程号是连续的，因此读取时内存也是连续的，若线程号有间隔则读取时内存也有间隔。（这也是为什么核函数中要用线程号来定义下标的原因）

同步和屏障

在上篇文章中我们还提到过屏障和同步这两个概念，但当时并没有详细的展开讲。由于这两个策略也和CUDA程序是否高效息息相关，因此在这里进行详细的讨论。首先先来讲下什么是屏障和同步。

先前讲到过，GPU有个重要的特性无序性中提到线程间互补等待这个概念。但很容易可以想到，若是所有的线程都不等待，那显然程序是没有逻辑的，我们也没办法进行功能的开发。因此屏障和同步才被用于限制GPU的这个特性，使其具备逻辑性。需要注意的是该功能的最小单位是线程快，不是线程。

如下图所示，对于同一个线程快中的线程，都会设有一个屏障，该屏障保证了同一个线程快将的所有线程存在等待性和同步性。最终使得并行程序在无序的基础上实现逻辑功能。

因此为了不让并行计算的性能过多的受到此特性的影响，最好使得同一个线程块中的线程的处理时间近似。尤其是在编写核函数时，需要注意避免如下两种情况的发生。

避免线程发散
由于屏障的存在，利用条件判断时，条件的两个分支代码的运行时间差距不能太大，如下图左边的核函数代码中，两个状态下执行代码的速度差距过大，会导致发生线程发散现象。
避免循环长度不一
由于屏障的存在，对于每一个线程的循环长度不能不一致，如下图中左边的核函数代码中，线程号越大，循环次数越少，这是不可取的，因为最终一个线程快中的运行速度取决于最慢的那个线程的速度。

GPU编程 | 如何使得CUDA编写的GPU程序变得更高效？

猜你喜欢