【CUDA 基础】3.5 展开循环

title: 【CUDA 基础】3.5 展开循环

categories:

- CUDA

- Freshman

tags:

- 展开归约

- 归约

- 模板函数

toc: true

date: 2018-04-19 21:02:08

Abstract: 本文介绍循环展开技术，在归约的基础上继续加速。

Keywords: 展开归约，归约，模板函数

开篇废话

博客从CSDN那边截流了一些流量，现在网站访问突然增多到让我有点不适应，于是，想想还是别总盯着流量看吧，注意文章质量，同时保证一定的更新，从数学到算法，最后到实现，优化，这些都做好，估计访问量会更多了。

到时候我就可以挂广告了，然后挣了钱吃煎饼就可以加个鸡蛋了！去网吧也能叫饮料了。。想想还有点小激动，感觉自己都有点膨胀了。

今天我们来做循环展开，GPU喜欢确定的东西，像前面讲解执行模型和线程束的时候，明确的指出，GPU没有分支预测能力，所有每一个分支他都是执行的，所以在内核里尽量别写分支，分支包括啥，包括if当然还有for之类的循环语句。

如果你不知道到为啥for算分支语句我给你写个简单到不能运行的例子：

for (itn i=0;i<tid;i++)

{

    // to do something

}

如果上面这段代码出现在内核中，就会有分支，因为一个线程束第一个线程和最后一个线程tid相差32（如果线程束大小是32的话）那么每个线程执行的时候，for终止时完成的计算量都不同，这就有人要等待，这也就产生了分支。

循环展开是一个尝试通过减少分支出现的频率和循环维护指令来优化循环的技术。

上面这句属于书上的官方说法，我们来看看例子，不止并行算法可以展开，传统串行代码展开后效率也能一定程度的提高，因为省去了判断和分支预测失败所带来的迟滞。

先来个c++ 入门循环

for (int i=0;i<100;i++)

{

    a[i]=b[i]+c[i];

}

这个是最传统的写法，这个写法在各种c++教材上都能看到，不做解释，如果我们进行循环展开呢？

for (int i=0;i<100;i+=4)

{

    a[i+0]=b[i+0]+c[i+0];

    a[i+1]=b[i+1]+c[i+1];

    a[i+2]=b[i+2]+c[i+2];

    a[i+3]=b[i+3]+c[i+3];

}

没错，是不是很简单，修改循环体的内容，把本来循环自己搞定的东西，我们自己列出来了，这样做的好处，从串行较多来看是减少了条件判断的次数。

但是如果你把这段代码拿到机器上跑，其实看不出来啥效果，因为现代编译器把上述两个不同的写法，编译成了类似的机器语言，也就是，我们这不循环展开，编译器也会帮我们做。

不过值得注意的是：目前CUDA的编译器还不能帮我们做这种优化，人为的展开核函数内的循环，能够非常大的提升内核性能

在CUDA中展开循环的目的还是那两个：

减少指令消耗
增加更多的独立调度指令

来提高性能

如果这种指令

a[i+0]=b[i+0]+c[i+0];

a[i+1]=b[i+1]+c[i+1];

a[i+2]=b[i+2]+c[i+2];

a[i+3]=b[i+3]+c[i+3];

被添加到CUDA流水线上，是非常受欢迎的，因为其能最大限度的提高指令和内存带宽。

下面我们就在前面归约的例子上继续挖掘性能，看看是否能得到更高的效率。

展开的归约

完整内容参考[https://face2ai.com/CUDA-F-3-5-展开循环/])(https://face2ai.com/CUDA-F-3-5-展开循环/)