cuda学习2-block与thread数量的选取

　　由上一节可知，在main函数中，cuda程序的并行能力是在add<<<N,1>>>( dev_a, dev_b, dev_c )函数中体现的，这里面设置的是由N个block的构成的计算网络即grid，每一个block里面有1个thread存在。那么这种选取有什么用意呢，如何针对自己的计算问题设置计算网络呢？

　　首先要说明这两个数的选取没有固定的方法，完全是根据自身需求。其实它的完整形式是Kernel<<<Dg,Db, Ns, S>>>(param list);<<<>>>运算符内是核函数的执行参数，告诉编译器运行时如何启动核函数，用于说明内核函数中的线程数量，以及线程是如何组织的。

　　参数Dg用于定义整个grid的维度和尺寸，即一个grid有多少个block。为dim3类型。Dim3 Dg(Dg.x, Dg.y, 1)表示grid中每行有Dg.x个block，每列有Dg.y个block，第三维恒为1。整个grid中共有Dg.x*Dg.y个block，其中Dg.x和Dg.y最大值为65535。

　　参数Db用于定义一个block的维度和尺寸，即一个block有多少个thread。为dim3类型。Dim3 Db(Db.x, Db.y, Db.z)表示整个block中每行有Db.x个thread，每列有Db.y个thread，高度为Db.z。Db.x和Db.y最大值为512，Db.z最大值为62。一个block中共有Db.x*Db.y*Db.z个thread。计算能力为1.0,1.1的硬件该乘积的最大值为768，计算能力为1.2,1.3的硬件支持的最大值为1024。

　　参数Ns是一个可选参数，用于设置每个block除了静态分配的shared Memory（以后会学习到）以外，最多能动态分配的shared memory大小，单位为byte。不需要动态分配时该值为0或省略不写。

　　参数S是一个cudaStream_t类型的可选参数，初始值为零，表示该核函数处在哪个流（以后会学习到）之中。

　　在这个例子中，由于计算很简单，就选了一个<<<N,1>>>这种搭配。现在我们看一个复杂一点的例子。

　　这个例子是说要计算两个任意长的向量的加法，可能会比比65535长，超过了block数的最大范围，甚至于比65535×512（thread上限）还长，应该怎么办呢？下面就用

<<<128,128>>>的计算网络来搞定。

　　核函数改为如下：

 __global__ void add( int *a, int *b, int *c ) {

     int tid = threadIdx.x + blockIdx.x * blockDim.x;

     while (tid < N) {

         c[tid] = a[tid] + b[tid];

         tid += blockDim.x * gridDim.x;

     }

 }

　　这段代码的精髓就在于它是一个循环，当编号为tid = threadIdx.x + blockIdx.x * blockDim.x的线程进行加法运算之后，tid += blockDim.x * gridDim.x;如果tid<N，则这个线程再做一次加法，依次循环下去。因为计算网络只有blockDim.x * gridDim.x这么大（次例为128×128），那么那些大于blockDim.x * gridDim.x并且小于N的数组分量的相加任务就需要继续分配给各个线程，如上就是用循环来分配的。

　　任意长度向量相加完整代码：

/*

 * Copyright 1993-2010 NVIDIA Corporation.  All rights reserved.

 *

 * NVIDIA Corporation and its licensors retain all intellectual property and

 * proprietary rights in and to this software and related documentation.

 * Any use, reproduction, disclosure, or distribution of this software

 * and related documentation without an express license agreement from

 * NVIDIA Corporation is strictly prohibited.

 *

 * Please refer to the applicable NVIDIA end user license agreement (EULA)

 * associated with this source code for terms and conditions that govern

 * your use of this NVIDIA software.

 *

 */

#include "../common/book.h"

#define N   (33 * 1024)

__global__ void add( int *a, int *b, int *c ) {

    int tid = threadIdx.x + blockIdx.x * blockDim.x;

    while (tid < N) {

        c[tid] = a[tid] + b[tid];

        tid += blockDim.x * gridDim.x;

    }

}

int main( void ) {

    int *a, *b, *c;

    int *dev_a, *dev_b, *dev_c;

    // allocate the memory on the CPU

    a = (int*)malloc( N * sizeof(int) );

    b = (int*)malloc( N * sizeof(int) );

    c = (int*)malloc( N * sizeof(int) );

    // allocate the memory on the GPU

    HANDLE_ERROR( cudaMalloc( (void**)&dev_a, N * sizeof(int) ) );

    HANDLE_ERROR( cudaMalloc( (void**)&dev_b, N * sizeof(int) ) );

    HANDLE_ERROR( cudaMalloc( (void**)&dev_c, N * sizeof(int) ) );

    // fill the arrays 'a' and 'b' on the CPU

    for (int i=; i<N; i++) {

        a[i] = i;

        b[i] =  * i;

    }

    // copy the arrays 'a' and 'b' to the GPU

    HANDLE_ERROR( cudaMemcpy( dev_a, a, N * sizeof(int),

                              cudaMemcpyHostToDevice ) );

    HANDLE_ERROR( cudaMemcpy( dev_b, b, N * sizeof(int),

                              cudaMemcpyHostToDevice ) );

    add<<<,>>>( dev_a, dev_b, dev_c );

    // copy the array 'c' back from the GPU to the CPU

    HANDLE_ERROR( cudaMemcpy( c, dev_c, N * sizeof(int),

                              cudaMemcpyDeviceToHost ) );

    // verify that the GPU did the work we requested

    bool success = true;

    for (int i=; i<N; i++) {

        if ((a[i] + b[i]) != c[i]) {

            printf( "Error:  %d + %d != %d\n", a[i], b[i], c[i] );

            success = false;

        }

    }

    if (success)    printf( "We did it!\n" );

    // free the memory we allocated on the GPU

    HANDLE_ERROR( cudaFree( dev_a ) );

    HANDLE_ERROR( cudaFree( dev_b ) );

    HANDLE_ERROR( cudaFree( dev_c ) );

    // free the memory we allocated on the CPU

    free( a );

    free( b );

    free( c );

    return ;

}

总结：我们通常选取一定数量的线程来解决问题，通常都选2的倍数。是由grid，block，thread，这种三级结构实现的。一般的程序的计算量都会超过线程数量，因此要合理的把计算量尽量平均分配给各个线程来计算。感觉上来说，编写核函数的精髓就是如何利用线程的序号（索引值）来分配计算任务。

cuda学习2-block与thread数量的选取的更多相关文章

CUDA学习笔记-1: CUDA编程概览
1.GPU编程模型及基本步骤 cuda程序的基本步骤如下: 在cpu中初始化数据将输入transfer到GPU中利用分配好的grid和block启动kernel函数将计算结果transfer到C ...
CUDA学习，第一个kernel函数及代码讲解
前一篇CUDA学习,我们已经完成了编程环境的配置,现在我们继续深入去了解CUDA编程.本博文分为三个部分,第一部分给出一个代码示例,第二部分对代码进行讲解,第三部分根据这个例子介绍如何部署和发起一个k ...
CUDA学习之二：shared_memory使用，矩阵相乘
CUDA中使用shared_memory可以加速运算,在矩阵乘法中是一个体现. 矩阵C = A * B,正常运算时我们运用 C[i,j] = A[i,:] * B[:,j] 可以计算出结果.但是在CP ...
【CUDA学习】GPU硬件结构
GPU的硬件结构,也不是具体的硬件结构,就是与CUDA相关的几个概念:thread,block,grid,warp,sp,sm. sp: 最基本的处理单元,streaming processor 最 ...
CUDA学习笔记（四）——CUDA性能
转自:http://blog.sina.com.cn/s/blog_48b9e1f90100fm5h.html 四.CUDA性能 CUDA中的block被划分成一个个的warp,在GeForce880 ...
CUDA学习笔记（一）【转】
CUDA编程中,习惯称CPU为Host,GPU为Device.编程中最开始接触的东西恐怕是并行架构,诸如Grid.Block的区别会让人一头雾水,我所看的书上所讲述的内容比较抽象,对这些概念的内容没有 ...
cuda学习1-初始庐山真面目
cuda作为gpu计算中的代表,拥有着超级高的计算效率,其原因是gpu实际相当与一台超级并行机组,使用过MPI做并行计算的人们可能知道,所谓的并行计算,简单讲就是用多个U(计算单元)来完成一个U的计算 ...
原 iOS深入学习（Block全面分析）http://my.oschina.net/leejan97/blog/268536
原 iOS深入学习(Block全面分析) 发表于1年前(2014-05-24 16:45) 阅读(26949) | 评论(14) 39人收藏此文章, 我要收藏赞21 12月12日北京OSC源创会 ...
CUDA学习之一：二维矩阵加法
今天忙活了3个小时,竟然被一个苦恼的CUDA小例程给困住了,本来是参照Rachal zhang大神的CUDA学习笔记来一个模仿,结果却自己给自己糊里糊涂,最后还是弄明白了一些. RZ大神对CUDA关于 ...

随机推荐

简单分析下用yii2的yii\helpers\Html类和yii.js实现的post请求
yii2提供了很多帮助类,比如Html.Url.Json等,可以很方便的实现一些功能,下面简单说下这个Html.用yii2写view时时经常会用到它,今天在改写一个页面时又用到了它.它比较好用的地方就 ...
MySQL一个简单的存储过程demo
使用的工具是Navicat for MySQL. 首先创建一个学生表 mysql) ) ) auto_increment,age ) ) not null,primary key(s_no)); Qu ...
【iOS系列】-多图片多线程异步下载
多图片多线程异步下载开发中非常常用的就是就是图片下载,我们常用的就是SDWebImage,但是作为开发人员,不仅要能会用,还要知道其原理.本文就会介绍多图下载的实现. 本文中的示例Demno地址,下 ...
jquery转盘抽奖的研究
先看效果: <!DOCTYPE html> <html> <head lang="en"> <meta charset="UTF ...
jasmine 初探(一)
前言 <敏捷软件开发>这本书由享誉全球的软件开发专家和软件大师Robert C.Martin所著中提到两个开发方式: TDD(Test Driven Development)测试驱动开发 ...
Android事件分发机制详解
事件分发机制详解一.基础知识介绍 1.经常用的事件有:MotionEvent.ACTION_DOWN,MotionEvent.ACTION_MOVE,MotionEvent.ACTION_UP等 2 ...
利用Unity3D实现多平台增强现实网络游戏的一种方案
这几天去厦门参加了VALSE2017会议,对于其中某个环节展示的有关增强现实游戏的部分印象深刻.因为前两年一度沉迷于利用各类引擎开发游戏,所以也曾经以Pokemon GO为模板开发过一款多平台增强现实 ...
如何使用HTML5自定义数据属性
在本文中,我将向你介绍如何使用HTML5自定义数据属性.我还将向你介绍一些开发人员在工作中经常使用的优秀实例. 为什么需要自定义数据属性? 很多时候我们需要存储一些与不同DOM元素相关联的信息.这些信 ...
virtualbox中实施ASM扩容实施记录
实施ASM在线扩容 1. 首先关闭集群 [root@node1 bin]# ./crsctl stop crs [root@node2 bin]# ./crsctl stop crs 关机,halt ...
解决oracle用户锁定
故障现象: SQL> connect scott/scottERROR:ORA-01017: invalid username/password; logon deniedSQL> ...

cuda学习2-block与thread数量的选取

cuda学习2-block与thread数量的选取的更多相关文章

随机推荐

热门专题