CUDA编程学习（四）

利用Block和Thread进行并行加速

_global_ void add(int *a, int *b, int *c)

{

    int index = threadIdx.x + blockIdx.x * blockDim.x;

    c[index] = a[index] + b[index];

}

#define N (2048*2048)

#define THREAD_PER_BLOCK 512

int main()

{

    int *a, *b, *c;            //host copies of a, b, c

    int *d_a, *d_b, *d_c;    //device copies of a, b, c

    int size = N * sizeof(int);

    //Alloc space for device copies of a, b, c

    cudaMalloc((void **)&d_a, size);

    cudaMalloc((void **)&d_b, size);

    cudaMalloc((void **)&d_c, size);

    //Alloc space for host copies of a, b, c and setup input values

    a = (int *)malloc(size); random_ints(a, N);

    b = (int *)malloc(size); random_ints(b, N);

    c = (int *)malloc(size);

    //Copy the data into device

    cudeMemcpy(d_a, a, size, cudaMemcpyHostToDevice);

    cudaMemcpy(d_b, b, size, cudaMemcpyHostToDevice);

    //Launch add() kernel on GPU with N blocks

    add<<<N/THREADS_PER_BLOCK,THREADS_PER_BLOCK>>>(d_a, d_b, d_c);

    //Copy result back to host

    cudaMemcpy(c, d_c, size, cudaMemcpyDeviceToHost);

    //Cleanup

    free(a); free(b); free(c);

    cudeFree(d_a); cudaFree(d_b); cudaFree(d_c);

    return ;

}

/**** What's the function of random_ints****/

void random_ints(int* a, int N)

{

 int i;

 for (i = ; i < N; ++i)

 a[i] = rand();

}

CUDA编程学习（四）的更多相关文章

CUDA编程学习笔记1
CUDA编程模型是一个异构模型,需要CPU和GPU协同工作. host和device host和device是两个重要的概念 host指代CPU及其内存 device指代GPU及其内存 __globa ...
CUDA编程学习相关
1. CUDA编程之快速入门:https://www.cnblogs.com/skyfsm/p/9673960.html 2. CUDA编程入门极简教程:https://blog.csdn.net/x ...
CUDA编程学习笔记2
第二章 cuda代码写在.cu/.cuh里面 cuda 7.0 / 9.0开始,NVCC就支持c++11 / 14里面绝大部分的语言特性了. Dim3 __host__ __device__ dim3 ...
CUDA编程学习（一）
/****c code****/ #include<stdio.h> int main() { printf("Hello world!\n); ; } /****CUDA co ...
cuda编程学习6——点积dot
__shared__ float cache[threadPerBlock];//声明共享内存缓冲区,__shared__ __syncthreads();//对线程块中的线程进行同步,只有都完成前面 ...
cuda编程学习5——波纹ripple
/共有DIM×DIM个像素,每个像素对应一个线程dim3 blocks(DIM/16,DIM/16);//2维dim3 threads(16,16);//2维kernel<<<blo ...
cuda编程学习4——Julia
书上的例子编译会有错误,修改一下行即可. __device__ cuComplex(float a,float b):r(a),i(b){} /* ========================== ...
cuda编程学习3——VectorSum
这个程序是把两个向量相加 add<<<N,1>>>(dev_a,dev_b,dev_c);//<N,1>,第一个参数N代表block的数量,第二个参数1 ...
cuda编程学习2——add
cudaMalloc()分配的指针有使用限制,设备指针的使用限制总结如下: 1.可以将其传递给在设备上执行的函数 2.可以在设备代码中使用其进行内存的读写操作 3.可以将其传递给在主机上执行的函数 4 ...

随机推荐

PHP模拟发送POST请求之五curl基本使用和多线程优化
今天来介绍PHP模拟发送POST请求的重型武器——cURL函数库的使用和其多线程的优化方法. 说起cURL函数,可谓是老生常谈,但网上许多资料都在关键部分语焉不详,列出一大堆手册上的东西,搞得我入门时 ...
HDU 4050 wolf5x（动态规划-概率DP）
wolf5x Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Total Sub ...
IP工具类-自己动手做个ip解析器
IP工具类-自己动手做个ip解析器一.资料准备导入依赖包:
常用awk命令（转）
awk 用法:awk ' pattern {action} ' 变量名含义 ARGC 命令行变元个数 ARGV 命令行变元数组 FILENAME 当前输入文件名 FNR 当前文件中的记录号 FS 输 ...
POJ 2823 Sliding Window
Sliding Window Time Limit: 12000MSMemory Limit: 65536K Case Time Limit: 5000MS Description An array ...
20150912华为机考1之"输入一个字符串，将其中出现次数最多的字符输出"
不吐槽华为的服务器了,直接上正文输入:字符串(英文字母),长度不超过128 输出:出现频率最高的字母思路写在注释文档 /* Input a string * Output the most fre ...
C++find函数
头文件 #include <algorithm> 函数实现 template<class InputIterator, class T> InputIterator find ...
SSIS with vertica
使用ODBC进行连接,因为SSIS中没有直接的ODBC connection,所以使用ADO.NET的连接器. 九分钟才跑了四百来条数据. 这个图反应了SSIS的数据流速度还是可以的,但是瓶颈就在OD ...
Java 如何有效地避免OOM：善于利用软引用和弱引用
Java 如何有效地避免OOM:善于利用软引用和弱引用想必很多朋友对OOM(OutOfMemory)这个错误不会陌生,而当遇到这种错误如何有效地解决这个问题呢?今天我们就来说一下如何利用软引用和弱引 ...
RabbitMQ 一二事(5) - 通配符模式应用
之前的路由模式是通过key相等来匹配而通配符,顾名思义,符合条件,则进行消息匹配发送将路由键和某模式进行匹配.此时队列需要绑定要一个模式上. 符号“#”匹配一个或多个词,符号“*”匹配不多不少一个 ...

CUDA编程学习（四）

CUDA编程学习（四）的更多相关文章

随机推荐

热门专题