【Udacity并行计算课程笔记】- lesson 1 The GPU Programming Model
一、传统的提高计算速度的方法
- faster clocks (设置更快的时钟)
- more work over per clock cycle(每个时钟周期做更多的工作)
- more processors(更多处理器)
二、CPU & GPU
- CPU更加侧重执行时间,做到延时小
- GPU则侧重吞吐量,能够执行大量的计算
更形象的理解就是假如我们载一群人去北京,CPU就像那种敞篷跑车一样速度贼快,但是一次只能坐两个人,而GPU就像是大巴车一样,虽然可能速度不如跑车,但是一次能载超多人。
总结起来相比于CPU,GPU有如下特点:
- 有很多计算单元,可以在一起执行大量的计算
- 显示并行计算模型(explicitly parallel programming model),这个会在后面深度讨论
- GPU是对吞吐量进行优化,而不是吞吐量
三、cuda登场
以前我们所写的代码都只能运行在CPU上,那么如果想运行在GPU上该怎么实现呢?
这时候就需要CUDA大大登场了!!!
cuda执行原理是CPU运行主程序,向GPU发送指示告诉它该做什么,那么系统就需要做如下的事情:
- 1.把CPU内存中的数据转移到GPU的内存中
- 2.将数据从GPU移回CPU
(把数据从一个地方移到另一个地方命令为cudaMemcpy) - 3.在GPU上分配内存,在C语言中该命令是malloc,而在cuda中则是cudaMalloc
- 4.在GPU上调用以并行方式计算的程序,这些程序叫做内核。

练习题:GPU可以做如下哪些事?

正确选项解释:
- 选项2:回应CPU发来的请求,即对应上面的步骤2——将数据从GPU移回CPU
- 选项4:回应CPU发来的请求,即对应上面的步骤1——把CPU内存中的数据转移到GPU的内存中
- 选项5:计算由CPU调用的内核运算。
四、A CUDA Program
典型的GPU算法流程:
- CPU在GPU上分配存储空间(cudaMalloc)
- CPU将输入数据拷贝到GPU(cudaMemcpy)
- CPU调用某些内核来监视这些在GPU上处理这个数据的内核(kernel launch)
- CPU将GPU计算得到的结果复制回CPU(cudaMemcpy)
五、定义GPU计算
GPU能做的事是:
- 有效的启动大量线程
- 并行的运行上面启动的大量线程,而不是运行一个有很多并行工作的线程,也不是运行一个线程更加快速。

六、CPU&GPU计算原理区别
下面将计算数组[0,1,2……,63]每个元素平方来比较CPU和GPU计算原理的区别,以及具体代码实现。
CPU
for(i=0;i<64;i++){
out[i] = in[i] * in[i];
}
该段代码在CPU中执行,只有一个线程,它会循环64次,每次迭代做一个计算。
GPU
实现代码:
#include <stdio.h>
__global__ void cube(float * d_out, float * d_in){
// Todo: Fill in this function
int idx = threadIdx.x;
d_out[idx] = d_in[idx]+6;
}
int main(int argc, char ** argv) {
const int ARRAY_SIZE = 64;
const int ARRAY_BYTES = ARRAY_SIZE * sizeof(float);
// generate the input array on the host
float h_in[ARRAY_SIZE];
for (int i = 0; i < ARRAY_SIZE; i++) {
h_in[i] = float(i);
}
float h_out[ARRAY_SIZE];
// declare GPU memory pointers
float * d_in;
float * d_out;
// allocate GPU memory
cudaMalloc((void**) &d_in, ARRAY_BYTES);
cudaMalloc((void**) &d_out, ARRAY_BYTES);
// transfer the array to the GPU
cudaMemcpy(d_in, h_in, ARRAY_BYTES, cudaMemcpyHostToDevice);
// launch the kernel
cube<<<1, ARRAY_SIZE>>>(d_out, d_in);
// copy back the result array to the CPU
cudaMemcpy(h_out, d_out, ARRAY_BYTES, cudaMemcpyDeviceToHost);
// print out the resulting array
for (int i =0; i < ARRAY_SIZE; i++) {
printf("%f", h_out[i]);
printf(((i % 4) != 3) ? "\t" : "\n");
}
cudaFree(d_in);
cudaFree(d_out);
return 0;
}
代码拆解分析:
1.变量命名规则
在编写cuda代码时,需要遵守如下规则,这样可以避免犯不必要的错误。
CPU的变量以h_开头(host),而GPU的变量以d_开头(device)。
2.定义内核函数
__global__ void square(float *d_out, float *d_in){
int idx = threadIdx.x;
float f = d_in[idx];
d_out[idx] = f * f;
}
通过 global 定义的函数可以让cuda知道这是一个内核函数。
函数第一行作用是通过内置的线程索引threadIdx获得当前线程的索引。另外threadIdx是c语言中的struct,它有3名成员,分别是 .x,.y,.z 。如果该线程是第一个线程,则threadIdx.x返回的值是0。
3.数据转移cudaMemcpy
代码片段
// 将数据转移到GPU
cudaMemcpy(d_in, h_in, ARRAY_BYTES, cudaMemcpyHostToDevice);
// 调用内核
square<<<1, ARRAY_SIZE>>>(d_out, d_in);
// 将结果传回CPU
cudaMemcpy(h_out, d_out, ARRAY_BYTES, cudaMemcpyDeviceToHost);
注意下面函数的第三个参数direction有三种选项:
cudaMemcpy(destination, source, size, direction)
分别是:
- cudaMemcpyHostToDevice
- cudaMemcpyDeviceToHost
- cudaMemcpyDeviceToDevice
4.调用内核 square<<<1, 64>>>
另外在解释一下如上函数各参数的含义:
第一个参数1表示需要分配的块的数量为1,
第二个参数64表示每一块有64个线程。
所以假设我们需要1280个线程,我们就可以这样定义:
square<<<10,128>>>(param1, param2);
或者
square<<<5,256>>>(param1, param2);
BUT!!! 要注意不能像下面这样定义,因为一个块的线程数一般没那么大,一般只有1024.
square<<<1,1280>>>(param1, param2);
还需要知道的是上面介绍的两个参数其实可以是二维或者三维的,即
square<<<1,64>>> 等效为 square<<<dim3(1,1,1),dim3(64,1,1)>>> ,但是dim3(64,1,1)=dim3(64)=64。
例如我们有一个128*128的图片,现在需要对每一个像素进行计算,我们可以是
<<<dim3(128,1,1),(128,1,1)>>>,也可以是<<<dim3(8,8,1),dim3(16,16,1)>>>

总结起来核函数的调用的完整形式是
kernel<<<dim3(bx,by,bz), dim3(tx,ty,tz), shmem>>>(...)
第一个参数表示网络块的维数(bx * by * bz),
第二个参数表示每块所含有的线程数(tx * ty * tz)
第三个参数一般默认为0,它是以字节表示的每个线程块分配的共享内存量
![]https://ask.qcloudimg.com/http-save/yehe-1215004/q3rf2iq5r.png?imageView2/2/w/1620)
【Udacity并行计算课程笔记】- lesson 1 The GPU Programming Model的更多相关文章
- 【Udacity并行计算课程笔记】- Lesson 2 The GPU Hardware and Parallel Communication Patterns
本小节笔记大纲: 1.Communication patterns gather,scatter,stencil,transpose 2.GPU hardware & Programming ...
- Udacity并行计算课程笔记-The GPU Hardware and Parallel Communication Patterns
本小节笔记大纲: 1.Communication patterns gather,scatter,stencil,transpose 2.GPU hardware & Programming ...
- Udacity并行计算课程笔记-The GPU Programming Model
一.传统的提高计算速度的方法 faster clocks (设置更快的时钟) more work over per clock cycle(每个时钟周期做更多的工作) more processors( ...
- 【Udacity并行计算课程笔记】- Lesson 4 Fundamental GPU Algorithms (Applications of Sort and Scan)
I. Scan应用--Compact 在介绍这节之前,首先给定一个情景方便理解,就是因为某种原因我们需要从扑克牌中选出方块的牌. 更formal一点的说法如下,输入是 \(s_0,s_1,...\), ...
- 【Udacity并行计算课程笔记】- Lesson 3 Fundamental GPU Algorithms (Reduce, Scan, Histogram)
本周主要内容如下: 如何分析GPU算法的速度和效率 3个新的基本算法:归约.扫描和直方图(Reduce.Scan.Histogram) 一.评估标准 首先介绍用于评估GPU计算的两个标准: ste ...
- udacity android 学习笔记: lesson 4 part b
udacity android 学习笔记: lesson 4 part b 作者:干货店打杂的 /titer1 /Archimedes 出处:https://code.csdn.net/titer1 ...
- udacity android 实践笔记: lesson 4 part b
udacity android 实践笔记: lesson 4 part b 作者:干货店打杂的 /titer1 /Archimedes 出处:https://code.csdn.net/titer1 ...
- udacity android 学习笔记: lesson 4 part a
udacity android 学习笔记: lesson 4 part a 作者:干货店打杂的 /titer1 /Archimedes 出处:https://code.csdn.net/titer1 ...
- udacity android 实践笔记: lesson 4 part a
udacity android 实践笔记: lesson 4 part a 作者:干货店打杂的 /titer1 /Archimedes 出处:https://code.csdn.net/titer1 ...
随机推荐
- Linux读书笔记第五章
主要内容: 什么是系统调用 Linux上的系统调用实现原理 一个简单的系统调用的实现 1. 什么是系统调用 简单来说,系统调用就是用户程序和硬件设备之间的桥梁. 用户程序在需要的时候,通过系统调用来使 ...
- 第三周 构造一个简单的Linux系统MenuOS
一. Linux内核源代码简介 稳定版内核:Linux-3.18.6 Linux内核源代码的目录结构: arch目录:在Linux内核源代码里占有的比重很大,因为Linux内核支持很多的体系结构, ...
- 第一次Spring会议成果意见汇总
第一组:9-625 只看到了界面,而两台笔记本电脑通过局域网进行通信的功能则没有看到,没有看到实质性的成果.他们的软件还是非常实用的,它仅通过局域网就能通信,大大减少了流量费用,提高了通信效率,希望 ...
- We are a team----sh_6666
团队宣言:编程,我们是玩命的,玩命,我们是认真的. 团队简介: 团队名称:sh_6666队 团队博客链接:http://www.cnblogs.com/sh-6666/ 人物简介: 剧团导演:吴小勇 ...
- Apache修改了配置文件中的路径后,登录该地址网页出现问题 (其中介绍了selinux的域和安全上下文)
默认的网站数据存放在: /var/www/html 首页名称: index.html Apache服务程序的主配置文件: /etc/httpd/conf/httpd.conf (若是将 119 行 ...
- XShell中文乱码问题解决
现象:XShell终端中输入中文显示乱码 原因:XShell终端的编码格式与服务器不同 解决:修改XShell终端的编码格式:菜单中点击,文件->属性->终端->编码,选择“UTF- ...
- spring注入 属性注入 构造器注入 set方法注入
spring注入 属性注入 构造器注入 set方法注入(外部bean注入)
- MongoDB-管道与聚合(3)
分组:$group() db.集合.aggregate( {$group: {_id:'$分组字段名', 显示字段:{$统计函数: '$统计字段'}}}, ) -- 统计男生 ...
- 修改MyEclipse取消默认工作空间
使用MyEclipse,在最开始Workspace Launcher中选择工作空间时,勾选了默认选择,以后启动程序的时候,就不会弹出这个选择工作空间的对话框了.如下图: 但后来又新增一个工作空间,需要 ...
- [LOJ6436][PKUSC2018]神仙的游戏
loj description 给你一个只有01和?的字符串,问你是否存在一种把?改成01的方案使串存在一个长度为\(1-n\)的\(border\).\(n\le5\times10^5\) sol ...