一、传统的提高计算速度的方法

faster clocks (设置更快的时钟）
more work over per clock cycle(每个时钟周期做更多的工作)
more processors(更多处理器)

二、CPU & GPU

CPU更加侧重执行时间，做到延时小
GPU则侧重吞吐量，能够执行大量的计算

更形象的理解就是假如我们载一群人去北京，CPU就像那种敞篷跑车一样速度贼快，但是一次只能坐两个人，而GPU就像是大巴车一样，虽然可能速度不如跑车，但是一次能载超多人。

总结起来相比于CPU，GPU有如下特点：

有很多计算单元，可以在一起执行大量的计算
显示并行计算模型(explicitly parallel programming model)，这个会在后面深度讨论
GPU是对吞吐量进行优化，而不是吞吐量

三、cuda登场

以前我们所写的代码都只能运行在CPU上，那么如果想运行在GPU上该怎么实现呢？

这时候就需要CUDA大大登场了！！！

cuda执行原理是CPU运行主程序，向GPU发送指示告诉它该做什么，那么系统就需要做如下的事情：

1.把CPU内存中的数据转移到GPU的内存中
2.将数据从GPU移回CPU

(把数据从一个地方移到另一个地方命令为cudaMemcpy)
3.在GPU上分配内存，在C语言中该命令是malloc，而在cuda中则是cudaMalloc
4.在GPU上调用以并行方式计算的程序，这些程序叫做内核。

练习题：GPU可以做如下哪些事？

正确选项解释：

选项2：回应CPU发来的请求，即对应上面的步骤2——将数据从GPU移回CPU
选项4：回应CPU发来的请求，即对应上面的步骤1——把CPU内存中的数据转移到GPU的内存中
选项5：计算由CPU调用的内核运算。

四、A CUDA Program

典型的GPU算法流程：

CPU在GPU上分配存储空间(cudaMalloc)
CPU将输入数据拷贝到GPU(cudaMemcpy)
CPU调用某些内核来监视这些在GPU上处理这个数据的内核(kernel launch)
CPU将GPU计算得到的结果复制回CPU(cudaMemcpy)

五、定义GPU计算

GPU能做的事是：

有效的启动大量线程
并行的运行上面启动的大量线程，而不是运行一个有很多并行工作的线程，也不是运行一个线程更加快速。

六、CPU&GPU计算原理区别

下面将计算数组[0,1,2……,63]每个元素平方来比较CPU和GPU计算原理的区别，以及具体代码实现。

CPU

for(i=0;i<64;i++){

    out[i] = in[i] * in[i];

}

该段代码在CPU中执行，只有一个线程，它会循环64次，每次迭代做一个计算。

GPU

实现代码：

#include <stdio.h>

__global__ void cube(float * d_out, float * d_in){

	// Todo: Fill in this function

	int idx =  threadIdx.x;

	d_out[idx] = d_in[idx]+6;

}

int main(int argc, char ** argv) {

	const int ARRAY_SIZE = 64;

	const int ARRAY_BYTES = ARRAY_SIZE * sizeof(float);

	// generate the input array on the host

	float h_in[ARRAY_SIZE];

	for (int i = 0; i < ARRAY_SIZE; i++) {

		h_in[i] = float(i);

	}

	float h_out[ARRAY_SIZE];

	// declare GPU memory pointers

	float * d_in;

	float * d_out;

	// allocate GPU memory

	cudaMalloc((void**) &d_in, ARRAY_BYTES);

	cudaMalloc((void**) &d_out, ARRAY_BYTES);

	// transfer the array to the GPU

	cudaMemcpy(d_in, h_in, ARRAY_BYTES, cudaMemcpyHostToDevice);

	// launch the kernel

	cube<<<1, ARRAY_SIZE>>>(d_out, d_in);

	// copy back the result array to the CPU

	cudaMemcpy(h_out, d_out, ARRAY_BYTES, cudaMemcpyDeviceToHost);

	// print out the resulting array

	for (int i =0; i < ARRAY_SIZE; i++) {

		printf("%f", h_out[i]);

		printf(((i % 4) != 3) ? "\t" : "\n");

	}

	cudaFree(d_in);

	cudaFree(d_out);

	return 0;

}

代码拆解分析：

1.变量命名规则

在编写cuda代码时，需要遵守如下规则，这样可以避免犯不必要的错误。

CPU的变量以h_开头(host)，而GPU的变量以d_开头(device)。

2.定义内核函数

__global__ void square(float *d_out, float *d_in){

    int idx = threadIdx.x;

    float f = d_in[idx];

    d_out[idx] = f * f;

}

通过 global 定义的函数可以让cuda知道这是一个内核函数。

函数第一行作用是通过内置的线程索引threadIdx获得当前线程的索引。另外threadIdx是c语言中的struct，它有3名成员，分别是 .x,.y,.z 。如果该线程是第一个线程，则threadIdx.x返回的值是0。

3.数据转移cudaMemcpy

代码片段

// 将数据转移到GPU

cudaMemcpy(d_in, h_in, ARRAY_BYTES, cudaMemcpyHostToDevice);

// 调用内核

square<<<1, ARRAY_SIZE>>>(d_out, d_in);

// 将结果传回CPU

cudaMemcpy(h_out, d_out, ARRAY_BYTES, cudaMemcpyDeviceToHost);

注意下面函数的第三个参数direction有三种选项：

cudaMemcpy(destination, source, size, direction)

分别是：

cudaMemcpyHostToDevice
cudaMemcpyDeviceToHost
cudaMemcpyDeviceToDevice

4.调用内核 square<<<1, 64>>>

另外在解释一下如上函数各参数的含义：

第一个参数1表示需要分配的块的数量为1，

第二个参数64表示每一块有64个线程。

所以假设我们需要1280个线程，我们就可以这样定义：

square<<<10,128>>>(param1, param2);

或者

square<<<5,256>>>(param1, param2);

BUT！！！ 要注意不能像下面这样定义，因为一个块的线程数一般没那么大，一般只有1024.

square<<<1,1280>>>(param1, param2);

还需要知道的是上面介绍的两个参数其实可以是二维或者三维的，即

square<<<1,64>>> 等效为 square<<<dim3(1,1,1),dim3(64,1,1)>>> ,但是dim3(64,1,1)=dim3(64)=64。

例如我们有一个128*128的图片，现在需要对每一个像素进行计算，我们可以是

<<<dim3(128,1,1),(128,1,1)>>>，也可以是<<<dim3(8,8,1),dim3(16,16,1)>>>

总结起来核函数的调用的完整形式是

kernel<<<dim3(bx,by,bz), dim3(tx,ty,tz), shmem>>>(...)

第一个参数表示网络块的维数(bx * by * bz)，

第二个参数表示每块所含有的线程数(tx * ty * tz)

第三个参数一般默认为0，它是以字节表示的每个线程块分配的共享内存量

![]https://ask.qcloudimg.com/http-save/yehe-1215004/q3rf2iq5r.png?imageView2/2/w/1620)

【Udacity并行计算课程笔记】- lesson 1 The GPU Programming Model的更多相关文章

【Udacity并行计算课程笔记】- Lesson 2 The GPU Hardware and Parallel Communication Patterns
本小节笔记大纲: 1.Communication patterns gather,scatter,stencil,transpose 2.GPU hardware & Programming ...
Udacity并行计算课程笔记-The GPU Hardware and Parallel Communication Patterns
本小节笔记大纲: 1.Communication patterns gather,scatter,stencil,transpose 2.GPU hardware & Programming ...
Udacity并行计算课程笔记-The GPU Programming Model
一.传统的提高计算速度的方法 faster clocks (设置更快的时钟) more work over per clock cycle(每个时钟周期做更多的工作) more processors( ...
【Udacity并行计算课程笔记】- Lesson 4 Fundamental GPU Algorithms (Applications of Sort and Scan)
I. Scan应用--Compact 在介绍这节之前,首先给定一个情景方便理解,就是因为某种原因我们需要从扑克牌中选出方块的牌. 更formal一点的说法如下,输入是 $s_0,s_1,...$, ...
【Udacity并行计算课程笔记】- Lesson 3 Fundamental GPU Algorithms (Reduce, Scan, Histogram)
本周主要内容如下: 如何分析GPU算法的速度和效率 3个新的基本算法:归约.扫描和直方图(Reduce.Scan.Histogram) 一.评估标准首先介绍用于评估GPU计算的两个标准: ste ...
udacity android 学习笔记: lesson 4 part b
udacity android 学习笔记: lesson 4 part b 作者:干货店打杂的 /titer1 /Archimedes 出处:https://code.csdn.net/titer1 ...
udacity android 实践笔记: lesson 4 part b
udacity android 实践笔记: lesson 4 part b 作者:干货店打杂的 /titer1 /Archimedes 出处:https://code.csdn.net/titer1 ...
udacity android 学习笔记: lesson 4 part a
udacity android 学习笔记: lesson 4 part a 作者:干货店打杂的 /titer1 /Archimedes 出处:https://code.csdn.net/titer1 ...
udacity android 实践笔记: lesson 4 part a
udacity android 实践笔记: lesson 4 part a 作者:干货店打杂的 /titer1 /Archimedes 出处:https://code.csdn.net/titer1 ...

随机推荐

“Linux内核分析”实验三报告
构造一个简单的Linux系统张文俊+原创作品转载请注明出处+<Linux内核分析>MOOC课程http://mooc.study.163.com/course/USTC-10000290 ...
Alpha版本总结
Alpha版本总结 General Questions a) What went well? Why? 成功之处:界面设计简洁,功能吸引用户. 原因:铁道大学学生上自习不方便,没有固定的教室 ...
第二个spring冲刺总结
讨论成员:罗凯旋.罗林杰.吴伟锋.黎文衷第二阶段总体是做到了四则运算的demo,,包括APP进入动画,以及界面的基本效果设计,还有能进行综合计算(选择题,可以自动生成简单,容易,困难三种难度 ...
Ns3 构建哑铃型拓扑，并实现两个点的TCP连接（详细请戳全文）
aaarticlea/png;base64,iVBORw0KGgoAAAANSUhEUgAAAaUAAADlCAIAAAB8n38hAAAV8UlEQVR4nO3dMWjjyBoH8CkNj1uc5v
使用Visual Studio 2013进行单元测试的过程与感想
首先是安装Visual Studio 2013这个软件,尽管安装过程不复杂,但是安装的时间实在是太长了,经过2个多小时的安装终于装完了. 由于时间紧凑,没来得及装语言包,于是,我用了原装的进行了单元测 ...
R-CNN阅读笔记
论文地址:<Rich feature hierarchies for accurate object detection and semantic segmentation> 论文包含两个 ...
Alpha冲刺——day6
Alpha冲刺--day6 作业链接 Alpha冲刺随笔集 github地址团队成员 031602636 许舒玲(队长) 031602237 吴杰婷 031602220 雷博浩 031602634 ...
Linux命令（十五）打包或解压文件 tar
目录 1.命令简介 2.常用参数介绍 3.实例 4.直达底部命令简介 tar 命令用于将文件打包或解压,扩展名一般为 ".tar" ,指定特定的参数可以调用 gzip 或 bzi ...
使用AutoMapper实现Dto和Model的自由转换（中）
在上一篇文章中我们构造出了完整的应用场景,包括我们的Model.Dto以及它们之间的转换规则.下面就可以卷起袖子,开始我们的AutoMapper之旅了. [二]以Convention方式实现零配置的对 ...
CF1110D Jongmah（DP）
题目链接:CF原网洛谷题目大意:有 $n$ 个数,每个都不超过 $m$.一个三元组 $(a,b,c)$ 是合法的当且仅当 $a=b=c$ 或者 $a+1=b=c-1$.每个数只能用一次.问最多能 ...

【Udacity并行计算课程笔记】- lesson 1 The GPU Programming Model