一、传统的提高计算速度的方法

faster clocks (设置更快的时钟）
more work over per clock cycle(每个时钟周期做更多的工作)
more processors(更多处理器)

二、CPU & GPU

CPU更加侧重执行时间，做到延时小
GPU则侧重吞吐量，能够执行大量的计算

更形象的理解就是假如我们载一群人去北京，CPU就像那种敞篷跑车一样速度贼快，但是一次只能坐两个人，而GPU就像是大巴车一样，虽然可能速度不如跑车，但是一次能载超多人。

总结起来相比于CPU，GPU有如下特点：

有很多计算单元，可以在一起执行大量的计算
显示并行计算模型(explicitly parallel programming model)，这个会在后面深度讨论
GPU是对吞吐量进行优化，而不是吞吐量

三、cuda登场

以前我们所写的代码都只能运行在CPU上，那么如果想运行在GPU上该怎么实现呢？

这时候就需要CUDA大大登场了！！！

cuda执行原理是CPU运行主程序，向GPU发送指示告诉它该做什么，那么系统就需要做如下的事情：

1.把CPU内存中的数据转移到GPU的内存中
2.将数据从GPU移回CPU

(把数据从一个地方移到另一个地方命令为cudaMemcpy)
3.在GPU上分配内存，在C语言中该命令是malloc，而在cuda中则是cudaMalloc
4.在GPU上调用以并行方式计算的程序，这些程序叫做内核。

练习题：GPU可以做如下哪些事？

正确选项解释：

选项2：回应CPU发来的请求，即对应上面的步骤2——将数据从GPU移回CPU
选项4：回应CPU发来的请求，即对应上面的步骤1——把CPU内存中的数据转移到GPU的内存中
选项5：计算由CPU调用的内核运算。

四、A CUDA Program

典型的GPU算法流程：

CPU在GPU上分配存储空间(cudaMalloc)
CPU将输入数据拷贝到GPU(cudaMemcpy)
CPU调用某些内核来监视这些在GPU上处理这个数据的内核(kernel launch)
CPU将GPU计算得到的结果复制回CPU(cudaMemcpy)

五、定义GPU计算

GPU能做的事是：

有效的启动大量线程
并行的运行上面启动的大量线程，而不是运行一个有很多并行工作的线程，也不是运行一个线程更加快速。

六、CPU&GPU计算原理区别

下面将计算数组[0,1,2……,63]每个元素平方来比较CPU和GPU计算原理的区别，以及具体代码实现。

CPU

for(i=0;i<64;i++){

    out[i] = in[i] * in[i];

}

该段代码在CPU中执行，只有一个线程，它会循环64次，每次迭代做一个计算。

GPU

实现代码：

#include <stdio.h>

__global__ void cube(float * d_out, float * d_in){

	// Todo: Fill in this function

	int idx =  threadIdx.x;

	d_out[idx] = d_in[idx]+6;

}

int main(int argc, char ** argv) {

	const int ARRAY_SIZE = 64;

	const int ARRAY_BYTES = ARRAY_SIZE * sizeof(float);

	// generate the input array on the host

	float h_in[ARRAY_SIZE];

	for (int i = 0; i < ARRAY_SIZE; i++) {

		h_in[i] = float(i);

	}

	float h_out[ARRAY_SIZE];

	// declare GPU memory pointers

	float * d_in;

	float * d_out;

	// allocate GPU memory

	cudaMalloc((void**) &d_in, ARRAY_BYTES);

	cudaMalloc((void**) &d_out, ARRAY_BYTES);

	// transfer the array to the GPU

	cudaMemcpy(d_in, h_in, ARRAY_BYTES, cudaMemcpyHostToDevice);

	// launch the kernel

	cube<<<1, ARRAY_SIZE>>>(d_out, d_in);

	// copy back the result array to the CPU

	cudaMemcpy(h_out, d_out, ARRAY_BYTES, cudaMemcpyDeviceToHost);

	// print out the resulting array

	for (int i =0; i < ARRAY_SIZE; i++) {

		printf("%f", h_out[i]);

		printf(((i % 4) != 3) ? "\t" : "\n");

	}

	cudaFree(d_in);

	cudaFree(d_out);

	return 0;

}

代码拆解分析：

1.变量命名规则

在编写cuda代码时，需要遵守如下规则，这样可以避免犯不必要的错误。

CPU的变量以h_开头(host)，而GPU的变量以d_开头(device)。

2.定义内核函数

__global__ void square(float *d_out, float *d_in){

    int idx = threadIdx.x;

    float f = d_in[idx];

    d_out[idx] = f * f;

}

通过 global 定义的函数可以让cuda知道这是一个内核函数。

函数第一行作用是通过内置的线程索引threadIdx获得当前线程的索引。另外threadIdx是c语言中的struct，它有3名成员，分别是 .x,.y,.z 。如果该线程是第一个线程，则threadIdx.x返回的值是0。

3.数据转移cudaMemcpy

代码片段

// 将数据转移到GPU

cudaMemcpy(d_in, h_in, ARRAY_BYTES, cudaMemcpyHostToDevice);

// 调用内核

square<<<1, ARRAY_SIZE>>>(d_out, d_in);

// 将结果传回CPU

cudaMemcpy(h_out, d_out, ARRAY_BYTES, cudaMemcpyDeviceToHost);

注意下面函数的第三个参数direction有三种选项：

cudaMemcpy(destination, source, size, direction)

分别是：

cudaMemcpyHostToDevice
cudaMemcpyDeviceToHost
cudaMemcpyDeviceToDevice

4.调用内核 square<<<1, 64>>>

另外在解释一下如上函数各参数的含义：

第一个参数1表示需要分配的块的数量为1，

第二个参数64表示每一块有64个线程。

所以假设我们需要1280个线程，我们就可以这样定义：

square<<<10,128>>>(param1, param2);

或者

square<<<5,256>>>(param1, param2);

BUT！！！ 要注意不能像下面这样定义，因为一个块的线程数一般没那么大，一般只有1024.

square<<<1,1280>>>(param1, param2);

还需要知道的是上面介绍的两个参数其实可以是二维或者三维的，即

square<<<1,64>>> 等效为 square<<<dim3(1,1,1),dim3(64,1,1)>>> ,但是dim3(64,1,1)=dim3(64)=64。

例如我们有一个128*128的图片，现在需要对每一个像素进行计算，我们可以是

<<<dim3(128,1,1),(128,1,1)>>>，也可以是<<<dim3(8,8,1),dim3(16,16,1)>>>

总结起来核函数的调用的完整形式是

kernel<<<dim3(bx,by,bz), dim3(tx,ty,tz), shmem>>>(...)

第一个参数表示网络块的维数(bx * by * bz)，

第二个参数表示每块所含有的线程数(tx * ty * tz)

第三个参数一般默认为0，它是以字节表示的每个线程块分配的共享内存量

![]https://ask.qcloudimg.com/http-save/yehe-1215004/q3rf2iq5r.png?imageView2/2/w/1620)

【Udacity并行计算课程笔记】- lesson 1 The GPU Programming Model的更多相关文章

【Udacity并行计算课程笔记】- Lesson 2 The GPU Hardware and Parallel Communication Patterns
本小节笔记大纲: 1.Communication patterns gather,scatter,stencil,transpose 2.GPU hardware & Programming ...
Udacity并行计算课程笔记-The GPU Hardware and Parallel Communication Patterns
本小节笔记大纲: 1.Communication patterns gather,scatter,stencil,transpose 2.GPU hardware & Programming ...
Udacity并行计算课程笔记-The GPU Programming Model
一.传统的提高计算速度的方法 faster clocks (设置更快的时钟) more work over per clock cycle(每个时钟周期做更多的工作) more processors( ...
【Udacity并行计算课程笔记】- Lesson 4 Fundamental GPU Algorithms (Applications of Sort and Scan)
I. Scan应用--Compact 在介绍这节之前,首先给定一个情景方便理解,就是因为某种原因我们需要从扑克牌中选出方块的牌. 更formal一点的说法如下,输入是 \(s_0,s_1,...\), ...
【Udacity并行计算课程笔记】- Lesson 3 Fundamental GPU Algorithms (Reduce, Scan, Histogram)
本周主要内容如下: 如何分析GPU算法的速度和效率 3个新的基本算法:归约.扫描和直方图(Reduce.Scan.Histogram) 一.评估标准首先介绍用于评估GPU计算的两个标准: ste ...
udacity android 学习笔记: lesson 4 part b
udacity android 学习笔记: lesson 4 part b 作者:干货店打杂的 /titer1 /Archimedes 出处:https://code.csdn.net/titer1 ...
udacity android 实践笔记: lesson 4 part b
udacity android 实践笔记: lesson 4 part b 作者:干货店打杂的 /titer1 /Archimedes 出处:https://code.csdn.net/titer1 ...
udacity android 学习笔记: lesson 4 part a
udacity android 学习笔记: lesson 4 part a 作者:干货店打杂的 /titer1 /Archimedes 出处:https://code.csdn.net/titer1 ...
udacity android 实践笔记: lesson 4 part a
udacity android 实践笔记: lesson 4 part a 作者:干货店打杂的 /titer1 /Archimedes 出处:https://code.csdn.net/titer1 ...

随机推荐

BugPhobia沟通篇章：Solr模式配置与数据导入调研
0x01 :Scrum Meeting特别说明特别说明,考虑到编译原理课程考核的时间安排,每天开发时间急剧缩短以至于难以维系正常的Scrum Meeting,因此,将2015/12/13 00:00 ...
《Linux内核设计与实现》学习记录一
chapter1 Linux内核简介前言:Unix是一个具有相似应用程序编程接口(API)并且基于相似设计理念的操作系统家族. 1.1 Unix的历史 1.Unix演化版实现了任务管理.换页机制.T ...
C++：同名隐藏和赋值兼容规则
一.同名隐藏同名隐藏,即在C++的继承中,只要子类的函数名和父类的函数名相同,子类中的函数将会隐藏所有父类中和子类的成员函数同名的函数特别注意: 和函数之间的重载不同,这里只要求函数的名字相同,而 ...
MySQL中EXPLAIN解释命令查看索引是否生效
explain显示了mysql如何使用索引来处理select语句以及连接表.可以帮助选择更好的索引和写出更优化的查询语句. 使用方法,在select语句前加上explain就可以了: 如: expla ...
MySQL查询优化:LIMIT 1避免全表扫描
在某些情况下,如果明知道查询结果只有一个,SQL语句中使用LIMIT 1会提高查询效率. 例如下面的用户表(主键id,邮箱,密码): create table t_user(id int primar ...
洛谷P4301 [CQOI2013]新Nim游戏
P4301 [CQOI2013]新Nim游戏题目描述传统的Nim游戏是这样的:有一些火柴堆,每堆都有若干根火柴(不同堆的火柴数量可以不同).两个游戏者轮流操作,每次可以选一个火柴堆拿走若干根火柴. ...
Reachability from the Capital CodeForces - 999E(强连通分量缩点入度为0的点)
题意: 问至少加几条边能使点s可以到达所有的点解析: 无向图的连通分量意义就是在这个连通分量里没两个点之间至少有一条可以相互到达的路径所以我们符合这种关系的点放在一起, 由s向这些点的任 ...
psutil库
psutil是一个非常强大的第三方库,用法简单,这里主要是做一下梳理. 先看看官方说明: psutil (python system and process utilities) is a cross ...
E 定向牛客练习赛25
tarjan 父节点和子节点 #include <cstdio> #include <cstdlib> #include <cmath> #include < ...
Linux上设置开机启动Java程序
在Linux上设置开机启动Java程序,例如:test.jar 在Linux上启动Java程序的命令: nohup java -jar test.jar >/dev/>& & ...

【Udacity并行计算课程笔记】- lesson 1 The GPU Programming Model