『CUDA C编程权威指南』第二章编程题选做

第一题

设置线程块中线程数为1024效果优于设置为1023，且提升明显，不过原因未知，以后章节看看能不能回答。

第二题

参考文件sumArraysOnGPUtimer.cu，设置block=256，新建内核，使每个线程处理两个元素。

思路很简单，将数据的虚拟内存对半分为高低两块，每一内核线程同时处理两个索引区域序列相同的数据即可：

# include <cuda_runtime.h>

# include <stdio.h>

# include <sys/time.h>

# include "common.h"

__global__ void sumArraysOnGPU(float *A, float *B, float *C, const int N)

{

    int i = blockIdx.x * blockDim.x + threadIdx.x;

    if (i < N/2) {

    	C[i] = A[i] + B[i];

    	C[i+N/2] = A[i+N/2] + B[i+N/2];

    }

}

int main(int argc, char **argv)

{

    printf("%s Starting...\n", argv[0]);

    // set up device

    int dev = 0;

    cudaDeviceProp deviceProp;

    CHECK(cudaGetDeviceProperties(&deviceProp, dev));

    printf("Using Device %d: %s\n", dev, deviceProp.name);

    CHECK(cudaSetDevice(dev));

    // set up data size of vectors

    int nElem = 1 << 24;

    printf("Vector size %d\n", nElem);

    // malloc host memory

    size_t nBytes = nElem * sizeof(float);

    float *h_A, *h_B, *hostRef, *gpuRef;

    h_A     = (float *)malloc(nBytes);

    h_B     = (float *)malloc(nBytes);

    hostRef = (float *)malloc(nBytes);

    gpuRef  = (float *)malloc(nBytes);

    double iStart, iElaps;

    // initialize data at host side

    iStart = cpuSecond();

    initialData(h_A, nElem);

    initialData(h_B, nElem);

    iElaps = cpuSecond() - iStart;

    printf("initialData Time elapsed %f sec\n", iElaps);

    memset(hostRef, 0, nBytes);

    memset(gpuRef,  0, nBytes);

    // add vector at host side for result checks

    iStart = cpuSecond();

    sumArraysOnHost(h_A, h_B, hostRef, nElem);

    iElaps = cpuSecond() - iStart;

    printf("sumArraysOnHost Time elapsed %f sec\n", iElaps);

    // malloc device global memory

    float *d_A, *d_B, *d_C;

    CHECK(cudaMalloc((float**)&d_A, nBytes));

    CHECK(cudaMalloc((float**)&d_B, nBytes));

    CHECK(cudaMalloc((float**)&d_C, nBytes));

    // transfer data from host to device

    CHECK(cudaMemcpy(d_A, h_A, nBytes, cudaMemcpyHostToDevice));

    CHECK(cudaMemcpy(d_B, h_B, nBytes, cudaMemcpyHostToDevice));

    CHECK(cudaMemcpy(d_C, gpuRef, nBytes, cudaMemcpyHostToDevice));

    // invoke kernel at host side

    int iLen = 512;

    dim3 block (iLen);

    dim3 grid  ((nElem + block.x - 1) / block.x / 2);

    // <<<  16384, 512  >>>  Time elapsed 0.000747 sec

    // <<<  32768, 512  >>>  Time elapsed  0.000709 sec

    iStart = cpuSecond();

    sumArraysOnGPU<<<grid, block>>>(d_A, d_B, d_C, nElem);

    CHECK(cudaDeviceSynchronize());

    iElaps = cpuSecond() - iStart;

    printf("sumArraysOnGPU <<<  %d, %d  >>>  Time elapsed %f sec\n", grid.x,

           block.x, iElaps);

    // check kernel error

    // CHECK(cudaGetLastError()) ;

    // copy kernel result back to host side

    CHECK(cudaMemcpy(gpuRef, d_C, nBytes, cudaMemcpyDeviceToHost));

    // check device results

    checkResult(hostRef, gpuRef, nElem);

    // free device global memory

    CHECK(cudaFree(d_A));

    CHECK(cudaFree(d_B));

    CHECK(cudaFree(d_C));

    // free host memory

    free(h_A);

    free(h_B);

    free(hostRef);

    free(gpuRef);

    return(0);

}

第四题

参考文件sumMatrixOnGPU-2D-gril-1D-block.cu，新建内核，使每个线程处理两个元素。

思路同上，由于是二维索引，所以采取的划分是按照纵坐标y将数据对半划分，可以直观理解为沿着y/2将数据对折，然后同一个线程处理数据为两个块中对应位置即可：

# include <cuda_runtime.h>

# include <stdio.h>

# include <sys/time.h>

# include "common.h"

// grid 2D block 1D

__global__ void sumMatrixsOnGPUMix(float *MatA, float *MatB, float *MatC,

	int nx, int ny)

{

    int ix = threadIdx.x + blockIdx.x * blockDim.x;

    int iy = blockIdx.y;

    int idx = iy * nx + ix;

    if (ix < nx && iy < ny/2) {

        MatC[idx] = MatA[idx] + MatB[idx];

    	MatC[idx + nx*ny/2] = MatA[idx + nx*ny/2] + MatB[idx + nx*ny/2];

    }

}

int main(int argc, char **argv){

	printf("%s Startin... \n", argv[0]);

	//set up device

	int dev = 0;

	cudaDeviceProp deviceProp;

	CHECK(cudaGetDeviceProperties(&deviceProp, dev));

	printf("Using Device %d: %s\n", dev, deviceProp.name);

	CHECK(cudaSetDevice(dev));

	// matrix size

	int nx = 1<<13;

	int ny = 1<<5;  // 2**18

	int nxy = nx * ny;

	int nBytes = nxy * sizeof(float);

	printf("Matrix size:nx %d, ny %d\n", nx, ny);

	float *h_A, *h_B, *hostRef, *gpuRef;

	h_A = (float *)malloc(nBytes);

	h_B = (float *)malloc(nBytes);

	hostRef = (float *)malloc(nBytes);

	gpuRef = (float *)malloc(nBytes);

	// initialize data at host side

	double iStart, iElaps;

	iStart = cpuSecond();

	initialData(h_A, nxy);

	initialData(h_B, nxy);

	iElaps = cpuSecond() - iStart;

	memset(hostRef, 0, nBytes);

	memset(gpuRef, 0, nBytes);

	iStart = cpuSecond();

	sumMatrixsOnHost(h_A, h_B, hostRef, nx, ny);

	iElaps = cpuSecond() - iStart;

	// malloc device global memory

	float *d_MatA, *d_MatB, *d_MatC;

	cudaMalloc((float **)&d_MatA, nBytes);

	cudaMalloc((float **)&d_MatB, nBytes);

	cudaMalloc((float **)&d_MatC, nBytes);

	// transfer data from host to device

	cudaMemcpy(d_MatA, h_A, nBytes, cudaMemcpyHostToDevice);

	cudaMemcpy(d_MatB, h_B, nBytes, cudaMemcpyHostToDevice);

	// invoke kernel at host to device

	dim3 block (256);  // 2维块设置

	dim3 grid ((nx+block.x-1)/block.x, ny/2);  // 2维网格设置

	/*

	<<<(1024, 16384), (16, 1)>>> Time elapsed 0.021947sec

	<<<(512, 16384), (32, 1)>>> Time elapsed  0.011039sec

	<<<(64, 16384), (256, 1)>>> Time elapsed  0.009063sec

	*/

	iStart = cpuSecond();

	sumMatrixsOnGPUMix<<<grid, block>>>(d_MatA, d_MatB, d_MatC, nx, ny);

	cudaDeviceSynchronize();  // 测试用，同步线程，实际无需等待子线程

	iElaps = cpuSecond() - iStart;

	printf("sumArraysOnGPU <<<(%d, %d), (%d, %d)>>> Time elapsed %f" \

		   "sec\n", grid.x, grid.y, block.x, block.y, iElaps);

	cudaMemcpy(gpuRef, d_MatC, nBytes, cudaMemcpyDeviceToHost);

	checkResult(hostRef, gpuRef, nxy);

	// free device global memory

	cudaFree(d_MatA);

	cudaFree(d_MatB);

	cudaFree(d_MatC);

	// free host memory

	free(h_A);

	free(h_B);

	free(hostRef);

	free(gpuRef);

	// reset device

	cudaDeviceReset();

	return 0;

}

运行结果如下：

附common.h文件

# include <cuda_runtime.h>

# include <stdio.h>

# include <sys/time.h>

# define CHECK(call)                                                           \

{                                                                              \

    const cudaError_t error = call;                                            \

    if (error != cudaSuccess)                                                  \

    {                                                                          \

        fprintf(stderr, "Error: %s:%d, ", __FILE__, __LINE__);                 \

        fprintf(stderr, "code: %d, reason: %s\n", error,                       \

                cudaGetErrorString(error));                                    \

        exit(1);                                                               \

    }                                                                          \

}

void initialData(float *ip, int size)

{

	time_t t;

	srand((unsigned int) time(&t));

	for (int i=0; i<size; i++)

	{

		ip[i] = (float)(rand() & 0xFF)/10.0f;

	}

}

double cpuSecond() {

	struct timeval tp;

	gettimeofday(&tp, NULL);

	return ((double)tp.tv_sec + (double)tp.tv_usec*1.e-6);

}

void checkResult(float *hostRef, float *gpuRef, const int N) {

	double epsilon = 1.0E-8;

	bool match = 1;

	for (int i=0; i<N; i++) {

		if (abs(hostRef[i] - gpuRef[i]) > epsilon) {

			match = 0;

			printf("Arrays do not match!\n");

			printf("host %5.2f gpu %5.2f at current %d\n",

				hostRef[i], gpuRef[i], i);

			break;

		}

	}

	if (match) printf("Arrays match.\n\n");

}

void sumArraysOnHost(float *A, float *B, float *C, const int N) {

	for (int idx=0; idx<N; idx++)

		C[idx] = A[idx] + B[idx];

}

void sumMatrixsOnHost(float *A, float *B, float *C, const int nx, const int ny){

	float *ia = A;

	float *ib = B;

	float *ic = C;

	for (int iy=0; iy<ny; iy++){

		for (int ix=0; ix<nx; ix++){

			ic[ix] = ia[ix] + ib[ix];

		}

		ia += nx;

		ib += nx;

		ic += nx;

	}

}

『CUDA C编程权威指南』第二章编程题选做的更多相关文章

HTTP权威指南：第二章
URL概览前面提到,URL资源是HTTP协议所使用的寻找资源位置的定位符.分为三个部分,主要的结构是: 方案://服务器/路径这种结构使得网络上的每一个资源都只有唯一的命名方法,从而使得浏览器可以 ...
【HTTP权威指南】第二章-URL与资源
[统一资源定位符URL]通过位置来标示资源,其表达的格式如下:https://item.jd.com/523961.html 第一部分(https)是方案,告知客户端要[怎样访问],这里使用的是htt ...
读《Android编程权威指南》
因为去年双十二购买了一折的<Android 编程权威指南(第一版)>,在第二版出来后图灵社区给我推送了第二版的优惠码,激动之余就立马下单购买电子书,不得不说Big Nerd Ranch G ...
《Android编程权威指南》
<Android编程权威指南> 基本信息原书名:Android programming: the big nerd ranch guide 原出版社: Big Nerd Ranch Gu ...
Android编程权威指南第三版第32章
版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/qq_35564145/article/de ...
Swift编程权威指南第2版读后收获
自从参加工作一直在用OC做iOS开发.在2015年的时候苹果刚推出swift1.0不久,当时毕竟是新推出的语言,大家也都很有激情的学习.不过在学完后发现很难在实际项目中使用,再加上当时公司项目都是基于 ...
《Android编程权威指南》PhotoGallery应用梳理
PhotoGalley是<Android编程权威指南>书中另外一个重要的应用.
《Android编程权威指南》CriminalIntent项目梳理
相信很多新手或者初级开发人员都已经买了第2版的<Android编程权威指南>, 这本书基于Android Studio开发,对入门人员来说是很好的选择,但是很可惜的是, 在完成一个项目后, ...
使用最新AndroidStudio编写Android编程权威指南（第3版）中的代码会遇到的一些问题
Android编程权威指南(第3版)这本书是基于Android7.0的,到如今已经过于古老,最新的Android版本已经到10,而这本书的第四版目前还没有正式发售,在最近阅读这本书时,我发现这本书的部 ...

随机推荐

LuoguP1041 传染病控制
题目地址题目链接题解这里讲一个非正解--贪心+随机化. 贪心的想法是什么? 我们dfs一遍处理出每个节点子树内的节点数量,记为$siz$. 贪心的砍掉$siz$最大的那个子树,在树的形态 ...
js变量按照存储方式区分，有哪些类型，并表述其特点
// 值类型拷贝形式不像引用类型是指针指向,共用空间值类型有 undefined string number Boolean var a = 100; var b = a; var a = 20 ...
Leetcode121-Best Time to Buy and Sell Stock I - Easy
I Say you have an array for which the ith element is the price of a given stock on day i. If you wer ...
c#四舍五入取整
Math.Round(3.45, 0, MidpointRounding.AwayFromZero) 上取整或下取整 Math.Ceiling(3.1)=4; Math.Floor(3.9)=3;
TCGA收官之作—27篇重磅文献绘制“泛癌图谱”
TCGA的关键数字:图片来源<细胞> 由美国政府发起的癌症和肿瘤基因图谱(Cancer Genome Atlas,TCGA)计划于2006年联合启动,目前已经收录了来自1万多例病人的33种 ...
Codeforces 765 E. Tree Folding
题目链接:http://codeforces.com/problemset/problem/765/E $DFS子$树进行$DP$ 大概分以下几种情况: 1.为叶子,直接返回. 2.长度不同的路径长度 ...
切片对象的demo
a = slice(, ) s = 'HelloWorld' print(a.indices(len(s))) for i in range(*a.indices(len(s))): print(s[ ...
http与https的区别以及https如何保证数据传输安全
http是应用层协议,它会将要传输的数据以明文的方式给传输层,这样显然不安全.https则是在应用层与传输层之间又加了一层,该层遵守SSL/TLS协议,用于数据加密. **加密的方式有两种: 对称加密 ...
Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 FMA
解决方法: 如果安装的是GPU版本如果你有一个GPU,你不应该关心AVX的支持,因为大多数昂贵的操作将被分派到一个GPU设备上(除非明确地设置).在这种情况下,您可以简单地忽略此警告: import ...
java高并发解决方案
高并发的解决方法有两种: 1.使用缓存 2.使用生成静态页面: (代码质量,不要性能低下的sql和代码.有的一条sql搞定的事,有人用了多个循环才能搞定.取决于程序员的经验!(还有就是从最基础的地方优 ...

『CUDA C编程权威指南』第二章编程题选做

第一题

第二题

第四题

附common.h文件

『CUDA C编程权威指南』第二章编程题选做的更多相关文章

随机推荐

热门专题