《GPU高性能编程CUDA实战》第七章纹理内存

▶ 本章介绍了纹理内存的使用，并给出了热传导的两个个例子。分别使用了一维和二维纹理单元。

● 热传导（使用一维纹理）

 #include <stdio.h>

 #include "cuda_runtime.h"

 #include "device_launch_parameters.h"

 #include "D:\Code\CUDA\book\common\book.h"

 #include "D:\Code\CUDA\book\common\cpu_anim.h"

 #define DIM 1024

 #define PI 3.1415926535897932f

 #define MAX_TEMP 1.0f

 #define MIN_TEMP 0.0001f

 #define SPEED   0.25f

 //在全局位置上声明纹理引用，存在于GPU中

 texture<float>  texConstSrc;

 texture<float>  texIn;

 texture<float>  texOut;

 struct DataBlock

 {

     unsigned char   *output_bitmap;

     float           *dev_inSrc;

     float           *dev_outSrc;

     float           *dev_constSrc;

     CPUAnimBitmap  *bitmap;

     cudaEvent_t     start, stop;

     float           totalTime;

     float           frames;

 };

 __global__ void blend_kernel(float *dst, bool dstOut)

 {

     int x = threadIdx.x + blockIdx.x * blockDim.x;

     int y = threadIdx.y + blockIdx.y * blockDim.y;

     int offset = x + y * blockDim.x * gridDim.x;

     int left = offset - ;//找到上下左右的块

     int right = offset + ;

     int top = offset - DIM;

     int bottom = offset + DIM;

     if (x == )

         left++;

     if (x == DIM - )

         right--;

     if (y == )

         top += DIM;

     if (y == DIM - )

         bottom -= DIM;

     float   t, l, c, r, b;

     if (dstOut)

     {

         t = tex1Dfetch(texIn, top);

         l = tex1Dfetch(texIn, left);

         c = tex1Dfetch(texIn, offset);

         r = tex1Dfetch(texIn, right);

         b = tex1Dfetch(texIn, bottom);

     }

     else

     {

         t = tex1Dfetch(texOut, top);

         l = tex1Dfetch(texOut, left);

         c = tex1Dfetch(texOut, offset);

         r = tex1Dfetch(texOut, right);

         b = tex1Dfetch(texOut, bottom);

     }

     dst[offset] = c + SPEED * (t + b + r + l -  * c);

     return;

 }

 __global__ void copy_const_kernel(float *iptr)// 将恒温常量矩阵覆盖输入矩阵

 {

     int x = threadIdx.x + blockIdx.x * blockDim.x;

     int y = threadIdx.y + blockIdx.y * blockDim.y;

     int offset = x + y * blockDim.x * gridDim.x;

     float c = tex1Dfetch(texConstSrc, offset);

     if (c != )

         iptr[offset] = c;

     return;

 }

 void anim_gpu(DataBlock *d, int ticks)

 {

     cudaEventRecord(d->start, );

     dim3    blocks(DIM / , DIM / );

     dim3    threads(, );

     CPUAnimBitmap  *bitmap = d->bitmap;

     volatile bool dstOut = true;//确定输入矩阵是哪一个，true代表dev_inSrc，false代表ev_outSrc

     for (int i = ; i < ; i++)

     {

         float   *in, *out;

         if (dstOut)

         {

             in = d->dev_inSrc;

             out = d->dev_outSrc;

         }

         else

         {

             in = d->dev_outSrc;

             out = d->dev_inSrc;

         }

         copy_const_kernel << < blocks, threads >> > (in);

         blend_kernel << < blocks, threads >> > (out, dstOut);

         dstOut = !dstOut;

     }

     float_to_color << < blocks, threads >> > (d->output_bitmap, d->dev_inSrc);

     cudaMemcpy(bitmap->get_ptr(), d->output_bitmap, bitmap->image_size(), cudaMemcpyDeviceToHost);

     cudaEventRecord(d->stop, );

     cudaEventSynchronize(d->stop);

     float   elapsedTime;

     cudaEventElapsedTime(&elapsedTime, d->start, d->stop);

     d->totalTime += elapsedTime;

     ++d->frames;

     printf("Average Time per frame:  %3.1f ms\n", d->totalTime / d->frames);

 }

 void anim_exit(DataBlock *d)// 收拾申请的内存

 {

     cudaUnbindTexture(texIn);

     cudaUnbindTexture(texOut);

     cudaUnbindTexture(texConstSrc);

     cudaFree(d->dev_inSrc);

     cudaFree(d->dev_outSrc);

     cudaFree(d->dev_constSrc);

     cudaEventDestroy(d->start);

     cudaEventDestroy(d->stop);

     return;

 }

 int main(void)

 {

     DataBlock   data;

     CPUAnimBitmap bitmap(DIM, DIM, &data);

     data.bitmap = &bitmap;

     data.totalTime = ;

     data.frames = ;

     cudaEventCreate(&data.start);

     cudaEventCreate(&data.stop);

     int imageSize = bitmap.image_size();

     cudaMalloc((void**)&data.output_bitmap, imageSize);

     cudaMalloc((void**)&data.dev_inSrc, imageSize);

     cudaMalloc((void**)&data.dev_outSrc, imageSize);

     cudaMalloc((void**)&data.dev_constSrc, imageSize);

     cudaBindTexture(NULL, texConstSrc, data.dev_constSrc, imageSize);//将内存绑定到之前声明的纹理引用中去

     cudaBindTexture(NULL, texIn, data.dev_inSrc, imageSize);

     cudaBindTexture(NULL, texOut, data.dev_outSrc, imageSize);

     float *temp = (float*)malloc(imageSize);

     for (int i = ; i < DIM*DIM; i++)// 恒温格点数据

     {

         temp[i] = ;

         int x = i % DIM;

         int y = i / DIM;

         if ((x >= ) && (x < ) && (y >= ) && (y < ))

             temp[i] = MAX_TEMP;

         if ((x >= ) && (x < ) && (y >= ) && (y < ))

             temp[i] = MIN_TEMP;

     }

     cudaMemcpy(data.dev_constSrc, temp, imageSize, cudaMemcpyHostToDevice);

     for (int i = ; i < DIM*DIM; i++)// 初始温度场数据

     {

         temp[i] = 0.5;

         int x = i % DIM;

         int y = i / DIM;

         if ((x >= ) && (x < ) && (y >= ) && (y < ))

             temp[i] = MAX_TEMP;

     }

     cudaMemcpy(data.dev_inSrc, temp, imageSize, cudaMemcpyHostToDevice);

     free(temp);

     bitmap.anim_and_exit((void(*)(void*, int))anim_gpu, (void(*)(void*))anim_exit);

     getchar();

     return;

 }

● 输出结果（左侧为恒高温，中间为恒低温，右侧为初始高温点）

● 使用一维纹理内存的过程浓缩一下就变成了以下过程

 texture<float>  texSrc;// 在全局位置上声明纹理引用

 float *dev_Src;

 cudaMalloc((void**)&dev_Src, sizeof(float)*DIM);// 申请和绑定纹理内存

 cudaBindTexture(NULL, texSrc, dev_Src, NULL);

 float *temp = (float *)malloc(sizeof(float)*DIM);// 初始化该内存中的内容

 //Initalize data in temp and then free(temp)

 cudaMemcpy(dev_Src, temp, sizeof(float)*DIM, cudaMemcpyHostToDevice);

 //Do something

 cudaUnbindTexture(texSrc);// 解绑和释放内存

 cudaFree(dev_Src);

● 访问纹理内存不用中括号下标，而是

 int x = threadIdx.x + blockIdx.x * blockDim.x;

 int y = threadIdx.y + blockIdx.y * blockDim.y;

 int offset = x + y * blockDim.x * gridDim.x;

 float c = tex1Dfetch(texSrc, offset);

● 热传导（使用二维纹理），输出结果同一维纹理的的情况，速度上没有明显差别

 #include <stdio.h>

 #include "cuda_runtime.h"

 #include "device_launch_parameters.h"

 #include "D:\Code\CUDA\book\common\book.h"

 #include "D:\Code\CUDA\book\common\cpu_anim.h"

 #define DIM 1024

 #define PI 3.1415926535897932f

 #define MAX_TEMP 1.0f

 #define MIN_TEMP 0.0001f

 #define SPEED   0.25f

 texture<float, >  texConstSrc;

 texture<float, >  texIn;

 texture<float, >  texOut;

 struct DataBlock

 {

     unsigned char   *output_bitmap;

     float           *dev_inSrc;

     float           *dev_outSrc;

     float           *dev_constSrc;

     CPUAnimBitmap  *bitmap;

     cudaEvent_t     start, stop;

     float           totalTime;

     float           frames;

 };

 __global__ void blend_kernel(float *dst,bool dstOut)

 {

     int x = threadIdx.x + blockIdx.x * blockDim.x;

     int y = threadIdx.y + blockIdx.y * blockDim.y;

     int offset = x + y * blockDim.x * gridDim.x;

     float   t, l, c, r, b;

     if (dstOut)//不需要自己处理边界情况

     {

         t = tex2D(texIn, x, y - );

         l = tex2D(texIn, x - , y);

         c = tex2D(texIn, x, y);

         r = tex2D(texIn, x + , y);

         b = tex2D(texIn, x, y + );

     }

     else

     {

         t = tex2D(texOut, x, y - );

         l = tex2D(texOut, x - , y);

         c = tex2D(texOut, x, y);

         r = tex2D(texOut, x + , y);

         b = tex2D(texOut, x, y + );

     }

     dst[offset] = c + SPEED * (t + b + r + l -  * c);

     return;

 }

 __global__ void copy_const_kernel(float *iptr)

 {

     // map from threadIdx/BlockIdx to pixel position

     int x = threadIdx.x + blockIdx.x * blockDim.x;

     int y = threadIdx.y + blockIdx.y * blockDim.y;

     int offset = x + y * blockDim.x * gridDim.x;

     float c = tex2D(texConstSrc, x, y);

     if (c != )

         iptr[offset] = c;

     return;

 }

 void anim_gpu(DataBlock *d, int ticks)

 {

     cudaEventRecord(d->start, );

     dim3    blocks(DIM / , DIM / );

     dim3    threads(, );

     CPUAnimBitmap  *bitmap = d->bitmap;

     volatile bool dstOut = true;

     for (int i = ; i < ; i++)

     {

         float   *in, *out;

         if (dstOut) {

             in  = d->dev_inSrc;

             out = d->dev_outSrc;

         }

         else

         {

             out = d->dev_inSrc;

             in  = d->dev_outSrc;

         }

         copy_const_kernel << <blocks, threads >> > (in);

         blend_kernel << <blocks, threads >> > (out, dstOut);

         dstOut = !dstOut;

     }

     float_to_color << <blocks, threads >> > (d->output_bitmap, d->dev_inSrc);

     cudaMemcpy(bitmap->get_ptr(), d->output_bitmap, bitmap->image_size(), cudaMemcpyDeviceToHost);

     cudaEventRecord(d->stop, );

     cudaEventSynchronize(d->stop);

     float   elapsedTime;

     cudaEventElapsedTime(&elapsedTime, d->start, d->stop);

     d->totalTime += elapsedTime;

     ++d->frames;

     printf("Average Time per frame:  %3.1f ms\n", d->totalTime / d->frames);

     return;

 }

 void anim_exit(DataBlock *d)

 {

     cudaUnbindTexture(texIn);

     cudaUnbindTexture(texOut);

     cudaUnbindTexture(texConstSrc);

     cudaFree(d->dev_inSrc);

     cudaFree(d->dev_outSrc);

     cudaFree(d->dev_constSrc);

     cudaEventDestroy(d->start);

     cudaEventDestroy(d->stop);

     return;

 }

 int main(void)

 {

     DataBlock   data;

     CPUAnimBitmap bitmap(DIM, DIM, &data);

     data.bitmap = &bitmap;

     data.totalTime = ;

     data.frames = ;

     cudaEventCreate(&data.start);

     cudaEventCreate(&data.stop);

     int imageSize = bitmap.image_size();

     cudaMalloc((void**)&data.output_bitmap, imageSize);

     cudaMalloc((void**)&data.dev_inSrc, imageSize);

     cudaMalloc((void**)&data.dev_outSrc, imageSize);

     cudaMalloc((void**)&data.dev_constSrc, imageSize);

     cudaChannelFormatDesc desc = cudaCreateChannelDesc<float>();

     cudaBindTexture2D(NULL, texConstSrc, data.dev_constSrc, desc, DIM, DIM, sizeof(float) * DIM);

     cudaBindTexture2D(NULL, texIn, data.dev_inSrc, desc, DIM, DIM, sizeof(float) * DIM);

     cudaBindTexture2D(NULL, texOut, data.dev_outSrc, desc, DIM, DIM, sizeof(float) * DIM); 

     float *temp = (float*)malloc(imageSize);

     for (int i = ; i<DIM*DIM; i++) {

         temp[i] = ;

         int x = i % DIM;

         int y = i / DIM;

         if ((x >= ) && (x < ) && (y >= ) && (y < ))

             temp[i] = MAX_TEMP;

         if ((x >= ) && (x < ) && (y >= ) && (y < ))

             temp[i] = MIN_TEMP;

     }

     cudaMemcpy(data.dev_constSrc, temp, imageSize, cudaMemcpyHostToDevice);

     for (int i = ; i < DIM*DIM; i++)// 初始温度场数据

     {

         temp[i] = 0.5;

         int x = i % DIM;

         int y = i / DIM;

         if ((x >= ) && (x < ) && (y >= ) && (y < ))

             temp[i] = MAX_TEMP;

     }

     cudaMemcpy(data.dev_inSrc, temp, imageSize, cudaMemcpyHostToDevice);

     free(temp);

     bitmap.anim_and_exit((void(*)(void*, int))anim_gpu, (void(*)(void*))anim_exit);

     getchar();

     return ;

 }

● 使用纹理内存的过程浓缩一下就变成了以下过程

 texture<float, >  texSrc;// 在全局位置上声明纹理引用

 float *dev_Src;

 cudaMalloc((void**)&dev_Src, DIM*DIM);// 申请和绑定纹理内存

 cudaChannelFormatDesc desc = cudaCreateChannelDesc<float>();

 cudaBindTexture2D(NULL, texSrc, dev_Src, desc, DIM, DIM, sizeof(float) * DIM*DIM);

 float *temp = (float*)malloc(sizeof(float)*DIM*DIM);// 初始化该内存中的内容

 //Initalize data in temp and then free(temp)

 cudaMemcpy(dev_Src, temp, sizeof(float)*DIM*DIM, cudaMemcpyHostToDevice);

 //Do something

 cudaUnbindTexture(texSrc);// 解绑和释放内存

 cudaFree(dev_Src);

● 访问纹理内存不用中括号下标，而是

 int x = threadIdx.x + blockIdx.x * blockDim.x;

 int y = threadIdx.y + blockIdx.y * blockDim.y;

 float c = tex2D(texSrc, x, y);

《GPU高性能编程CUDA实战》第七章纹理内存的更多相关文章

《GPU高性能编程CUDA实战》第九章原子性
▶ 本章介绍了原子操作,给出了基于原子操作的直方图计算的例子. ● 章节代码 #include <stdio.h> #include "cuda_runtime.h" ...
[问题解决]《GPU高性能编程CUDA实战》中第4章Julia实例“显示器驱动已停止响应，并且已恢复”问题的解决方法
以下问题的出现及解决都基于"WIN7+CUDA7.5". 问题描述:当我编译运行<GPU高性能编程CUDA实战>中第4章所给Julia实例代码时,出现了显示器闪动的现象 ...
《GPU高性能编程CUDA实战》第十一章多GPU系统的CUDA C
▶ 本章介绍了多设备胸膛下的 CUDA 编程,以及一些特殊存储类型对计算速度的影响 ● 显存和零拷贝内存的拷贝与计算对比 #include <stdio.h> #include " ...
《GPU高性能编程CUDA实战》第五章线程并行
▶ 本章介绍了线程并行,并给出四个例子.长向量加法.波纹效果.点积和显示位图. ● 长向量加法(线程块并行 + 线程并行) #include <stdio.h> #include &quo ...
《GPU高性能编程CUDA实战》第四章简单的线程块并行
▶ 本章介绍了线程块并行,并给出两个例子:长向量加法和绘制julia集. ● 长向量加法,中规中矩的GPU加法,包含申请内存和显存,赋值,显存传入,计算,显存传出,处理结果,清理内存和显存.用到了 t ...
《GPU高性能编程CUDA实战》第六章常量内存
▶ 本章介绍了常量内存的使用,并给光线追踪的一个例子.介绍了结构cudaEvent_t及其在计时方面的使用. ● 章节代码,大意是有SPHERES个球分布在原点附近,其球心坐标在每个坐标轴方向上分量绝 ...
《GPU高性能编程CUDA实战》第三章 CUDA设备相关
▶ 这章介绍了与CUDA设备相关的参数,并给出了了若干用于查询参数的函数. ● 代码(已合并) #include <stdio.h> #include "cuda_runtime ...
《GPU高性能编程CUDA实战》附录二散列表
▶ 使用CPU和GPU分别实现散列表 ● CPU方法 #include <stdio.h> #include <time.h> #include "cuda_runt ...

随机推荐

简单介绍Spring的ContextLoaderListener
在开发Spring的Web项目中,通常我们都会在web.xml中配置一个Spring的核心监听器,就是把Spring的IOC容器纳入Servlet容器中,配置如下: <listener> ...
BZOJ3925: [Zjoi2015]地震后的幻想乡【概率期望+状压DP】
Description 傲娇少女幽香是一个很萌很萌的妹子,而且她非常非常地有爱心,很喜欢为幻想乡的人们做一些自己力所能及的事情来帮助他们. 这不,幻想乡突然发生了地震,所有的道路都崩塌了.现在的首要任 ...
【maven】在idea上创建maven多模块项目
参考:https://www.cnblogs.com/wangmingshun/p/6383576.html 一:创建父项目 (1)idea引导页 (2)创建父项目,不需要选择maven插件 (3)完 ...
adnanh webhook 框架 hook 定义
Hook hook 是一个SON对象.钩子对象必须包含id和execute-command属性.所有其他属性都被视为可选. 属性 id - 指定hook的ID.方式格式(http://server:p ...
vulcanjs 开源工具方便快速开发react graphql meteor 应用
vulcan 开源工具方便快速开发react graphql meteor 应用操作环境mac os 安装 meteor 安装(此安装有点慢,可以通过正确上网解决) curl https://ins ...
Oracle 基础知识入门
前记: 近来项目用到Oracle数据库,大学学了点,后面基本忘记得差不多了,虽然基本语法跟sql 差不多,但是oracle知识是非常多的. 这里简单说点基础知识,希望后面补上更多的关于ORacle知识 ...
SocketIOCP
项目地址 : https://github.com/kelin-xycs/SocketIOCP SocketIOCP 一个用 C# Socket 实现的 IOCP 这是一个用 C# Socke ...
Jenkins进阶-Gitlab使用Webhook实现Push代码自动部署(3)
1.Jenkins 安装完成以后,首先我们在Jenkins中需要安装一下,Gitlab Hook Plugin 插件: 2.插件安装完成我们创建任务,在任务重构建触发器下获取回调URL: 注意: 注意 ...
java.lang.BootstrapMethodError: java.lang.NoClassDefFoundError: scala/runtime/java8/JFunction1$mcII$sp
报错信息: Exception in thread "main" java.lang.BootstrapMethodError: java.lang.NoClassDefFound ...
Android getprop setprop watchprops用法
转载请注明出处:https://www.cnblogs.com/lialong1st/p/10172973.html 在安卓系统中,当你写了一个脚本,已经添加到开机启动 init.rc 中,即使脚本中 ...

《GPU高性能编程CUDA实战》第七章 纹理内存

《GPU高性能编程CUDA实战》第七章 纹理内存的更多相关文章

随机推荐

热门专题

《GPU高性能编程CUDA实战》第七章纹理内存

《GPU高性能编程CUDA实战》第七章纹理内存的更多相关文章