《GPU高性能编程CUDA实战》第六章常量内存

▶ 本章介绍了常量内存的使用，并给光线追踪的一个例子。介绍了结构cudaEvent_t及其在计时方面的使用。

● 章节代码，大意是有SPHERES个球分布在原点附近，其球心坐标在每个坐标轴方向上分量绝对值不大于500，其半径介于20到120；观察者（画面平面）位于z正半轴充分远处（z>500），现将所有的球体平行投影到画面平面上，考虑遮挡关系，并考虑球面与画面平面的夹角给球体绘制阴影。使用常量内存时球数组定义在所有函数外部，核函数只需图形参数就够了；不使用常量内存时球数组定义在结构DataBlock内部，核函数需要球数组和图形参数。

 #include <stdio.h>

 #include "cuda_runtime.h"

 #include "device_launch_parameters.h"

 #include "D:\Code\CUDA\book\common\book.h"

 #include "D:\Code\CUDA\book\common\cpu_bitmap.h"

 #define DIM                 1024

 #define rnd( x )            (x * rand() / RAND_MAX)

 #define INF                 2e10f

 #define SPHERES             40

 #define USE_CONSTANT_MEMORY false

 struct Sphere

 {

     float   r, b, g;

     float   radius;

     float   x, y, z;

     __device__ float hit(float ox, float oy, float *n)//计算球体上一点处的法向量n并返回该点到画面平面的距离

     {

         float dx = ox - x;

         float dy = oy - y;

         if (dx*dx + dy*dy < radius*radius)

         {

             float dz = sqrtf(radius*radius - dx*dx - dy*dy);

             *n = dz / sqrtf(radius * radius);//球上该点法向量与画面法向量夹角的余弦值

             return dz + z;

         }

         return -INF;

     }

 };

 #if USE_CONSTANT_MEMORY

 __constant__ Sphere s[SPHERES];

 struct DataBlock

 {

     unsigned char   *dev_bitmap;

 };

 #else

 struct DataBlock

 {

     unsigned char   *dev_bitmap;

     Sphere          *s;

 };

 #endif

 #if USE_CONSTANT_MEMORY

 __global__ void kernel(unsigned char *ptr)

 #else

 __global__ void kernel(Sphere *s, unsigned char *ptr)

 #endif

 {

     int x = threadIdx.x + blockIdx.x * blockDim.x;

     int y = threadIdx.y + blockIdx.y * blockDim.y;

     int offset = x + y * blockDim.x * gridDim.x;

     float   ox = (x - DIM / );

     float   oy = (y - DIM / );

     float   r = , g = , b = ;//计算该像素应该显示什么颜色

     float   maxz = -INF;

     for (int i = ; i<SPHERES; i++)

     {

         float   n;

         float   t = s[i].hit(ox, oy, &n);//o理解成"observation"，即当前线程代表的坐标

         if (t > maxz)//距离画面最近，更新该像素的显示

         {

             float fscale = n;

             r = s[i].r * fscale;

             g = s[i].g * fscale;

             b = s[i].b * fscale;

             maxz = t;

         }

     }

     ptr[offset *  + ] = (int)(r * );

     ptr[offset *  + ] = (int)(g * );

     ptr[offset *  + ] = (int)(b * );

     ptr[offset *  + ] = ;

     return;

 }

 int main(void)

 {

     DataBlock data;

     cudaEvent_t start, stop;// 计时器

     cudaEventCreate(&start);

     cudaEventCreate(&stop);

     cudaEventRecord(start, );

     CPUBitmap bitmap(DIM, DIM, &data);

     unsigned char   *dev_bitmap;

 #if !USE_CONSTANT_MEMORY

     Sphere          *s;

 #endif

     cudaMalloc((void**)&dev_bitmap,bitmap.image_size());

     cudaMalloc((void**)&s,sizeof(Sphere) * SPHERES);

     Sphere *temp_s = (Sphere*)malloc(sizeof(Sphere) * SPHERES);

     for (int i = ; i<SPHERES; i++)

     {

         temp_s[i].r = rnd(1.0f);

         temp_s[i].g = rnd(1.0f);

         temp_s[i].b = rnd(1.0f);

         temp_s[i].x = rnd(1000.0f) - ;

         temp_s[i].y = rnd(1000.0f) - ;

         temp_s[i].z = rnd(1000.0f) - ;

         temp_s[i].radius = rnd(100.0f) + ;

     }

 #if USE_CONSTANT_MEMORY

     cudaMemcpyToSymbol(s, temp_s, sizeof(Sphere) * SPHERES);

     kernel << < dim3(DIM / , DIM / ), dim3(, ) >> > (dev_bitmap);

 #else

     cudaMemcpy(s, temp_s, sizeof(Sphere) * SPHERES, cudaMemcpyHostToDevice);

     kernel << < dim3(DIM / , DIM / ), dim3(, ) >> > (s, dev_bitmap);

 #endif

     cudaMemcpy(bitmap.get_ptr(), dev_bitmap,bitmap.image_size(),cudaMemcpyDeviceToHost);

     cudaEventRecord(stop, );//测量计算耗时

     cudaEventSynchronize(stop);

     float elapsedTime;

     cudaEventElapsedTime(&elapsedTime,start, stop);

     printf("Time to generate:  %3.1f ms\n", elapsedTime);

     cudaEventDestroy(start);

     cudaEventDestroy(stop);

     free(temp_s);

     cudaFree(dev_bitmap);

     cudaFree(s);

     bitmap.display_and_exit();

     getchar();

     return;

 }

● 使用了结构cudaEvent_t用于计时，并介绍了与此相关的时间控制函数，按顺序使用如下。

 cudaEvent_t start, stop;

 cudaEventCreate(&start);

 cudaEventCreate(&stop);

 cudaEventRecord(start, );

 //Do something

 cudaEventRecord(stop, );

 cudaEventSynchronize(stop);

 float elapsedTime;

 cudaEventElapsedTime(&elapsedTime, start, stop);

 cudaEventDestroy(start);

 cudaEventDestroy(stop);

● 使用cudaMemcpyToSymbol()函数复制内存到到常量内存中（可以反向从显存复制到内存中，但由于只读一般没有情况会这样做）。其定义于cuda_runtime.h中

 template<class T>

 static __inline__ __host__ cudaError_t cudaMemcpyToSymbol(

     const T &symbol,

     const void *src,

     size_t count,

     size_t offset = ,

     enum cudaMemcpyKind  kind = cudaMemcpyHostToDevice)

 {

     return ::cudaMemcpyToSymbol((const void*)&symbol, src, count, offset, kind);

 }

《GPU高性能编程CUDA实战》第六章常量内存的更多相关文章

《GPU高性能编程CUDA实战》第九章原子性
▶ 本章介绍了原子操作,给出了基于原子操作的直方图计算的例子. ● 章节代码 #include <stdio.h> #include "cuda_runtime.h" ...
[问题解决]《GPU高性能编程CUDA实战》中第4章Julia实例“显示器驱动已停止响应，并且已恢复”问题的解决方法
以下问题的出现及解决都基于"WIN7+CUDA7.5". 问题描述:当我编译运行<GPU高性能编程CUDA实战>中第4章所给Julia实例代码时,出现了显示器闪动的现象 ...
《GPU高性能编程CUDA实战》第十一章多GPU系统的CUDA C
▶ 本章介绍了多设备胸膛下的 CUDA 编程,以及一些特殊存储类型对计算速度的影响 ● 显存和零拷贝内存的拷贝与计算对比 #include <stdio.h> #include " ...
《GPU高性能编程CUDA实战》第五章线程并行
▶ 本章介绍了线程并行,并给出四个例子.长向量加法.波纹效果.点积和显示位图. ● 长向量加法(线程块并行 + 线程并行) #include <stdio.h> #include &quo ...
《GPU高性能编程CUDA实战》第四章简单的线程块并行
▶ 本章介绍了线程块并行,并给出两个例子:长向量加法和绘制julia集. ● 长向量加法,中规中矩的GPU加法,包含申请内存和显存,赋值,显存传入,计算,显存传出,处理结果,清理内存和显存.用到了 t ...
《GPU高性能编程CUDA实战》第七章纹理内存
▶ 本章介绍了纹理内存的使用,并给出了热传导的两个个例子.分别使用了一维和二维纹理单元. ● 热传导(使用一维纹理) #include <stdio.h> #include "c ...
《GPU高性能编程CUDA实战》第三章 CUDA设备相关
▶ 这章介绍了与CUDA设备相关的参数,并给出了了若干用于查询参数的函数. ● 代码(已合并) #include <stdio.h> #include "cuda_runtime ...
《GPU高性能编程CUDA实战》附录二散列表
▶ 使用CPU和GPU分别实现散列表 ● CPU方法 #include <stdio.h> #include <time.h> #include "cuda_runt ...

随机推荐

Azure PowerShell (16) 并行开关机Azure ARM VM
<Windows Azure Platform 系列文章目录> 并行开机脚本: https://github.com/leizhang1984/AzureChinaPowerShell/b ...
黄聪：jquery.bootgrid表格插件有的属性（visibleInSelection、cssClass、headerCssClass、headerAlign）不能识别的解决办法
主要是属性大小写问题,修改jquery.bootgrid.js文件,在function loadColumns()方法里面添加下面的语句就好了 data.headerAlign = data.head ...
table 设置每列的颜色
ISBN Title Price 3476896 My first HTML $53 5869207 My first CSS $49 <!DOCTYPE html> <html ...
win server 2003 x64　IIS配置
新装IIS第一个报错 The 'Microsoft.Jet.OLEDB.4.0' provider is not registered on the local machine 原因是服务器 IIS ...
Mongodb条件查询Query的用法
Query.All("name", "a", "b");//通过多个元素来匹配数组Query.And(Query.EQ("name ...
spring4.0之八：Groovy DSL
4.0的一个重要特征就是完全支持Groovy,Groovy是Spring主导的一门基于JVM的脚本语言(动态语言).在spring 2.x,脚本语言通过 Java scripting engine在S ...
网站首页多URL可访问，如何集中首页网站权重？
原文地址:http://ask.seowhy.com/question/8573 百度站长平台Lee在文章<建立符合搜索引擎抓取习惯>一文中提出:唯一性网站中同一内容页只与唯一一个url相 ...
给VMware下的Linux扩容磁盘空间到根分区（以centos7.0为例）
一.扩展VMWare硬盘空间关闭Vmware 的 Linux系统,这样,才能在VMWare菜单中设置: VM -> Settings... -> Hardware -> Hard ...
IP段，ASN与BGP之间的关系
概览 IP段就是类似于1.0.2.0-1.0.2.255或者1.0.2.0/24的形式 ASN(Autonomous system number)自治系统编号 BGP(Border Gateway P ...
fragment--的生命周期
官网帮助文档链接: http://developer.Android.com/guide/components/fragments.html 主要看两张图,和跑代码 1,Fragment的生命周: 2 ...

《GPU高性能编程CUDA实战》第六章 常量内存

《GPU高性能编程CUDA实战》第六章 常量内存的更多相关文章

随机推荐

热门专题

《GPU高性能编程CUDA实战》第六章常量内存

《GPU高性能编程CUDA实战》第六章常量内存的更多相关文章