0_Simple__simpleTemplates + 0_Simple__simpleTemplates

使用 C++ 的模板

▶ 源代码：静态使用

 // sharedmem.cuh

 #ifndef _SHAREDMEM_H_

 #define _SHAREDMEM_H_

 // SharedMemory 的封装

 template <typename T> struct SharedMemory

 {

     __device__ T *getPointer()

     {

         extern __device__ void error(void);

         error();

         return NULL;

     }

 };

 // SharedMemory 的各种数据类型的实现

 template <> struct SharedMemory <int>

 {

     __device__ int *getPointer()

     {

         extern __shared__ int s_int[];

         return s_int;

     }

 };

 template <> struct SharedMemory <unsigned int>

 {

     __device__ unsigned int *getPointer()

     {

         extern __shared__ unsigned int s_uint[];

         return s_uint;

     }

 };

 template <> struct SharedMemory <char>

 {

     __device__ char *getPointer()

     {

         extern __shared__ char s_char[];

         return s_char;

     }

 };

 template <> struct SharedMemory <unsigned char>

 {

     __device__ unsigned char *getPointer()

     {

         extern __shared__ unsigned char s_uchar[];

         return s_uchar;

     }

 };

 template <> struct SharedMemory <short>

 {

     __device__ short *getPointer()

     {

         extern __shared__ short s_short[];

         return s_short;

     }

 };

 template <> struct SharedMemory <unsigned short>

 {

     __device__ unsigned short *getPointer()

     {

         extern __shared__ unsigned short s_ushort[];

         return s_ushort;

     }

 };

 template <> struct SharedMemory <long>

 {

     __device__ long *getPointer()

     {

         extern __shared__ long s_long[];

         return s_long;

     }

 };

 template <> struct SharedMemory <unsigned long>

 {

     __device__ unsigned long *getPointer()

     {

         extern __shared__ unsigned long s_ulong[];

         return s_ulong;

     }

 };

 template <> struct SharedMemory <bool>

 {

     __device__ bool *getPointer()

     {

         extern __shared__ bool s_bool[];

         return s_bool;

     }

 };

 template <> struct SharedMemory <float>

 {

     __device__ float *getPointer()

     {

         extern __shared__ float s_float[];

         return s_float;

     }

 };

 template <> struct SharedMemory <double>

 {

     __device__ double *getPointer()

     {

         extern __shared__ double s_double[];

         return s_double;

     }

 };

 #endif

 // simpleTemplates.cu

 #include <stdio.h>

 #include <timer.h>

 #include <cuda_runtime.h>

 #include "device_launch_parameters.h"

 #include <helper_functions.h>

 #include <helper_cuda.h>

 #include "sharedmem.cuh"

 template<class T> __global__ void testKernel(T *g_idata, T *g_odata)

 {

     SharedMemory<T> smem;

     T *sdata = smem.getPointer();

     // 以上两行结合，等效于 extern __shared__  T sdata[];

     const unsigned int tid = threadIdx.x;

     sdata[tid] = g_idata[tid];

     __syncthreads();

     sdata[tid] = (T) blockDim.x * sdata[tid];

     __syncthreads();

     g_odata[tid] = sdata[tid];

 }

 template<class T> void computeGold(T *reference, T *idata, const unsigned int len)// 生成理论结果数据

 {

     const T T_len = static_cast<T>(len);// 强制类型转换（const unsigned int -> T），并加上 const 限定

     for (unsigned int i = ; i < len; ++i)

         reference[i] = idata[i] * T_len;

 }

 // ArrayComparator 的封装

 template<class T> class ArrayComparator

 {

     public:

         bool compare(const T *reference, T *data, unsigned int len)

         {

             fprintf(stderr, "Error: no comparison function implemented for this type\n");

             return false;

         }

 };

 // int 和 flaot 的实现，其中的函数 compareData() 定义于 helper_image.h

 template<> class ArrayComparator<int>

 {

     public:

         bool compare(const int *reference, int *data, unsigned int len) { return compareData(reference, data, len, 0.15f, 0.0f); }

 };

 template<> class ArrayComparator<float>

 {

     public:

         bool compare(const float *reference, float *data, unsigned int len) { return compareData(reference, data, len, 0.15f, 0.15f); }

 };

 // ArrayFileWriter 的封装

 template<class T> class ArrayFileWriter

 {

     public:

         bool write(const char *filename, T *data, unsigned int len, float epsilon)

         {

             fprintf(stderr, "Error: no file write function implemented for this type\n");

             return false;

         }

 };

 // int 和 flaot 的实现，其中的函数 sdkWriteFile() 定义于 helper_image.h

 template<> class ArrayFileWriter<int>

 {

     public:

         bool write(const char *filename, int *data, unsigned int len, float epsilon) { return sdkWriteFile(filename, data, len, epsilon, false); }

 };

 template<> class ArrayFileWriter<float>

 {

     public:

         bool write(const char *filename, float *data, unsigned int len, float epsilon) { return sdkWriteFile(filename, data, len, epsilon, false); }

 };

 template<class T> bool test(int len)

 {

     unsigned int mem_size = sizeof(T) * len;

     dim3  grid(, , );

     dim3  threads(len, , );

     ArrayComparator<T> comparator;

     ArrayFileWriter<T> writer;

     cudaSetDevice();

     StartTimer();

     // 申请内存

     T *h_idata, *h_odata, *d_idata, *d_odata;

     h_idata = (T *)malloc(mem_size);

     h_odata = (T *)malloc(mem_size);

     cudaMalloc((void **)&d_idata, mem_size);

     cudaMalloc((void **)&d_odata, mem_size);

     for (unsigned int i = ; i < len; ++i)

         h_idata[i] = (T) i;

     cudaMemcpy(d_idata, h_idata, mem_size, cudaMemcpyHostToDevice);

     // 计算和计时

     testKernel<T> << < grid, threads, mem_size >> > (d_idata, d_odata);

     cudaMemcpy(h_odata, d_odata, sizeof(T) * len, cudaMemcpyDeviceToHost);

     printf("\n\tProcessing time: %f ms\n", GetTimer());

     // 检查结果

     computeGold<T>(h_idata, h_idata, len);// 生成理论结果数据

     bool result = comparator.compare(h_idata, h_odata, len);

     //writer.write("./data/regression.dat", h_odata, num_threads, 0.0f);// 写入文件的部分

     free(h_idata);

     free(h_odata);

     cudaFree(d_idata);

     cudaFree(d_odata);

     return result;

 }

 int main()

 {

     printf("\n\tStart.\n");

     printf("\n\t> test<float, 32>, result: %s.\n", test<float>() ? "Passed" : "Failed");

     printf("\n\t> test<float, 64>, result: %s.\n", test<float>() ? "Passed" : "Failed");

     getchar();

     return ;

 }

▶ 输出结果：

    Start.

    Processing time: 107.394216 ms

    > test<float, >, result: Passed.

    Processing time: 3.153182 ms

    > test<float, >, result: Passed.

▶ 源代码：使用运行时编译

 // sharedmem.cuh，与静态完全相同

 // simpleTemplates_kernel.cu

 #include "sharedmem.cuh"

 template<class T> __global__ void testKernel(T *g_idata, T *g_odata)

 {

     SharedMemory<T> smem;

     T *sdata = smem.getPointer();

     // 以上两行结合，等效于 extern __shared__  T sdata[];

     const unsigned int tid = threadIdx.x;

     sdata[tid] = g_idata[tid];

     __syncthreads();

     sdata[tid] = (T)blockDim.x * sdata[tid];

     __syncthreads();

     g_odata[tid] = sdata[tid];

 }

 extern "C" __global__ void testFloat(float *p1, float *p2) {  testKernel<float>(p1, p2); }

 extern "C" __global__ void testInt(int *p1, int *p2) {  testKernel<int>(p1, p2); }

 // simpleTemplates.cpp

 #include <stdio.h>

 #include <cuda_runtime.h>

 #include "device_launch_parameters.h"

 #include <helper_functions.h>

 #include <nvrtc_helper.h>

 #include <timer.h>

 template<class T> void computeGold(T *reference, T *idata, const unsigned int len)// 生成理论结果数据

 {

     const T T_len = static_cast<T>(len);// 强制类型转换（const unsigned int -> T），并加上 const 限定

     for (unsigned int i = ; i < len; ++i)

         reference[i] = idata[i] * T_len;

 }

 // ArrayComparator 的封装

 template<class T> class ArrayComparator

 {

 public:

     bool compare(const T *reference, T *data, unsigned int len)

     {

         fprintf(stderr, "Error: no comparison function implemented for this type\n");

         return false;

     }

 };

 // int 和 flaot 的实现，其中的函数 compareData() 定义于 helper_image.h

 template<> class ArrayComparator<int>

 {

 public:

     bool compare(const int *reference, int *data, unsigned int len) { return compareData(reference, data, len, 0.15f, 0.0f); }

 };

 template<> class ArrayComparator<float>

 {

 public:

     bool compare(const float *reference, float *data, unsigned int len) { return compareData(reference, data, len, 0.15f, 0.15f); }

 };

 // ArrayFileWriter 的封装

 template<class T> class ArrayFileWriter

 {

 public:

     bool write(const char *filename, T *data, unsigned int len, float epsilon)

     {

         fprintf(stderr, "Error: no file write function implemented for this type\n");

         return false;

     }

 };

 // int 和 flaot 的实现，其中的函数 sdkWriteFile() 定义于 helper_image.h

 template<> class ArrayFileWriter<int>

 {

 public:

     bool write(const char *filename, int *data, unsigned int len, float epsilon) { return sdkWriteFile(filename, data, len, epsilon, false); }

 };

 template<> class ArrayFileWriter<float>

 {

 public:

     bool write(const char *filename, float *data, unsigned int len, float epsilon) { return sdkWriteFile(filename, data, len, epsilon, false); }

 };

 // getKernel 的模板

 template <typename T> CUfunction getKernel(CUmodule in);

 template<> CUfunction getKernel<int>(CUmodule in)

 {

     CUfunction kernel_addr;

     cuModuleGetFunction(&kernel_addr, in, "testInt");

     return kernel_addr;

 }

 template<> CUfunction getKernel<float>(CUmodule in)

 {

     CUfunction kernel_addr;

     cuModuleGetFunction(&kernel_addr, in, "testFloat");

     return kernel_addr;

 }

 template<class T> bool test(int len)

 {

     // 与静态不同，编译 PTX

     char *kernel_file = "D:\\Program\\CUDA9.0\\Samples\\0_Simple\\simpleTemplates_nvrtc\\simpleTemplates_kernel.cu";

     char *ptx;

     size_t ptxSize;

     compileFileToPTX(kernel_file, , NULL, &ptx, &ptxSize, );  // 1, NULL 分别为 argc 和 argv

     CUmodule module = loadPTX(ptx, , NULL);                    // 1, NULL 分别为 argc 和 argv，有关于 GPU的输出

     unsigned int mem_size = sizeof(T) * len;

     dim3  grid(, , );

     dim3  threads(len, , );

     ArrayComparator<T> comparator;

     ArrayFileWriter<T> writer;

     StartTimer();

     // 申请内存

     T *h_idata, *h_odata;

     CUdeviceptr d_idata, d_odata;                   // 与静态不同

     h_idata = (T *)malloc(mem_size);

     h_odata = (T *)malloc(mem_size);

     cuMemAlloc(&d_idata, mem_size);                 // 与静态不同

     cuMemAlloc(&d_odata, mem_size);

     for (unsigned int i = ; i < len; ++i)

         h_idata[i] = (T)i;

     cuMemcpyHtoD(d_idata, h_idata, mem_size);       // 与静态不同

     // 计算和计时

     CUfunction kernel_addr = getKernel<T>(module);

     void *arr[] = { (void *)&d_idata, (void *)&d_odata };

     cuLaunchKernel(kernel_addr, grid.x, grid.y, grid.z, threads.x, threads.y, threads.z, mem_size, , &arr[], );

     cuCtxSynchronize();                             // 上下文同步

     cuMemcpyDtoH(h_odata, d_odata, sizeof(T) * len);// 与静态不同

     printf("\n\tProcessing time: %f ms\n", GetTimer());

     // 检查结果

     computeGold<T>(h_idata, h_idata, len);// 生成理论结果数据

     bool result = comparator.compare(h_idata, h_odata, len);

     //writer.write("./data/regression.dat", h_odata, len, 0.0f);// 写入文件的部分

     free(h_idata);

     free(h_odata);

     cuMemFree(d_idata);                             // 与静态不同

     cuMemFree(d_odata);

     return result;

 }

 int main()

 {

     printf("\n\tStart.\n");

     printf("\n\t> test<float, 32>, result: %s.\n", test<float>() ? "Passed" : "Failed");

     printf("\n\t> test<int, 64>, result: %s.\n", test<int>() ? "Passed" : "Failed");

     getchar();

     return ;

 }

▶ 输出结果：

    Start.

> Using CUDA Device []: GeForce GTX

> GPU Device has SM 6.1 compute capability

    Processing time: 0.699976 ms

    > test<float, >, result: Passed.

> Using CUDA Device []: GeForce GTX

> GPU Device has SM 6.1 compute capability

    Processing time: 0.665355 ms

    > test<int, >, result: Passed.

▶ 涨姿势

● 封装了 SharedMemory，ArrayComparator，ArrayFileWriter 三个模板，并定义了其在不同的数据类型下的实现。

0_Simple__simpleTemplates + 0_Simple__simpleTemplates_nvrtc的更多相关文章

随机推荐

Let the Balloon Rise map一个数组
Contest time again! How excited it is to see balloons floating around. But to tell you a secret, the ...
什么是PHP无限级分类
注:兄弟连PHP项目视频18讲有详细讲解.PHP和mysql(或是各种数据库)有较深的依奈关系,比如这里就是通过数据库的设计,id,pid(parent id),path(所有父id构成的路径,如W ...
vue组件独享守卫钩子函数参数详解（beforeRouteEnter、beforeRouteUpdate、beforeRouteLeave）
一样的和前面路由钩子类似的步骤首先在demo下面的components下面新建一个test.vue组件 test组件代码 <template> <div class="t ...
List和json数组的转换（赋源代码）
public class a11111111 { //参数obj可以是 json对象,字符串, list public static void fun(Object obj){ JSONArray d ...
SVN服务器搭建和使用（四）
在第一次使用TortoiseSVN从服务器CheckOut的时候,会要求输入用户名和密码,这时输入框下面有个选项是保存认证信息,如果选了这个选项,那么以后就不用每次都输入一遍用户名密码了. 不过,如果 ...
maven学习--进阶篇
2016-01-06 02:34:24 继承与聚合 (八)maven移植讲到maven移植,大家可能第一反应就是是指将一个java项目部署到不同的环境中去,实际上,在maven中,它认为当你参加一个 ...
nyoj 某种序列
某种序列时间限制:3000 ms | 内存限制:65535 KB 难度:4 描述数列A满足An = An-1 + An-2 + An-3, n >= 3 编写程序,给定A0, A1 ...
EF Codefirst方式数据库维护操作
关于EF codefirst方式数据库维护操作 1.数据实体更新 2.打开pm - 锁定项目:MLearning.Data 3.执行命令 : add-migration [名称] 4.检查无误后,执行 ...
MapReduce-皮尔逊（Pearson）线性相关
Pearson相关系数解决了两个群的数据是否线性相关的问题: 先补充一下基本概念: 协方差:如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之 ...
SQL Server Reporting Service 报错：报表服务器无法解密用于访问报表服务器数据库中的敏感数据或加密数据的对称密钥，必须还原备份密钥或删除所有加密的内容。
出现这个问题,可以通过reporting services 配置管理工具来处理首先,打开配置管理工具,连接. 在左侧的导航选项中选择Encryption Keys,将出现如图所示的界面,在右侧点击d ...

0_Simple__simpleTemplates + 0_Simple__simpleTemplates_nvrtc

0_Simple__simpleTemplates + 0_Simple__simpleTemplates_nvrtc的更多相关文章

随机推荐

热门专题