cuda中模板的使用

模板是C++的一个重要特征，它可以让我们简化代码，同时使代码更整洁。CUDA中也支持模板，这给我们编写cuda程序带来了方便。不过cuda4.0之前和之后使用模板的方法不一样，这给我们带来了少许困难。在cuda4.0之前，模板的使用和C++中无区别，使用非常方便，在此不做过多介绍。不过在cuda4.0之后，由于编译器的升级，导致之前的模板使用方法不再有效，我们需要重新设计代码。

如果按照之前的方式编写代码，如下面简单示例：

template <type T>

__global__ void foo(T *odata, T* idata)

{

    extern __shared__ T sdata[];

    // ... do stuff with odata, idata, and sdata

}

	foo<int><<<blocks, threads, mem>>>(d_odata, d_idata);

	foo<float><<<blocks, threads, mem>>>(d_odata, d_idata);

编译之后会遇到下述错误：“declaration is incompatible with previous "sdata" (declared at line 3)extern __declspec(__shared__) T sdata[];”。原因就是在编译的时候，cuda会为上述两次调用生成相同的代码，因而会出现变量重复定义的问题。

解决方法如下：将模板类实例化。首先新建一个头文件，SharedMem.h，内容如下：

#include <cutil_inline.h>

template <class T>

class SharedMem

{

public:

    T* getPointer() { return NULL; };

};

// specialization for int

template <>

class SharedMem <int>

{

public:

    __device__ int* getPointer() { extern __shared__ int s_int[]; return s_int; }

};

// specialization for float

template <>

class SharedMem <float>

{

public:

    __device__ float* getPointer() { extern __shared__ float s_float[]; return s_float; }

};

上述代码实际上就是将定义共享内存的代码单独拿出来，然后放在类中实现。上述代码需要注意以下几个方面：

1. 因为在定义共享内存时用到关键字__shared__，所以我们要将函数定义成cuda函数。在函数前面需要加相应关键字，但不能是__global__，因为它要求返回void类型，所以只能是__device__；

2. 包含cuda程序相应的头文件，否则编译不通过；

完成上述头文件的编写，在具体调用过程中代码如下：

template<class T>

__global__ void foo( T* g_idata, T* g_odata)

{

    // shared memory the size is determined by the host application

    SharedMem<T> shared;

    T* sdata = shared.getPointer();

    // .. the rest of the code remains unchanged!

}

这样我们就可以在cuda中正常使用模板了。

参考网页：

1. cuda中应用模板函数

2. simpleTemplates

cuda中模板的使用的更多相关文章

CUDA中关于C++特性的限制
CUDA中关于C++特性的限制 CUDA官方文档中对C++语言的支持和限制,懒得每次看英文文档,自己尝试翻译一下(没有放lambda表达式的相关内容,太过于复杂,我选择不用).官方文档https:// ...
tornado学习笔记11 Web应用中模板（Template）使用应用实践
上一篇中(Web应用中模板的工作流程分析),已经分析了模板的渲染流程,以及相关参数获取及设置原理.这篇主要讲述模板在实际应用案例. 11.1 需求根据用户输入的两次密码,判断两次密码是否一致,并将判 ...
wpf 获取datagrid中模板中控件
//获取name为datagrid中第三列第一行模板的控件 FrameworkElement item = dataGrid.Columns[].GetCellContent(dataGrid.Ite ...
CUDA中并行规约（Parallel Reduction）的优化
转自: http://hackecho.com/2013/04/cuda-parallel-reduction/ Parallel Reduction是NVIDIA-CUDA自带的例子,也几乎是所有C ...
cuda中时间用法
转载:http://blog.csdn.net/jdhanhua/article/details/4843653 在CUDA中统计运算时间,大致有三种方法: <1>使用cutil.h中的函 ...
OpenCV二维Mat数组（二级指针）在CUDA中的使用
CUDA用于并行计算非常方便,但是GPU与CPU之间的交互,比如传递参数等相对麻烦一些.在写CUDA核函数的时候形参往往会有很多个,动辄达到10-20个,如果能够在CPU中提前把数据组织好,比如使用二 ...
c++中模板是什么？为什么要定义模板？
一.c++中模板是什么? 首先: int Max(int x, int y) { return x > y ? x : y; } float Max(float a,float b) { ret ...
多个so中模板单例的多次实例化
在Android打包项目时,发现登录功能不能使用了,logcat中也没发现什么问题,最后一行一行log定位到了问题.原来是一个so文件中的构造函数被初始化二次! 这个单例是通过继承模板来实现的(暂 ...
Django项目中模板标签及模板的继承与引用【网站中快速布置广告】
Django项目中模板标签及模板的继承与引用常见模板标签 {% static %} {% for x in range(x) %}{% endfor %} 循环的序号{% forloop %} 循环 ...

随机推荐

Docker实例：创建一个点到点连接
默认情况下,Docker 会将所有容器连接到由 docker0 提供的虚拟子网中. 用户有时候需要两个容器之间可以直连通信,而不用通过主机网桥进行桥接. 解决办法很简单:创建一对 peer 接口,分别 ...
无法启动postgresql的错误
chown postgres /etc/ssl/private/ssl-cert-snakeoil.key chgrp postgres /etc/ssl/private/ssl-cert-snake ...
Why Doesn't Python Have Switch/Case?
Why Doesn't Python Have Switch/Case? Tuesday, June 09, 2015 (permalink) Unlike every other programmi ...
Ajax 异步加载
AJAX (Asynchronous JavaScript and XML,异步的 JavaScript 和 XML).它不是新的编程语言,而是一种使用现有标准的新方法,是在不重新加载整个页面的情况下 ...
开源框架Volley的使用《二》[NetWorkImageView&&LruCache&ImageLoader]
转载本专栏每一篇博客请注明转载出处地址,尊重原创.此博客转载链接地址:小杨的博客 http://blog.csdn.net/qq_32059827/article/details/5278849 ...
Java线程状态
线程跟人类一样拥有自己的生命周期,一条线程从创建到执行完毕的过程即是线程的生命周期,此过程可能在不同时刻处于不同的状态,线程状态正是这小节的主题,线程到底有多少种状态?不同状态之间是如何转化的? 对于 ...
[struts2学习笔记] 第六节 struts2依赖的jar包还有Could not find action or result 错误解决
本文地址:http://blog.csdn.net/sushengmiyan/article/details/43272061 本文作者:sushengmiyan ------------------ ...
Springmvc注解注入的简单demo
今天看了注解注入觉得确实简化了xml配置,一般情况下Spring容器要成功启动的三大要件分别是:Bean定义信息,Bean实现类,以及spring本身.如果采取基于XML的配置,Bean信息和Bean ...
剑指Offer——分治算法
剑指Offer--分治算法基本概念在计算机科学中,分治法是一种很重要的算法.字面上的解释是"分而治之",就是把一个复杂的问题分成两个或更多的相同或相似的子问题,再把子问题分成更 ...
iOS10软件崩溃 Xcode8崩溃打印／字体等问题汇总韩俊强的博客
每日更新关注:http://weibo.com/hanjunqiang 新浪微博!iOS开发者交流QQ群: 446310206 [1].Xcode8代码出现ubsystem: com.apple.U ...

cuda中模板的使用

cuda中模板的使用的更多相关文章

随机推荐

热门专题