http://blog.csdn.net/yutianzuijin/article/details/8147912

分类：编程语言2012-11-05 10:55 2521人阅读评论(0) 收藏举报

最近初试cuda编程，作为一个新手，遇到了各种各样的问题，然后花费了大量时间解决这些匪夷所思的问题。为了避免后来人重蹈覆辙，现把自己遇到的问题总结如下。

（一）、cudaMalloc

初次使用该函数，感觉没有什么困难，和c语言的malloc类似。但是在具体应用中却出了一个很难找的错误，花费了很多时间。该函数使用是需要注意的就是，它分配的内存空间单位是字节，所以需要我们在使用时用sizeof指定具体分配的变量类型，这样才能正确分配空间。例：

cudaMalloc((void**)&gpu_data,sizeof(float)*1024);

（二）、函数的执行位置

cuda程序的一大特色是程序的核心部分在GPU上执行，所以cuda函数就分为不同的类别：host、global、device三类。所以我们在编写函数时一定要分清楚当前正在编写的是哪类函数，可以调用什么库函数。

host函数：在CPU上调用，在CPU上执行，可以调用global函数，不能调用device函数；
global函数：只能在host函数中调用，但是执行是在GPU上执行，例如cudaMalloc之类的内存操作库函数，可以调用device函数；
device函数：只能在GPU上调用和执行，只能被global函数引用。

关于函数类别容易出现的错误就是内存分配时CPU和GPU的混淆。我们只需要记住，在host函数中可以直接使用的内存都是CPU上的内存，GPU上的内存需要通过cudaMemcpy函数调用拷贝到CPU内存空间；在global和device函数中使用的内存都是在GPU内存空间，使用之前需要分配。

（三）、共享内存

共享内存是提升程序性能很重要的一部分，能不能用好共享内存是是否掌握cuda编程的一个重要依据。在此只想强调一点：共享内存没有初始化！下面是自己写的一个数组求和程序，用到了共享内存：

__device__ int count=0;
__global__ static void sum(int* data_gpu,int* block_gpu,int *sum_gpu,int length)
{
extern __shared__ int blocksum[];
__shared__ int islast;
int offset;
const int tid=threadIdx.x;
const int bid=blockIdx.x;
blocksum[tid]=0;
for(int i=bid*THREAD_NUM+tid;i<length;i+=BLOCK_NUM*THREAD_NUM)
{
blocksum[tid]+=data_gpu[i];
}
__syncthreads();
offset=THREAD_NUM/2;
while(offset>0)
{
if(tid<offset)
{
blocksum[tid]+=blocksum[tid+offset];
}
offset>>=1;
__syncthreads();
}
if(tid==0)
{
block_gpu[bid]=blocksum[0];
__threadfence();
int value=atomicAdd(&count,1);
islast=(value==gridDim.x-1);
}
__syncthreads();
if(islast)
{
if(tid==0)
{
int s=0;
for(int i=0;i<BLOCK_NUM;i++)
{
s+=block_gpu[i];
}
*sum_gpu=s;
}
}
}

特别注意第11八行代码，不对要访问的共享内存进行初始化将得不到正确的结果。

（四）、原子函数调用

在调用原子函数时，需要指定当前显卡的计算能力，否则会报错“atomic*** is undefined.”。 linux下解决方案是在编译源代码时为nvcc编译器指定一个计算能力的选项。例如计算能力时1.3，则可以添加参数：-arch sm_13，这样就可以顺利编译。

（五）、CUDA语法

很多参考书都介绍说CUDA采用的是C扩展语法，所以一开始我们很容易认为采用C语法就够了。但是这样也容易让我们陷入一个误区：只能是C语法，而不能是其他。其实CUDA是C和C++的混合体，有时候采用C++的语法会更便利：

for循环内可以定义变量，标准C语言不支持，所以我们可以直接用(for int i=0;i<length;i++)，这样的好处是可以节省一个寄存器；
变量定义位置无限制，可以在任意位置定义变量；
CUDA支持多态，所以我们可以定义多个名称相同，参数不同的函数，这个没有问题；
有时多态可以用模版（template）来合并代码，达到简化编程的目的；

（六）、block和thread号的正确使用

为了调度不同的线程，我们通常需要利用内置变量threadIdx和blockIdx作为循环中的增量。但是切记在循环内部要正确使用内置变量，两天debug的教训！下面是一个示例代码：

__global__ static void saliencefunc(float *peaks_gpu,int *index_gpu,float *saliencebins_gpu,int framenumber)
{
__shared__ float peaks[HALF_PEAK_NUM];
__shared__ int index[HALF_PEAK_NUM];
int tid=threadIdx.x;
int bid=blockIdx.x;
for(int i=bid;i<framenumber;i+=BLOCK_NUM)
{
if(tid<HALF_PEAK_NUM)
{
peaks[tid]=peaks_gpu[HALF_PEAK_NUM*i+tid];
index[tid]=index_gpu[HALF_PEAK_NUM*i+tid];
}
__syncthreads();
}
}

注意代码第十三和十四行的赋值操作HALF_PEAK_NUM*i+tid，笔者之前的写法是HALF_PEAK_NUM*bid+tid，结果花了两天的时间找问题，所以要正确使用，在可以替换的情况下就用i或者j这样的变量，尽量少用内置变量。

（七）、空间释放

在GPU上分配的空间，在使用完成之后要及时释放。对于运行一次的程序，不释放空间没有什么大碍，毕竟程序结束空间自动会被释放掉。但是当程序不间断运行多次的时候，不释放空间会导致非常严重的GPU内存泄露。第一个问题是随着程序的运行，GPU内存耗尽，导致后续内存分配失败；第二个问题是，程序运行会越来越慢。所以我们一定要养成用完及时释放空间的习惯。

CUDA编程常见问题转的更多相关文章

不同版本CUDA编程的问题
1 无法装上CUDA的toolkit 卸载所有的NVIDIA相关的app,包括NVIDIA的显卡驱动,然后重装. 2之前的文件打不开,one or more projects in the solut ...
cuda编程基础
转自: http://blog.csdn.net/augusdi/article/details/12529247 CUDA编程模型 CUDA编程模型将CPU作为主机,GPU作为协处理器(co-pro ...
CUDA学习笔记（一）——CUDA编程模型
转自:http://blog.sina.com.cn/s/blog_48b9e1f90100fm56.html CUDA的代码分成两部分,一部分在host(CPU)上运行,是普通的C代码:另一部分在d ...
CUDA编程
目录: 1.什么是CUDA 2.为什么要用到CUDA 3.CUDA环境搭建 4.第一个CUDA程序 5. CUDA编程 5.1. 基本概念 5.2. 线程层次结构 5.3. 存储器层次结构 5.4. ...
android编程常见问题-程序真机中不显示
新手编程常见问题: 问题表现:连接上手机后,程序不显示解决版本:检查AndroidManifest.xml 文件中SDK版本的设置(要求要兼容当前手机版本系统),如下:
android编程常见问题-程序在模拟器中不显示
新手编程常见问题: 问题表现:程序运行成功,但是在模拟器中不显示解决办法:检查项目版本和模拟器版本是否匹配或兼容,如果不匹配,选择和模拟器版本一致项目版本:右键-Properties-androi ...
CUDA编程－（1）Tesla服务器Kepler架构和万年的HelloWorld
结合CUDA范例精解以及CUDA并行编程.由于正在学习CUDA,CUDA用的比较多,因此翻译一些个人认为重点的章节和句子,作为学习,程序将通过NVIDIA K40服务器得出结果.如果想通过本书进行CU ...
cuda编程（一）
环境安装和例程运行显卡主要有两家,ATI.NVIDIA,简称A卡和N卡.随着GPU计算能力的上升,采用GPU并行计算来加速的应用越来越多. Nvidia创立人之一,黄仁勋(Jen-Hsun Huan ...
CUDA编程入门，Dim3变量
dim3是NVIDIA的CUDA编程中一种自定义的整型向量类型,基于用于指定维度的uint3. 例如:dim3 grid(num1,num2,num3): dim3类型最终设置的是一个三维向量,三维参 ...

随机推荐

python基础之异常处理和logging模块
1.异常处理 l = ['apple','admin','kobe'] for id,item in enumerate(l,1): print(id,item) try: choose_id = i ...
cds view 创建和调用
cds view 是一个core data service, 能够将数据库表虚拟化为一个虚拟表(double).因为各个使用sap的公司,使用的数据库数据是不同的,所以提供一个数据库的虚拟. 通过向 ...
原生侧边栏sidebar
创建侧栏导航 html: <a href="#" class="btn">点我啊</a> <div class="sid ...
MySQL变量的使用
在mysql文档中,mysql变量可分为两大类,即系统变量和用户变量. 但根据实际应用又被细化为四种类型,即局部变量.用户变量.会话变量和全局变量. 一.局部变量 mysql局部变量,只能用在begi ...
133. Clone Graph(图的复制)
Given the head of a graph, return a deep copy (clone) of the graph. Each node in the graph contains ...
Oracle expdp impdp中 exclude/include 的使用
exclude和include参数能够在使用expdp或impdp是对特定的对象或对象类型进行筛选或过滤.比如因工作的需要导出特定的表或不导出特定的表.视图以及存储过程.索引.约束.授权统计信息等等. ...
timer控件、三级联动、帐号激活权限设置
一.Timer控件 Timer实际就是一个线程控件. 属性:Enabled 是否被启用 Interval 多长时间执行一次控件中的代码事件: Tick 事件中放要执行的代码. ...
反向代理&集线器和交换机的区别&广播地址&seq与ack的区别
反向代理服务器: 当一个代理服务器能够代理外部主机访问内部网络时,这种代理服务的方式称为反向代理服务,该服务器被称为反向代理服务器. 集线器与交换机的区别: 集线器和交换机都是起到端口转发的作用,不同 ...
MySQL插入更新_ON DUPLICATE KEY UPDATE
前提:操作的表具有主键或唯一索引 INSERT INTO:表中不存在对应的记录,则插入:若存在对应的记录,则报错: INSERT INTO IGNORE:表中不存在对应的记录,则插入:若存在对应的记录 ...
Redis学习-set数据结构
set 是无序集合,最大可以包含(2 的 32 次方-1)个元素.set 的是通过 hash table 实现的, 所以添加,删除,查找的复杂度都是 O(1) sadd key member 添加一个 ...

CUDA编程常见问题 转

http://blog.csdn.net/yutianzuijin/article/details/8147912

CUDA编程常见问题 转的更多相关文章

随机推荐

热门专题

CUDA编程常见问题转

CUDA编程常见问题转的更多相关文章