CUDA 编程实例:计算点云法线

程序参考文章：http://blog.csdn.net/gamesdev/article/details/17535755 程序优化2

简介：CUDA ，MPI，Hadoop都是并行运算的工具。CUDA是基于NVIDIA GPU芯片计算。

阐述：GPU有很多个核(几百个)，每个核可以跑一个线程，多个线程组成一个单位叫做块。

举个例子：

有三个向量 int a, b, c; 我们要计算a和b的向量之和存放到c中。

一般C语言：for(int i=0; i<10; i++) c = a + b; 这个程序是顺序执行的！

CUDA编程做法：

GPU中的每个线程(核)有一个独立序号叫index，那么只要序号从0到9的线程执行c[index] = a[index] + b[index]; 就可以实现以上的for循环。

GPU的可贵之处就是，可以并发运行多个线程，相当于一个时间内赋值10次。

////////////////////////

cuda.cu

////////////////////////

#include <stdio.h>

#include <cuda_runtime.h>

//运行在GPU

__global__ void vectorADD(int* a, int* b, int* c)

{

     int index = threadIdx.x; //获得当前线程的序号

     if(index < blockDim.x)

         c = a + b;

}

int main ()

{

        //定义10个GPU运算线程

        int N = 10;

        // 本地开辟三个数组存放我们要计算的内容

        int* h_a = (int*) malloc (N * sizeof(int));

        int* h_b = (int*) malloc (N * sizeof(int));

        int* h_c = (int*) malloc (N * sizeof(int));

        // 初始化数组A, B和C

        for(int i=0; i<N; i++) {

                h_a = i;

                h_b = i;

                h_c = 0;

        }

        // 计算10个int型需要的空间

        int size = N * sizeof(int);

        // 在GPU上分配同样大小的三个数组

        int* d_a;

        int* d_b;

        int* d_c;

        cudaMalloc((void**)&d_a, size);

        cudaMalloc((void**)&d_b, size);

        cudaMalloc((void**)&d_c, size);

        // 把本地的数组拷贝进GPU内存

        cudaMemcpy(d_a, h_a, size, cudaMemcpyHostToDevice);

        cudaMemcpy(d_b, h_b, size, cudaMemcpyHostToDevice);

        cudaMemcpy(d_c, h_c, size, cudaMemcpyHostToDevice);

        // 定义一个GPU运算块 由 10个运算线程组成

        dim3 DimBlock = N;

        // 通知GPU用10个线程执行函数vectorADD

        vectorADD<<<1, DimBlock>>>(d_a, d_b, d_c);

        //  将GPU运算完的结果复制回本地

        cudaMemcpy(h_c, d_c, size, cudaMemcpyDeviceToHost);

        // 释放GPU的内存

        cudaFree(d_a);

        cudaFree(d_b);

        cudaFree(d_c);

        //  验证计算结果

        for(int j=0; j<N; j++)

                printf("%d ", h_c);

        printf("\n");

}

警告！：这个例子是编译不通过的；

首先：对 threadidx的使用，只能在CU文件里面；

其次：在cu文件里初始化数组是错误的： int * a ； a = new int [x]；是错误的；并且 malloc也是不可以的；

再者：文件路径里面不能包含中文，否则会出现 MSB8791 这种错误！

2. 利用CUDA并行计算点云法线

两个函数都存在于CU文件里! 通过外部CPP文件函数进行调用

void normalEstimate(

    pcl::PointCloud<pcl::PointXYZRGB> &input ,

    pcl::PointCloud<pcl::PointXYZRGB> &output,

    int  k_,

    float search_parameter_,

    int THREAD_NUM

    )

//运行在GPU//cal the Normal

__global__ void normalEstimateSingle(pcl::PointCloud<pcl::PointXYZRGB> &input ,pcl::PointCloud<pcl::PointXYZRGB> &output, int* nn_indices ,int*   nn_dists, int Gap, float search_parameter_)

{

    const size_t computeSize =input.size() / Gap;

    const size_t tID = size_t(threadIdx.x );

    int Mark;

    clock_t startTime; // 开始计时

    if ( tID == 0 ) startTime =clock( );// 选择任意一个线程进行计时

    //Thread loop!//循环发现邻域！寻找法线！

    for ( size_t idx = tID *computeSize; idx < ( tID + 1 ) * computeSize && idx < input.size(); ++idx )  {

      // pOut[threadIdx.x] += pIn[i] * pIn[i];

       Mark = pcl::searchForNeighbors (idx, search_parameter_, nn_indices, nn_dists);//对第IDX个建立索引!

       if (Mark == 0){

                output.points[idx].normal[0] = output.points[idx].normal[1] = output.points[idx].normal[2] = output.points[idx].curvature = std::numeric_limits<float>::quiet_NaN ();

                continue;

            }

       else {

                if (!isFinite (input[idx]) || Mark == 0){

                    output.points[idx].normal[0] = output.points[idx].normal[1] = output.points[idx].normal[2] = output.points[idx].curvature = std::numeric_limits<float>::quiet_NaN ();

                    continue;

                }

            }

       pcl::computePointNormal (input, nn_indices,output.points[idx].normal[0], output.points[idx].normal[1], output.points[idx].normal[2], output.points[idx].curvature);

       pcl::flipNormalTowardsViewpoint (input_->points[idx], vpx_, vpy_, vpz_,

       output.points[idx].normal[0], output.points[idx].normal[1], output.points[idx].normal[2]);

    }

    if ( tID == 0 ) *pElapsed =clock( ) - startTime;// 结束计时，返回至主程序

}

//运行在CPU端！

// as the input

extern "C" void normalEstimate(

    pcl::PointCloud<pcl::PointXYZRGB> &input ,

    pcl::PointCloud<pcl::PointXYZRGB> &output,

    int  k_,

    float search_parameter_,

    int THREAD_NUM

    )

{

     // 在GPU上分配同样大小的三个数组

      pcl::PointCloud<pcl::PointXYZRGB> &inputX ;

      pcl::PointCloud<pcl::PointXYZRGB> &outputX;

       int* nn_indices ;

       int*   nn_dists;

    // 1、设置设备

    cudaError_t cudaStatus = cudaSetDevice( 0 );// 只要机器安装了英伟达显卡，那么会调用成功

    if ( cudaStatus != cudaSuccess )

    {

       fprintf( stderr, "调用cudaSetDevice()函数失败！" );

       return ;//false;

    }  

    // 使用CUDA内存分配器分配host端

    //cudaError_t cudaStatus = cudaMallocHost( &inputX, input.size() * sizeof( pcl::pointXYZRGB ) );

    //cudaError_t cudaStatus = cudaMallocHost( &outputX, output.size() * sizeof( pcl::Normal ) );  

    // 2、分配显存空间

    cudaError_t cudaStatus  = cudaMalloc( &inputX, input.size() * sizeof( pcl::pointXYZRGB ) );

    cudaError_t cudaStatusX = cudaMalloc( &outputX, output.size() * sizeof( pcl::Normal ) );

      // cudaStatus = cudaMalloc( (void**)&pData, DataSize * sizeof( int) );

       if ( cudaStatus != cudaSuccess)

       {

           fprintf( stderr, "调用cudaMalloc()函数初始化显卡中数组时失败！" );

           break;

       }  

        // 3、将宿主程序数据复制到显存中

       cudaError_t cudaStatus2  = cudaMemcpy( inputX, input, input.size() * sizeof( pcl::pointXYZRGB ),cudaMemcpyHostToDevice );

       cudaError_t cudaStatusX2 = cudaMemcpy(outputX,output,output.size() * sizeof( pcl::pointXYZRGB ),cudaMemcpyHostToDevice );

       if ( cudaStatus != cudaSuccess)

       {

           fprintf( stderr, "调用cudaMemcpy()函数初始化宿主程序数据数组到显卡时失败！" );

           break;

       }  

       //cudaMalloc( (void**)&nn_dists,   k_ * sizeof( int) );

       //cudaMalloc( (void**)&nn_indices, k_ * sizeof( int) );

       //cudaMalloc( (void**)&Normal3f,  3 * sizeof( float) );   

     // 4、执行程序，宿主程序等待显卡执行完毕

       normalEstimateSingle<<<1, THREAD_NUM>>>( inputX,outputX, nn_indices, nn_dists, THREAD_NUM ,search_parameter_);

       //normalEstimateSingle(pcl::PointCloud<pcl::PointXYZRGB> &input ,pcl::PointCloud<pcl::PointXYZRGB> &output, int* nn_indices ,int*   nn_dists, int Gap)

       // 5、查询内核初始化的时候是否出错

       cudaStatus = cudaGetLastError( );

       if ( cudaStatus != cudaSuccess)

       {

           fprintf( stderr, "显卡执行程序时失败！" );

           break;

       }

     // 6、与内核同步等待执行完毕

       cudaStatus = cudaDeviceSynchronize( );

       if ( cudaStatus != cudaSuccess)

       {

           fprintf( stderr, "在与内核同步的过程中发生问题！" );

           break;

       }  

       // 7、获取数据  //只复制出法线即可！

       cudaStatus = cudaMemcpy(output,outputX,output.size() * sizeof( pcl::pointXYZRGB ),cudaMemcpyHostToDevice );

       if ( cudaStatus != cudaSuccess)

       {

           fprintf( stderr, "在将结果数据从显卡复制到宿主程序中失败！" );

           break;

       }  

       cudaFree( outputX );

       cudaFree(  inputX );

}

注意事项：运行在GPU的函数，只能是原子函数，详情请见《高性能并行编程实践》

CUDA 编程实例:计算点云法线的更多相关文章

CUDA编程学习笔记1
CUDA编程模型是一个异构模型,需要CPU和GPU协同工作. host和device host和device是两个重要的概念 host指代CPU及其内存 device指代GPU及其内存 __globa ...
CUDA编程前言
GPU架构 GPU特别适用于密集计算,高度可并行计算,图形学晶体管主要被用于执行计算,而不是缓存数据,控制指令流 GPU计算的历史 2001/2002 -- 研究人员把GPU当做数据并行协处理器 ...
PHP多进程编程实例
这篇文章主要介绍了PHP多进程编程实例,本文讲解的是在Linux下实现PHP多进程编程,需要的朋友可以参考下羡慕火影忍者里鸣人的影分身么?没错,PHP程序是可以开动影分身的!想完成任务,又觉得一个进 ...
c#摄像头编程实例（转）
c#摄像头编程实例摄像头编程安装摄像头后,一般可以找到一个avicap32.dll文件这是一个关于设想头的类 using system;using System.Runtime.Intero ...
不同版本CUDA编程的问题
1 无法装上CUDA的toolkit 卸载所有的NVIDIA相关的app,包括NVIDIA的显卡驱动,然后重装. 2之前的文件打不开,one or more projects in the solut ...
cuda编程基础
转自: http://blog.csdn.net/augusdi/article/details/12529247 CUDA编程模型 CUDA编程模型将CPU作为主机,GPU作为协处理器(co-pro ...
CUDA学习笔记（一）——CUDA编程模型
转自:http://blog.sina.com.cn/s/blog_48b9e1f90100fm56.html CUDA的代码分成两部分,一部分在host(CPU)上运行,是普通的C代码:另一部分在d ...
CUDA编程
目录: 1.什么是CUDA 2.为什么要用到CUDA 3.CUDA环境搭建 4.第一个CUDA程序 5. CUDA编程 5.1. 基本概念 5.2. 线程层次结构 5.3. 存储器层次结构 5.4. ...
JAX-RS 2.0 REST客户端编程实例
JAX-RS 2.0 REST客户端编程实例 2014/01/28 | 分类: 基础技术, 教程 | 0 条评论 | 标签: JAX-RS, RESTFUL 分享到:3 本文由 ImportNew - ...

随机推荐

1016 部分A+B （15 分）
正整数 AAA 的“DAD_ADA(为 1 位整数)部分”定义为由 AAA 中所有 DAD_ADA 组成的新整数 PAP_APA.例如:给定 A=3862767A = 3862767 ...
Python——Numpy基础知识（一）
一.Numpy的引入 1.标准的Python 中用列表(list)保存一组值,可以当作数组使用.但由于列表的元素可以是任何对象,因此列表中保存的是对象的指针.对于数值运算来说,这种结构显然比较浪费内存 ...
21.实验基于_version进行乐观锁并发控制
21.实验基于_version进行乐观锁并发控制主要知识点: 实验基于_version进行乐观锁并发控制 1.实验实战演练基于_version进行乐观锁并发控制 (1)先构造一条数据出来 PUT / ...
不用form怎么post数据
数据传输是用户交互中最重要的环节,下面收集了几个数据传输的方法,作为记录(未测试,在使用之前需要测试,如果后面我测试了,会对已测试项进行标注) 一．网址传递 <a href=”test.php ...
sqlalchemy带条件查询相关应用
sqlalchemy带条件查询 filter_by与filter filter_by 与filter的区别: 1. filter_by只能取值= filter可以==,!=,>=,<=等多 ...
uva 交叉染色法10004
鉴于网上讲交叉染色的资料比较少,于是我把我自己的心得与方法贴出来,方便与大家共同进步. 二分图: 百度百科传送门 wiki百科传送门判断一个图是否为二分图可以用交叉染色的方法来判断,可以用BFS,也 ...
HDU - 1043 - Eight / POJ - 1077 - Eight
先上题目: Eight Time Limit: 10000/5000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)Tota ...
[bzoj1606][Usaco2008 Dec]Hay For Sale 购买干草_动态规划_背包dp
Hay For Sale 购买干草 bzoj-1606 Usaco-2008 Dec 题目大意:约翰遭受了重大的损失:蟑螂吃掉了他所有的干草,留下一群饥饿的牛．他乘着容量为C(1≤C≤50000)个单 ...
linux 文件操作系统调用
crate:创建文件 open:打开文件 read:读取文件 write:写文件 lseek :设置文件偏移量 access:推断文件 close:关闭文件的读写操作
dlopen failed: empty/missing DT_HASH in "libx.so" (built with --hash-style=gnu?)
崩溃日志内容: java.lang.UnsatisfiedLinkError: dlopen failed: empty/missing DT_HASH in "libxxxx.so&quo ...

CUDA 编程实例:计算点云法线

CUDA 编程实例:计算点云法线的更多相关文章

随机推荐

热门专题