linux利用CMakeLists编译cuda程序

文件目录：

cudaTest

|--utils.cu

|--utils.h

|--squaresum.cu

|--squaresum.h

|--test.cpp

|--CMakeLists.txt

编译命令：

$cd /root/cudaTest

$mkdir build

$cd build

$cmake ..

$make

调佣关系：

utils：提供常用工具，这里提供查询设备信息功能；

squaresum：计算平方和功能，为cuda运行的核心函数实现

test：调用平方和函数

CMakeLists.txt：组织所有文件编译生成可执行文件

注意：调用cu文件中的函数时要在头文件声明成extern “C”

文件内容：

CMakeLists.txt

# CMakeLists.txt to build hellocuda.cu

cmake_minimum_required(VERSION 2.8)

find_package(CUDA QUIET REQUIRED)

# Specify binary name and source file to build it from

#add_library(utils utils.cpp)

cuda_add_executable(

    squaresum

    test.cpp squaresum.cu utils.cu)

#target_link_libraries(squaresum utils)

test.cpp

#include <iostream>

#include "squaresum.h"

//extern "C" int squaresum();

int main(){

  squaresum();

  return ;

}

squaresum.h

#include "utils.h"

#include <cuda_runtime.h>

extern "C" {

  int squaresum();

}

squaresum.cu

#include <stdio.h>

#include <stdlib.h>

//#include "utils.h"

#include <iostream>

#include "squaresum.h"

// ======== define area ========

#define DATA_SIZE 1048576 // 1M

// ======== global area ========

int data[DATA_SIZE];

__global__ static void squaresSum(int *data, int *sum, clock_t *time)

{

 int sum_t = ;

 clock_t start = clock();

 for (int i = ; i < DATA_SIZE; ++i) {

  sum_t += data[i] * data[i];

 }

 *sum = sum_t;

 *time = clock() - start;

}

// ======== used to generate rand datas ========

void generateData(int *data, int size)

{

 for (int i = ; i < size; ++i) {

  data[i] = rand() % ;

 }

}

int squaresum()

{

 // init CUDA device

 if (!InitCUDA()) {

  return ;

 }

 printf("CUDA initialized.\n");

 // generate rand datas

 generateData(data, DATA_SIZE);

 // malloc space for datas in GPU

 int *gpuData, *sum;

 clock_t *time;

 cudaMalloc((void**) &gpuData, sizeof(int) * DATA_SIZE);

 cudaMalloc((void**) &sum, sizeof(int));

 cudaMalloc((void**) &time, sizeof(clock_t));

 cudaMemcpy(gpuData, data, sizeof(int) * DATA_SIZE, cudaMemcpyHostToDevice);

 // calculate the squares's sum

 squaresSum<<<, , >>>(gpuData, sum, time);

 // copy the result from GPU to HOST

 int result;

 clock_t time_used;

 cudaMemcpy(&result, sum, sizeof(int), cudaMemcpyDeviceToHost);

 cudaMemcpy(&time_used, time, sizeof(clock_t), cudaMemcpyDeviceToHost);

 // free GPU spaces

 cudaFree(gpuData);

 cudaFree(sum);

 cudaFree(time);

 // print result

 printf("(GPU) sum:%d time:%ld\n", result, time_used);

 // CPU calculate

 result = ;

 clock_t start = clock();

 for (int i = ; i < DATA_SIZE; ++i) {

  result += data[i] * data[i];

 }

 time_used = clock() - start;

 printf("(CPU) sum:%d time:%ld\n", result, time_used);

 return ;

}

utils.h

#include <stdio.h>

#include <cuda_runtime.h>

extern "C" {

  bool InitCUDA();

}

utils.cu

#include "utils.h"

#include <cuda_runtime.h>

#include <iostream>

void printDeviceProp(const cudaDeviceProp &prop)

{

 printf("Device Name : %s.\n", prop.name);

 printf("totalGlobalMem : %d.\n", prop.totalGlobalMem);

 printf("sharedMemPerBlock : %d.\n", prop.sharedMemPerBlock);

 printf("regsPerBlock : %d.\n", prop.regsPerBlock);

 printf("warpSize : %d.\n", prop.warpSize);

 printf("memPitch : %d.\n", prop.memPitch);

 printf("maxThreadsPerBlock : %d.\n", prop.maxThreadsPerBlock);

 printf("maxThreadsDim[0 - 2] : %d %d %d.\n", prop.maxThreadsDim[], prop.maxThreadsDim[], prop.maxThreadsDim[]);

 printf("maxGridSize[0 - 2] : %d %d %d.\n", prop.maxGridSize[], prop.maxGridSize[], prop.maxGridSize[]);

 printf("totalConstMem : %d.\n", prop.totalConstMem);

 printf("major.minor : %d.%d.\n", prop.major, prop.minor);

 printf("clockRate : %d.\n", prop.clockRate);

 printf("textureAlignment : %d.\n", prop.textureAlignment);

 printf("deviceOverlap : %d.\n", prop.deviceOverlap);

 printf("multiProcessorCount : %d.\n", prop.multiProcessorCount);

}

bool InitCUDA()

{

 //used to count the device numbers

 int count; 

 // get the cuda device count

 cudaGetDeviceCount(&count);

// print("%d\n", count);

std::cout << count << std::endl;

 if (count == ) {

  fprintf(stderr, "There is no device.\n");

  return false;

 }

 // find the device >= 1.X

 int i;

 for (i = ; i < count; ++i) {

  cudaDeviceProp prop;

  if (cudaGetDeviceProperties(&prop, i) == cudaSuccess) {

   if (prop.major >= ) {

    printDeviceProp(prop);

    break;

   }

  }

 }

 // if can't find the device

 if (i == count) {

  fprintf(stderr, "There is no device supporting CUDA 1.x.\n");

  return false;

 }

 // set cuda device

 cudaSetDevice(i);

 return true;

}

//int main(){

//  InitCUDA();

//}

linux利用CMakeLists编译cuda程序的更多相关文章

Linux下静态编译Qt程序
一般情况下,我们用Qt编译出来的程序是要依赖于系统Qt库的,也就是这个程序移到别的没有安装Qt库的系统上是不能使用的.会提示缺少……库文件之类的错误.这就是动态编译的结果. 但是如果我们想编译一个程序 ...
面试官问Linux下如何编译C程序，如何回答？为你编译演示
文章来源:嵌入式大杂烩作者:ZhengNL Windows下常用IDE来编译,Linux下直接使用gcc来编译,编译过程是Linux嵌入式编程的基础,也是嵌入式高频基础面试问题. 一.命令行编译及各 ...
Linux源码编译安装程序
一.程序的组成部分 Linux下程序大都是由以下几部分组成: 二进制文件:也就是可以运行的程序文件库文件:就是通常我们见到的lib目录下的文件配置文件:这个不必多说,都知道帮助文档:通常是我们在 ...
linux环境下编译C++ 程序
GCC(GNU Compiler Collection)是Linux下最主要的编译工具,GCC不仅功能非常强大,结构也异常灵活.它可以通过不同的前端模块来支持各种语言,如:Java.Fortran.P ...
Ubantu Linux 环境下编译c++程序
先在文件中新建一个a.cpp文件,在里面编写程序, 然后打开终端输入下面命令即可; $ g++ a.cpp -o b ///编译a.cpp 然后把编译之后的.exe文件存入b中 $ ./b ///执行 ...
在linux下如何编译C++程序
一.GCC(GNU Compiler Collection)是linux下最主要的编译工具,GCC不仅功能非常强大,结构也异常灵活.它可以通过不同的前端模块来支持各种语言,如Java.Fortran. ...
在linux环境下编译C++ 程序
单个源文件生成可执行程序下面是一个保存在文件 helloworld.cpp 中一个简单的 C++ 程序的代码: 单个源文件生成可执行程序 /* helloworld.cpp */ #include ...
linux利用CMakeLists编译程序或生成库文件
#设置CMAKE最低版本 CMAKE_MINIMUM_REQUIRED(VERSION 2.8) #设置项目名称 SET(PROJECT_NAME Image_Test_01) #建立项目 PROJE ...
Fedora 11中用MinGW编译Windows的Qt4程序（在Linux系统下编译Windows的程序）
Ubuntu下可以直接安装: sudo apt-get install mingw32 mingw32-binutils mingw32-runtime 安装后编译程序可以: i586-mingw32 ...

随机推荐

<unix网络编程>UDP套接字编程
典型的UDP客户/服务器程序的函数调用如下: 1.缓冲区发送缓冲区用虚线表示,任何UDP套接字都有发送缓冲区,不过该缓冲区仅能表示写到该套接字的UDP数据报的上限.如果应用进程写一个大于套接字缓冲区 ...
face recognition[angular/consine-margin-based][L2-Softmax]
本文来自<L2-constrained Softmax Loss for Discriminative Face Verification>,时间线为2017年6月. 近些年,人脸验证的性 ...
React-菜鸟学习笔记（一）
新公司的项目前端架构用的是react.js 之前孤陋寡闻并没听说过,想着后期开发和维护多少要会点前端的东西,就简单研究一下.个人的学习习惯能写代码的就不写文字,必要的地方加两行注释,代码一行行敲下去, ...
mysql及python交互
mysql在之前写过一次,那时是我刚刚进入博客,今天介绍一下mysql的python交互,当然前面会把mysql基本概述一下. 目录: 一.命令脚本(mysql) 1.基本命令 2.数据库操作命令 3 ...
MVC5+EF6入门教程——实现动态创建数据库与登录验证
详细步骤创建文件夹,规划好项目目录创建相关实体类 (Data Model) 创建 Database Context 创建Initializer, 使用EF初始化数据库,插入测试数据实现数据库登录 ...
三、xadmin----内置插件
1.Action Xadmin 默认启用了批量删除的事件,代码见xadmin-->plugins-->action.py DeleteSelectedAction 如果要为list列表添 ...
nodejs图片处理工具gm用法
在做H5应用中,有时候会涉及到一些图片加工处理的操作,nodejs有一个很好的后台图片处理module,就是这里说的gm.gm有官方文档,但感觉写得太抽象,反而看不懂了.这里把一些常见的用法写下,供大 ...
Python入门-格式化输出
需求:将用户的姓名.年龄.工作.爱好 ,然后打印成以下格式: ------------ Info of Tom ------ Name : Tom Age : 22 Job : Teacher Hob ...
ad2017安装以及破解
1.破Ad破解https://wenku.baidu.com/view/5e23a78e2e3f5727a5e962dd.html 2. Ad 汉化https://jingyan.baidu.com/ ...
我的第一个Go web程序纪念一下
参考Go web编程,很简单的程序: 大致的步骤: 绑定ip和端口绑定对应的处理器或者处理器函数,有下面两种选择,选择一种即可监听ip及端口处理器: 定义一个struct结构体然后让这个结构体实 ...

linux利用CMakeLists编译cuda程序

linux利用CMakeLists编译cuda程序的更多相关文章

随机推荐

热门专题