0_Simple__simpleSeparateCompilation

▶ 简单的将纯 C/C++ 函数放到另一个文件中，利用头文件引用到主体 .cu 中来，编译时共同编译。

▶ 源代码，把 C++ 的部分去掉了

 // simpleDeviceLibrary.cuh

 #ifndef SIMPLE_DEVICE_LIBRARY_CUH

 #define SIMPLE_DEVICE_LIBRARY_CUH

 extern "C" __device__ float multiplyByTwo(float number);

 extern "C" __device__ float divideByTwo(float number);

 #endif

 // simpleDeviceLibrary.cu

 #include <cuda_runtime.h>

 extern "C" __device__ float multiplyByTwo(float number)

 {

     return number * 2.0f;

 }

 extern "C" __device__ float divideByTwo(float number)

 {

     return number * 0.5f;

 }

 // simpleSeparateCompilation.cu

 #include <stdio.h>

 #include <stdlib.h>

 #include <math.h>

 #include <cuda_runtime.h>

 #include "device_launch_parameters.h"

 #include "simpleDeviceLibrary.cuh"

 #define EPS 1e-5

 typedef float(*deviceFunc)(float);

 __device__ deviceFunc dMultiplyByTwoPtr = multiplyByTwo;    // 本地声明，直接在代码中调用 multiplyByTwo / divideByTwo 会导致运行时错误

 __device__ deviceFunc dDivideByTwoPtr = divideByTwo;

 __global__ void transformVector(float *v, deviceFunc f, unsigned int size)

 {

     unsigned int tid = blockIdx.x * blockDim.x + threadIdx.x;

     if (tid < size)

         v[tid] = (*f)(v[tid]);

 }

 int test()

 {

     cudaSetDevice();

     const unsigned int size = ;

     float hVector[size], hResultVector[size], *dVector;

     for (unsigned int i = ; i < size; ++i)

     {

         hVector[i] = rand() / (float)RAND_MAX;

         hResultVector[i] = 0.0f;

     }

     cudaMalloc((void **)&dVector, size * sizeof(float));

     cudaMemcpy(dVector, hVector, sizeof(float) * size, cudaMemcpyHostToDevice);

     deviceFunc hFunctionPtr;                                                    // 作为调用参数的函数指针

     cudaMemcpyFromSymbol(&hFunctionPtr, dMultiplyByTwoPtr, sizeof(deviceFunc)); // 给 hFunctionPtr 一个地址，方便调用

     transformVector << <,  >>>(dVector, hFunctionPtr, size);

     cudaMemcpyFromSymbol(&hFunctionPtr, dDivideByTwoPtr, sizeof(deviceFunc));

     transformVector << <,  >> > (dVector, hFunctionPtr, size); 

     cudaMemcpy(hResultVector, dVector, sizeof(float) * size, cudaMemcpyDeviceToHost);

     cudaDeviceSynchronize();

     if (dVector)

         cudaFree(dVector);

     for (int i = ; i < size; ++i)

     {

         if (fabs(hVector[i] - hResultVector[i]) > EPS)

         {

             printf("\nError at i == %d, hVector[i] == %f, hResultVector[i] == %f", i, hVector[i], hResultVector[i]);

             return ;

         }

     }

     return ;

 }

 int main()

 {

     printf("\n\tStart.\n");

     printf("\n\tFinish: %s\n", test() ? "Pass" : "Fail");

     getchar();

     return ;

 }

● 输出结果：

        Start.

        Finish: Pass

▶ 涨姿势

// cuda_runtime_api.h

#define __dv(v) \

        = v

extern __host__ cudaError_t CUDARTAPI cudaMemcpyFromSymbol(void *dst, const void *symbol, size_t count, size_t offset __dv(), enum cudaMemcpyKind kind __dv(cudaMemcpyDeviceToHost));

    // 从指定符号 symbol 处偏移 offset 字节处，拷贝 count 字节到 dst，默认模式为设备拷到主机

0_Simple__simpleSeparateCompilation的更多相关文章

随机推荐

beautiful number 数位DP codeforces 55D
题目链接: http://codeforces.com/problemset/problem/55/D 数位DP 题目描述: 一个数能被它每位上的数字整除(0除外),那么它就是beautiful nu ...
hdu1243 dp （类最长公共子序列）
题意:射击演习中,已知敌人出现的种类顺序,以及自己的子弹种类顺序,当同种类的子弹打到同种类的敌人时会得到相应分数,问最多能得多少分. 这题的题意很好理解,而且模型也很常见,是带权值的类最长公共子序列问 ...
hdu 1723 DP/递推
题意:有一队人(人数 ≥ 1),开头一个人要将消息传到末尾一个人那里,规定每次最多可以向后传n个人,问共有多少种传达方式. 这道题我刚拿到手没有想过 DP ,我觉得这样传消息其实很像 Fibonacc ...
struts2访问ServletAPI方式和获取参数的方式
一.访问ServletAPI的三种方式方式1:通过让Action类去实现感知接口. 此时项目依赖:servlet-api.jar. ServletRequestAware:感知HttpServlet ...
USB gadget 驱动 printer.c 分析
1. modprobe g_printer idVendor=0x0525 idProduct=0xa4a8 modprobe后面也可以加模块参数 2. prn_example从stdout获取数据然 ...
Opengl研究4.0 走样与反走样
Opengl研究4.0 走样与反走样 DionysosLai(906391500@qq.com) 2014-06-25 走样与反走样,也叫混淆与反混淆.所谓走样,是因为使用离散量(像 ...
Tomcat 8 中的startup.bat
1. bat文件批处理文件,在DOS和Windows(任意版本)的系统中,bat文件是可执行文件 2. startup.bat 中涉及的bat语法 2.1 @. echo. echo off @ec ...
linux $* $@ 特定位置参数
举例说:脚本名称叫test.sh 入参三个: 1 2 3运行test.sh 1 2 3后$*为"1 2 3"(一起被引号包住)$@为"1" "2&qu ...
redis和memcached选择，对比分析
memcache和redis是互联网分层架构中,最常用的KV缓存.不少同学在选型的时候会纠结,到底是选择memcache还是redis? memcache提供的功能是redis提供的功能的子集,不用想 ...
python2.7中出现TypeError: must be type, not classobj
class Person: def __init__(self,name,age): self._name = name self._age = age class Student(Person): ...

0_Simple__simpleSeparateCompilation

0_Simple__simpleSeparateCompilation的更多相关文章

随机推荐

热门专题