0_Simple__inlinePTX + 0_Simple__inlinePTX

在核函数代码中加入并行线程执行（Parallel Thread eXecution，PTX），通过汇编指令获取得有关线程束的信息。并且在静态代码和运行时编译两种条件下使用。

▶ 源代码：静态使用

 #include <stdio.h>

 #include <assert.h>

 #include <cuda_runtime.h>

 #include "device_launch_parameters.h"

 #include <helper_functions.h>

 #include <helper_cuda.h>

 __global__ void sequence_gpu(int *d_ptr, int length)

 {

     int elemID = blockIdx.x * blockDim.x + threadIdx.x;

     if (elemID < length)

     {

         unsigned int laneid;

         asm("mov.u32 %0, %%laneid;" : "=r"(laneid));// 获取当前线程在线程束中的编号

         d_ptr[elemID] = laneid;

     }

 }

 void sequence_cpu(int *h_ptr, int length)

 {

     for (int elemID=; elemID<length; elemID++)

         h_ptr[elemID] = elemID % ;

 }

 int main(int argc, char **argv)

 {

     printf("CUDA inline PTX assembler sample\n");

     const int N = ;

     int dev = findCudaDevice(argc, (const char **) argv);

     if (dev == -)

         return EXIT_FAILURE;

     int *d_ptr;

     cudaMalloc(&d_ptr, N * sizeof(int));

     int *h_ptr;

     cudaMallocHost(&h_ptr, N * sizeof(int));

     dim3 cudaBlockSize(,,);

     dim3 cudaGridSize((N + cudaBlockSize.x - ) / cudaBlockSize.x, , );

     sequence_gpu<<<cudaGridSize, cudaBlockSize>>>(d_ptr, N);

     cudaGetLastError();

     cudaDeviceSynchronize();

     sequence_cpu(h_ptr, N);

     int *h_d_ptr;

     cudaMallocHost(&h_d_ptr, N *sizeof(int));

     cudaMemcpy(h_d_ptr, d_ptr, N *sizeof(int), cudaMemcpyDeviceToHost);

     bool bValid = true;

     for (int i=; i<N && bValid; i++)

     {

         if (h_ptr[i] != h_d_ptr[i])

             bValid = false;

     }

     printf("Test %s.\n", bValid ? "Successful" : "Failed");

     cudaFree(d_ptr);

     cudaFreeHost(h_ptr);

     cudaFreeHost(h_d_ptr);

     getchar();

     return bValid ? EXIT_SUCCESS: EXIT_FAILURE;

 }

▶ 源代码：运行时编译

 /*inlinePTX_kernel.cu*/

 extern "C" __global__ void sequence_gpu(int *d_ptr, int length)

 {

     int elemID = blockIdx.x * blockDim.x + threadIdx.x;

     if (elemID < length)

     {

         unsigned int laneid;

         asm("mov.u32 %0, %%laneid;" : "=r"(laneid));

         d_ptr[elemID] = laneid;

     }

 }

 /*inlinePTX.cpp*/

 #include <stdio.h>

 #include <assert.h>

 #include <cuda_runtime.h>

 #include <nvrtc_helper.h>

 #include <helper_functions.h>

 void sequence_cpu(int *h_ptr, int length)

 {

     for (int elemID=; elemID<length; elemID++)

         h_ptr[elemID] = elemID % ;

 }

 int main(int argc, char **argv)

 {

     printf("CUDA inline PTX assembler sample\n");

     char *ptx, *kernel_file;

     size_t ptxSize;

     kernel_file = sdkFindFilePath("inlinePTX_kernel.cu", argv[]);

     compileFileToPTX(kernel_file, , NULL, &ptx, &ptxSize);

     CUmodule module = loadPTX(ptx, argc, argv);

     CUfunction kernel_addr;

     cuModuleGetFunction(&kernel_addr, module, "sequence_gpu");

     const int N = ;

     int *h_ptr = (int *)malloc(N * sizeof(int));

     dim3 cudaBlockSize(,,);

     dim3 cudaGridSize((N + cudaBlockSize.x - ) / cudaBlockSize.x, , );

     CUdeviceptr d_ptr;

     cuMemAlloc(&d_ptr, N * sizeof(int));

     void *arr[] = { (void *)&d_ptr, (void *)&N };

     cuLaunchKernel(kernel_addr,

                    cudaGridSize.x, cudaGridSize.y, cudaGridSize.z,

                    cudaBlockSize.x, cudaBlockSize.y, cudaBlockSize.z,

                    , , &arr[], );

     cuCtxSynchronize();

     sequence_cpu(h_ptr, N);

     int *h_d_ptr = (int *)malloc(N * sizeof(int));;

     cuMemcpyDtoH(h_d_ptr, d_ptr, N *sizeof(int));

     bool bValid = true;

     for (int i=; i<N && bValid; i++)

     {

         if (h_ptr[i] != h_d_ptr[i])

             bValid = false;

     }

     printf("Test %s.\n", bValid ? "Successful" : "Failed");

     cuMemFree(d_ptr);

     getchar();

     return bValid ? EXIT_SUCCESS: EXIT_FAILURE;

 }

▶ 输出结果：

CUDA inline PTX assembler sample

GPU Device : "GeForce GTX 1070" with compute capability 6.1

Test Successful.

▶ 涨姿势：

● 获取当前线程在线程束中的编号，即同意先乘数中的线程分别获得值 0 ~ 31

asm("mov.u32 %0, %%laneid;" : "=r"(laneid));

0_Simple__inlinePTX + 0_Simple__inlinePTX_nvrtc的更多相关文章

随机推荐

SAP Gateway简介
SAP Gateway在S4/HANA时代的ABAP开发模型中有着重要的地位.SAP Gateway是什么?它对ABAP开发有怎样的影响?可以为我们提供哪些方便?这篇译文将浅要地讨论这些话题. SAP ...
动易CMS - 设为首页代码和加入收藏代码(兼容各种浏览器)
注意: 这里虽然说是兼容,但是有些浏览器的设置就是不支持用js来把页面设为首页,加入收藏夹,只能让用户手动去在浏览器或者按键去设置这些功能,这里说的兼容是指当浏览器有这个设置的时候js会有提示. ...
用es6的class关键字定义一个类
es6新增class关键字使用方法详解. 通过class关键字,可以定义类.基本上,ES6的class可以看作只是一个语法糖,它的绝大部分功能,ES5都可以做到,新的class写法只是让对象原型的写法 ...
关于SSH
SSH的英文全称是Secure Shell. 传统的网络服务程序,如:ftp和telnet在本质上都是不安全安全安全安全的,因为它们在网络上用明文传送口令和数据,别有用心的人非常容易就可以截获这些口令 ...
HTTP库Axios
前面的话本文将详细介绍HTTP库Axios 概述 Axios 是一个基于 promise 的 HTTP 库,可以用在浏览器和 node.js 中 [安装] 在Vue中使用,最好安装两个模块axios ...
Beautiful Dream hdu3418 （直接做或二分）
Beautiful Dream Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)T ...
cs224d 自然语言处理作业 problem set3 (一) 实现Recursive Nerual Net Work 递归神经网络
1.Recursive Nerual Networks能够更好地体现每个词与词之间语法上的联系这里我们选取的损失函数仍然是交叉熵函数 2.整个网络的结构如下图所示: 每个参数的更新时的梯队值如何计算, ...
Codeforces Round #420 (Div. 2)
/*************************************************************************************************** ...
实现径向变换用于样本增强《Training Neural Networks with Very Little Data-A Draft》
背景: 做大规模机器学习算法,特别是神经网络最怕什么--没有数据!!没有数据意味着,机器学不会,人工不智能!通常使用样本增强来扩充数据一直都是解决这个问题的一个好方法. 最近的一篇论文<Trai ...
错误：Cannot set property 'innerHTML' of null
360浏览器代码编辑器里提示错误:Cannot set property 'innerHTML' of null 原因是代码执行时要调用的内容不存在

0_Simple__inlinePTX + 0_Simple__inlinePTX_nvrtc

0_Simple__inlinePTX + 0_Simple__inlinePTX_nvrtc的更多相关文章

随机推荐

热门专题