pytorch中使用cuda扩展

以下面这个例子作为教程，实现功能是element-wise add；

（pytorch中想调用cuda模块，还是用另外使用C编写接口脚本）

第一步：cuda编程的源文件和头文件

// mathutil_cuda_kernel.cu

// 头文件，最后一个是cuda特有的

#include <curand.h>

#include <stdio.h>

#include <math.h>

#include <float.h>

#include "mathutil_cuda_kernel.h"

// 获取GPU线程通道信息

dim3 cuda_gridsize(int n)

{

    int k = (n - ) / BLOCK + ;

    int x = k;

    int y = ;

    if(x > ) {

        x = ceil(sqrt(k));

        y = (n - ) / (x * BLOCK) + ;

    }

    dim3 d(x, y, );

    return d;

}

// 这个函数是cuda执行函数，可以看到细化到了每一个元素

__global__ void broadcast_sum_kernel(float *a, float *b, int x, int y, int size)

{

    int i = (blockIdx.x + blockIdx.y * gridDim.x) * blockDim.x + threadIdx.x;

    if(i >= size) return;

    int j = i % x; i = i / x;

    int k = i % y;

    a[IDX2D(j, k, y)] += b[k];

}

// 这个函数是与c语言函数链接的接口函数

void broadcast_sum_cuda(float *a, float *b, int x, int y, cudaStream_t stream)

{

    int size = x * y;

    cudaError_t err;

    // 上面定义的函数

    broadcast_sum_kernel<<<cuda_gridsize(size), BLOCK, , stream>>>(a, b, x, y, size);

    err = cudaGetLastError();

    if (cudaSuccess != err)

    {

        fprintf(stderr, "CUDA kernel failed : %s\n", cudaGetErrorString(err));

        exit(-);

    }

}

#ifndef _MATHUTIL_CUDA_KERNEL

#define _MATHUTIL_CUDA_KERNEL

#define IDX2D(i, j, dj) (dj * i + j)

#define IDX3D(i, j, k, dj, dk) (IDX2D(IDX2D(i, j, dj), k, dk))

#define BLOCK 512

#define MAX_STREAMS 512

#ifdef __cplusplus

extern "C" {

#endif

void broadcast_sum_cuda(float *a, float *b, int x, int y, cudaStream_t stream);

#ifdef __cplusplus

}

#endif

#endif

第二步：C编程的源文件和头文件（接口函数）

// mathutil_cuda.c

// THC是pytorch底层GPU库

#include <THC/THC.h>

#include "mathutil_cuda_kernel.h"

extern THCState *state;

int broadcast_sum(THCudaTensor *a_tensor, THCudaTensor *b_tensor, int x, int y)

{

    float *a = THCudaTensor_data(state, a_tensor);

    float *b = THCudaTensor_data(state, b_tensor);

    cudaStream_t stream = THCState_getCurrentStream(state);

    // 这里调用之前在cuda中编写的接口函数

    broadcast_sum_cuda(a, b, x, y, stream);

    return ;

}

int broadcast_sum(THCudaTensor *a_tensor, THCudaTensor *b_tensor, int x, int y);

第三步：编译，先编译cuda模块，再编译接口函数模块（不能放在一起同时编译）

nvcc -c -o mathutil_cuda_kernel.cu.o mathutil_cuda_kernel.cu -x cu -Xcompiler -fPIC -arch=sm_52

import os

import torch

from torch.utils.ffi import create_extension

this_file = os.path.dirname(__file__)

sources = []

headers = []

defines = []

with_cuda = False

if torch.cuda.is_available():

    print('Including CUDA code.')

    sources += ['src/mathutil_cuda.c']

    headers += ['src/mathutil_cuda.h']

    defines += [('WITH_CUDA', None)]

    with_cuda = True

this_file = os.path.dirname(os.path.realpath(__file__))

extra_objects = ['src/mathutil_cuda_kernel.cu.o']   # 这里是编译好后的.o文件位置

extra_objects = [os.path.join(this_file, fname) for fname in extra_objects]

ffi = create_extension(

    '_ext.cuda_util',

    headers=headers,

    sources=sources,

    define_macros=defines,

    relative_to=__file__,

    with_cuda=with_cuda,

    extra_objects=extra_objects

)

if __name__ == '__main__':

    ffi.build()

第四步：调用cuda模块

from _ext import cuda_util  #从对应路径中调用编译好的模块

a = torch.randn(3, 5).cuda()

b = torch.randn(3, 1).cuda()

mathutil.broadcast_sum(a, b, *map(int, a.size()))

# 上面等价于下面的效果：

a = torch.randn(3, 5)

b = torch.randn(3, 1)

a += b

pytorch中使用cuda扩展的更多相关文章

PyTorch中的C++扩展
今天要聊聊用 PyTorch 进行 C++ 扩展. 在正式开始前,我们需要了解 PyTorch 如何自定义module.这其中,最常见的就是在 python 中继承torch.nn.Module,用 ...
PyTorch中的CUDA操作
CUDA(Compute Unified Device Architecture)是NVIDIA推出的异构计算平台,PyTorch中有专门的模块torch.cuda来设置和运行CUDA相关操作.本 ...
pytorch中调用C进行扩展
pytorch中调用C进行扩展,使得某些功能在CPU上运行更快: 第一步:编写头文件 /* src/my_lib.h */ int my_lib_add_forward(THFloatTensor * ...
PyTorch官方中文文档：PyTorch中文文档
PyTorch中文文档 PyTorch是使用GPU和CPU优化的深度学习张量库. 说明自动求导机制 CUDA语义扩展PyTorch 多进程最佳实践序列化语义 Package参考 torch to ...
Pytorch中RoI pooling layer的几种实现
Faster-RCNN论文中在RoI-Head网络中,将128个RoI区域对应的feature map进行截取,而后利用RoI pooling层输出7*7大小的feature map.在pytorch ...
PyTorch中的MIT ADE20K数据集的语义分割
PyTorch中的MIT ADE20K数据集的语义分割代码地址:https://github.com/CSAILVision/semantic-segmentation-pytorch Semant ...
pytorch中tensorboardX的用法
在代码中改好存储Log的路径命令行中输入 tensorboard --logdir /home/huihua/NewDisk1/PycharmProjects/pytorch-deeplab-xce ...
[Pytorch]Pytorch中tensor常用语法
原文地址:https://zhuanlan.zhihu.com/p/31494491 上次我总结了在PyTorch中建立随机数Tensor的多种方法的区别. 这次我把常用的Tensor的数学运算总结到 ...
详解Pytorch中的网络构造，模型save和load，.pth权重文件解析
转载:https://zhuanlan.zhihu.com/p/53927068 https://blog.csdn.net/wangdongwei0/article/details/88956527 ...

随机推荐

C# 中静态调用C++dll 和C# 中动态调用C++dll
在最近的项目中,牵涉到项目源代码保密问题,由于代码是C#写的,容易被反编译,因此决定抽取核心算法部分使用C++编写,C++到目前为止好像还不能被很好的反编译,当然如果你是反汇编高手的话,也许还是有可能 ...
图论 - 图的深度优先遍历c++实现
图的深度优先遍历c++实现深度优先搜索邻接矩阵的创建 int i, j, m, a, b; cin >> n >> m; //初始化二维矩阵 for (i = 1; i & ...
HTTP权威指南目录
diyi部分 HTTP:Web的基础第1章 HTTP概述 31.1 HTTP——因特网的多媒体信使 41.2 Web客户端和服务器 41.3 资源 51.3.1 媒体类型 61.3.2 URI 71 ...
hdu3974-Assign the task-（dfs+线段树）
题意:有n个人,有上下级关系,有m个操作,有两种操作1.把一个任务分给某个人,他的下属也会停下手中工作和他一起做:2.查询某个人的当前任务是什么? 解题:n-1个关系,总有一个人没有上级,以他为根节点 ...
学习：多字节编码(ANSI)和UNICODE编码的关系
Windows 既可以使用 Unicode 字符集又可以使用传统的字符集(如多字节编码)来实现对多种语言的支持,以适应国际市场的要求.与传统的字符集编码相比,Unicode 是世界通用的字符编码标准, ...
.ckpt文件与.pb文件
.ckpt文件是旧版本的输出saver.save(sess),相当于现在的.ckpt-data checkpoint文件仅用于告知某些TF函数,这是最新的检查点文件. .ckpt-meta 包含元图, ...
Java代码题目：计算奖金和完全平方数
1.计算奖金题目:企业发放的奖金根据利润提成.利润(I)低于或等于10万元时,奖金可提10%:利润高于10万元,低于20万元时,低于10万元的部分按10%提成,高于10万元的部分,可提成7.5%:2 ...
06-图2 Saving James Bond - Easy Version (25 分)
This time let us consider the situation in the movie "Live and Let Die" in which James Bon ...
python .md5 加密
import hashlib hash = hashlib.md5() hash.update(text.encode('utf-8')) print(hash.hexdigest())
yum本地安装rrdtool报错，提示版本冲突的解决办法
[root@mysql-mon40 mm]# yum localinstall rrdtool-1.4.7-1.el6.rfx.x86_64.rpm -y 错误: Multilib version p ...

pytorch中使用cuda扩展

pytorch中使用cuda扩展的更多相关文章

随机推荐

热门专题