技术背景

在前面的一篇文章中，我们介绍了在C++中使用指针数组的方式实现的一个不规则的二维数组。那么如果我们希望可以在CUDA中也能够使用到这种类似形式的不规则的数组，有没有办法可以直接实现呢？可能过程会稍微有一点麻烦，因为我们需要在Host和Device之间来回的转换，需要使用到很多CUDA内置的cudaMalloc和cudaMemcpy函数，以下做一个完整的介绍。

原始代码及修改思路

在上一篇文章中我们使用到的案例代码是这样的：

// g++ main.cpp -o main && ./main

#include <iostream>

struct bucket{

    int num;

    int *ptr;

};

void print_bucket(bucket *bc, int shape[]){

    for (int i=0; i<4; i++){

        bucket bc_i = bc[i];

        printf("%d: ", bc_i.num);

        for (int j=0; j<shape[i]; j++){

            printf("%d,", bc_i.ptr[j]);

        }

        printf("\n");

    }

}

int main(){

    // 定长数组

    int arr[4][3] = {{0,1,2},{1,2,3},{2,3,4},{3,4,5}};

    // 有效长度

    int shape[4] = {2,3,2,1};

    // 先构建结构体数组

	bucket _bc[4];

    for (int i=0; i<4; i++){

        _bc[i].num = shape[i];

        _bc[i].ptr = arr[i];

        _bc[i].ptr += 3-shape[i];

    }

    // 再把结构体数组赋值给结构体指针

    bucket *bc = _bc;

    // 打印结构体的所有内容

    print_bucket(bc, shape);

    return 0;

}

通过定义一个bucket结构体，用双重的指针数组实现了一个不规则数组的存储。第一重的指针对应于不规则数组的第一个维度，这里长度一般是固定的。第二重的指针指向不规则数组的第二个维度，这个维度的长度大小是不一致的，因为我们在结构体中存储的只是一个指针和该维度的数组长度，因此可以实现不规则数组的存储。那么上述代码的运行结果为：

$ g++ main.cpp -o main && ./main

2: 1,2,

3: 1,2,3,

2: 3,4,

1: 5,

打印的第一列是当前数组的长度，也就是不规则数组的第二个维度。后面的数字是对应的数组内容，当然，这里需要注意的点是，我们在初始化的时候，尤其是跟Python等语言进行交互的时候，初始化阶段使用的还是一个固定长度的Tensor，而不需要使用的那些位置需要填充或者叫padding一些数字，常见的就是-1和0。

那么如果我们希望可以在CUDA上实现一个类似的功能，首先需要考虑到以下几个方面：

首先我们需要把数据拷贝到CUDA的Device Memory里面才能用来计算；
Host侧和Device侧指针不能共享，也需要使用Memcpy来进行拷贝；
Kernel函数需要分配一定的计算资源，关于GPU计算资源分配的内容，可以参考之前写的这一篇博客。

CUDA实现

根据以上提到的几个修改点，我们可以这样逐个解决：分别在Host侧定义好相关的数组、指针和结构体之后，使用CUDA的内置函数将相应的内容拷贝到Device侧，两侧同时保留数据，所有的数据更新也都在CUDA上实现。如果有回传数据的需要，我们再把最终的Device侧数据拷贝到Host侧进行同步。完成CUDA的计算之后，同步所有CUDA的线程，并且释放不必要的内存。以下是具体代码实现：

// 文件名：main.cu

// 编译运行指令：nvcc -Xcompiler -fPIC -o main main.cu && ./main

#include <iostream>

#include "cuda_runtime.h"

struct bucket{

    int num;

    int *ptr;

};

// CUDA Kernel函数，该函数主要用于打印bucket结构体的内部数据

__global__ void print_bucket_cuda(bucket *bc, int *shape){

    int i = blockDim.x * blockIdx.x + threadIdx.x;

    if (i < 4){

        bucket bc_i = bc[i];

        for (int j=0; j<shape[i]; j++){

            printf("%d %d\n", i, bc_i.ptr[j]);

        }

    }

}

int main(){

    // 定义Host侧数据

    int arr[4][3] = {{0,1,2},{1,2,3},{2,3,4},{3,4,5}};

    int shape[4] = {2,3,2,1};

    // 先定义Host侧结构体，但是第二重指针在Device侧分配和定义

	bucket _bc[4];

    for (int i=0; i<4; i++){

        _bc[i].num = shape[i];

        cudaMalloc((void**)&(_bc[i].ptr), shape[i]*4);

        cudaMemcpy(_bc[i].ptr, arr[i]+3-shape[i], shape[i]*4, cudaMemcpyHostToDevice);

    }

    // 定义Device侧的结构体

    bucket *d_bc;

    cudaMalloc((void**)&d_bc, sizeof(bucket)*4);

    int *d_shape;

    cudaMalloc((void**)&d_shape, sizeof(int)*4);

    // 将Host侧结构体拷贝到Device侧

    cudaMemcpy(d_bc, _bc, sizeof(bucket)*4, cudaMemcpyHostToDevice);

    cudaMemcpy(d_shape, shape, sizeof(int)*4, cudaMemcpyHostToDevice);

    // 运行Kernel打印函数

    print_bucket_cuda<<<4, 1>>>(d_bc, d_shape);

    // CUDA线程同步

    cudaDeviceSynchronize();

    // 释放CUDA显存

    cudaFree(d_bc);

    cudaFree(d_shape);

    return 0;

}

在这个实现中，比较重要的一个难点是，我们从Host侧拷贝一个双重指针去Device侧，如果直接拷贝第一重的指针，会出现一个问题是在Device侧无法读取在Host上存储的第二重指针的数据。因此我们在Host侧拷贝数据给Device侧时，我们应该先定义一个Host侧的结构体，但该结构体的第二重指针应该指向Device侧的内存。然后再将第一重的指针拷贝到Device侧，这样才完成了整个结构体的内容拷贝，在Device上才可以识别。该代码的运行结果如下所示：

$ nvcc -Xcompiler -fPIC -o main main.cu && ./main

2 3

3 5

1 1

0 1

2 4

0 2

1 2

1 3

这里是乱序的打印，因为CUDA在计算时几乎是同一时间完成的，因此打印任务也是同时执行的，至于哪一个结果先被输出出来，其实是有一定的随机性的。但是通过对比，我们发现这里输出的数据内容跟前面C++的代码输出内容是一致的。第一列的数据表示第一个维度的索引ID，如果输出是0也就对应上面C++输出的第一行内容。例如这里首位是0的数据，第二列对应元素有1和2，这里就跟C++第一行输出的数组内容对应上了。

总结概要

继上一篇文章学习使用C++存储一个不规则二维数组之后，这里介绍如何在C语言版的CUDA中实现一个不规则的二维数组。总体的实现思路跟前面一篇文章一样，使用了一个二维的指针数组来存储。其中主要的不同点大概就是在Host和Device之间的内存交互上，需要不断的分配、拷贝和释放内存，最终我们还是用一个CUDA的Kernel函数实现了一个不规则数组的输出。

版权声明

本文首发链接为：https://www.cnblogs.com/dechinphy/p/cuda_ptr.html

作者ID：DechinPhy

更多原著文章：https://www.cnblogs.com/dechinphy/

请博主喝咖啡：https://www.cnblogs.com/dechinphy/gallery/image/379634.html

CUDA指针数组Kernel函数的更多相关文章

C++中的指针、数组指针与指针数组、函数指针与指针函数
C++中的指针.数组指针与指针数组.函数指针与指针函数本文从刚開始学习的人的角度,深入浅出地具体解释什么是指针.怎样使用指针.怎样定义指针.怎样定义数组指针和函数指针.并给出相应的实例演示.接着,差 ...
golang中数组指针和指针数组当做函数参数如何修改数组中的值
先理解:数组指针它的类型时指针,指针数组它的类型时数组 1. 数组指针当做函数的参数 package main import "fmt" func changeData(dataA ...
C++数组指针、指针数组、函数指针的核心概念
1.什么叫数组指针? 数组指针:一个指向一维或者多维数组的指针. 比如:int * b=new int[10];指向一维数组的指针b ; 注意,这个时候释放空间一定要delete [] ,否则会造成内 ...
C语言--- 高级指针2(结构体指针,数组作为函数参数)
一.结构体指针 1. 什么是结构体指针?指向结构体变量的指针结构体: typedef struct stu{ char name[ ...
C/C++ 一段代码区分数组指针|指针数组|函数指针|函数指针数组
#include<stdio.h> #include<stdlib.h> #include<windows.h> /* 举列子说明什么是函数指针 */ //以一个加 ...
C++二级指针第一种内存模型（指针数组）
二级指针第一种内存模型(指针数组) 指针的输入特性:在主调函数里面分配内存,在被调用函数里面使用指针的输出特性:在被调用函数里面分配内存,主要是把运算结果甩出来指针数组在C语言和C++语言中,数组 ...
嵌入式-C语言基础：指针数组（和数组指针区分开来）
指针数组:一个数组,若其元素均为指针类型的数据,称为指针数组,指针数组存放的是指针类型的数据,也就是指针数组的每个元素都存放一个地址.下面定义一个指针数组: int * p[4];//[]的优先级是比 ...
CUDA学习，第一个kernel函数及代码讲解
前一篇CUDA学习,我们已经完成了编程环境的配置,现在我们继续深入去了解CUDA编程.本博文分为三个部分,第一部分给出一个代码示例,第二部分对代码进行讲解,第三部分根据这个例子介绍如何部署和发起一个k ...
C与指针（结构体指针，函数指针，数组指针，指针数组）定义与使用
类型普通指针指针数组(非指针类型) 数组指针结构体指针函数指针二重指针定义方式 int *p; int *p[5]; int (*p)[5]; int a[3][5]; struct{.. ...
C++基础——函数指针函数指针数组
==================================声明================================== 本文版权归作者所有. 本文原创,转载必须在正文中显要地注明 ...

随机推荐

VS2013未能正确加载microsoft.visualstudio.editor.implementation.editorpackage
在用VS2013做项目,但是特别不顺利,这不,VS2013突然罢工了,连解决方案都打不开了,会出现如下的错误: 试了网上的各种解决方案,总算找到一个适合自己的,具体方法如下: 1.打开VS2013的& ...
TienChin 渠道管理-工程创建
因为本文章主要围绕着项目开发进行,所以前言不做开头,直接上内容. 添加字段我们的渠道表,我看到若依脚手架当中有一个是否删除的标志字段,所以我这里也添加一下: ALTER TABLE `tienchi ...
Jmeter报错权限不够
Jmeter报错权限不够解决办法: chmod +x jmeter
年末将至，Java 开发者必须了解的 16 个Java 顶级开源项目！
年末将至,值得你关注的16个Java 开源项目! 本文已经收录自笔者开源的 JavaGuide: https://github.com/Snailclimb/JavaGuide ([Java学习+面试 ...
python随机种子seed的作用（强化学习常用到）
先上代码 import math import gym from gym import spaces, logger from gym.utils import seeding import nump ...
Flask Paginate实现表格分页
flask_paginate 是 Flask 框架的一个分页扩展,用于处理分页相关的功能.它可以帮助你在 Flask Web 应用程序中实现分页功能,让用户可以浏览大量数据的不同部分.本篇博文重点讲述 ...
Python 实现专属字典生成器
编写一个密码生成工具,这里我们使用弱密码与个性化数组组合形成一个定制字典,例如收集用户的姓名,昵称,QQ号手机号等资源,然后通过Python对搜集到的数据与弱密码进行结合,从而定制出属于某个人的专属密 ...
《IDEA Plugin 开发手册》• 小傅哥.pdf | 年前整理的最后一本PDF资料
作者:小傅哥博客:https://bugstack.cn 沉淀.分享.成长,让自己和他人都能有所收获! 一.前言为什么?写写快乐的热门文章不好吗! 从开始准备成体系的编写 IDEA Plugin ...
将Windows系统设置为NTP服务器
环境 Windows 10,本机IP地址为:192.168.6.133 步骤一.编辑注册表 win+r快捷键打开运行窗口,输入regedit打开注册表编辑器,找到以下几项并修改其值: 1.将type ...
如何在Visual Studio新C++项目中调用之前配置过的库？
本文介绍在Visual Studio软件中调用C++各种配置.编译完毕的第三方库的方法. 在撰写C++代码时,如果需要用到他人撰写的第三方库(例如地理数据处理库GDAL.矩阵运算库Armadi ...

CUDA指针数组Kernel函数