二维数组的传输 (host <-> device)

前言

　　本文的目的很明确：介绍如何将二维数组传递进显存，以及如何将二维数组从显存传递回主机端。

实现步骤

　　1. 在显存中为二维数组开辟空间

　　2. 获取该二维数组在显存中的 pitch 值 (cudaMallocPitch 实现)

　　3. 将二维数组传递进显存 (cudaMemcpy2D 实现)

　　4. 在显存中对该二维数组进行处理 (目前必须按照 1 维数组的规则进行处理)

　　5. 将结果传递回内存 (cudaMemcpy2D实现)

重要概念 - pitch

　　对于内存的存取来说，对准偏移量为2的幂（现在一般要求2^4=16）的地址能获取更快的速度，而如果不对齐，可能你需要的数据需要更多的存取次数才能得到。

　　为了满足这个条件，对于一个二维数组来说（行优先row major），就希望每一行的开头都满足“对齐”。如果一行的长度不规整，导致下一行开头不在指定的位置，就需要在每一行末尾进行填充（padding），从而使得每一行都对齐，这和BMP格式的像素存储是一个道理。

　　pitch就是指每一行的字节数 + padding的字节数。

　　使用 cudaMemcpy2D 的目的仅是为了利用 pitch 机制提升二维数组中元素的访问速度。事实上二维数组传递进显存后，还是得按照一维数组的规范去处理该二维矩阵。global 函数中目前不支持多下标访问，好坑。。

代码示例

 #include "cuda.h"

 #include "cuda_runtime.h"

 #include <iostream>

 using namespace std;

 // 定义测试二维数组的行列数

 const int R = ;

 const int C = ;

 int main()

 {

     // 定义一个用于测试的二维数组，其每个元素都赋值为0，并将其打印出来。

     int array2D[R][C];

     cout << "传输前的测试矩阵:" << endl;

     for (int i=; i<R; i++) {

         for (int j=; j<C; j++) {

             array2D[i][j] = ;

             cout << array2D[i][j] << " ";

         }

         cout << endl;

     }

     // 再定义另一个同样大小的二维数组用于获取从显存传回的结果

     int result[R][C];

     cout << "传输前的结果矩阵:" << endl;

     for (int i=; i<R; i++) {

         for (int j=; j<C; j++) {

             result[i][j] = ;

             cout << result[i][j] << " ";

         }

         cout << endl;

     }

     // 为此二维数组在显存中分配内存

     int *d_array2D;

     cudaMalloc ((void**)&d_array2D, sizeof(int)*R*C);

     // 获取显存中的二维数组的 pitch 值

     size_t d_pitch;

     cudaMallocPitch ((void**) &d_array2D, &d_pitch, sizeof(int)*C, R);

     // 将二维数组转移进显存

      cudaMemcpy2D (

          d_array2D,    // 目的地址

          d_pitch,    // 目的 pitch

          array2D,    // 源地址

          sizeof(int)*C,    // 源 pitch

          sizeof(int)*C,    // 数据拷贝宽度

          R,    // 数据拷贝高度

          cudaMemcpyHostToDevice    // 数据传递方向

         );

      // 将二维数组从显存传输回主机端的结果矩阵中

      cudaMemcpy2D (

          result,    // 目的地址

          sizeof(int)*C,    // 目的 pitch

          d_array2D,    // 源地址

          d_pitch,    // 源 pitch

          sizeof(int)*C,    // 数据拷贝宽度

          R,    // 数据拷贝高度

          cudaMemcpyDeviceToHost    // 数据传递方向

         );

     // 打印传回到结果矩阵的数据

     cout << "从显存获取到测试矩阵后的结果矩阵:" << endl;

     for (int i=; i<R; i++) {

         for (int j=; j<C; j++) {

             cout << result[i][j] << " ";

         }

         cout << endl;

     }

     cudaFree (d_array2D);

     cin.get();

     return EXIT_SUCCESS;

 }

运行测试

小结

　　本文介绍的仅仅是二维数组在两端之间的传输！当二维数组传递进了显存，在对其操作的过程中，是需要对其进行一个一维到二维的下标操作转换的，global 中不支持多下标访问。之所以加入 pitch 并使用 cudaMemcpy2D 只是为了提高元素的访问速度。

　　如果需要具体处理传递进入的二维数组，还要将 pitch 也作为参数传递进 kernel 函数，如下所示：

// 下面的 kernel 函数将二维数组的所有位置为 2

__global__

void kernelFun (int *d_array2D, int pitch)

{

    for (int i=; i<R; i++) {

        int *row = (int *)((char *)d_array2D+i*pitch);

        for (int j=; j<C; j++) {

            row[j] = ;

        }

    }

    return;

}

二维数组的传输 (host <-> device)的更多相关文章

第六篇：二维数组的传输 (host <-> device)
前言本文的目的很明确:介绍如何将二维数组传递进显存,以及如何将二维数组从显存传递回主机端. 实现步骤 1. 在显存中为二维数组开辟空间 2. 获取该二维数组在显存中的 pitch 值 (cudaMa ...
二维数组 cudaMallocPitch() 和三维数组 cudaMalloc3D() 的使用
▶ 使用函数 cudaMallocPitch() 和配套的函数 cudaMemcpy2D() 来使用二维数组.C 中二维数组内存分配是转化为一维数组,连贯紧凑,每次访问数组中的元素都必须从数组首元素开 ...
dbda封装类（包括：返回二维数组、Ajax调用返回字符串、Ajax调用返回JSON）
<?php class DBDA { public $host = "localhost"; public $uid = "root"; public $ ...
MVC5中使用jQuery Post 二维数组和一维数组到Action
很久没有写了,最近在做一个MVC项目,这是我做的第一个MVC项目.之前可以说多MVC一点都不了解,今天把昨天遇到的一个问题记录下来.MVC大神就请飘过吧,跟我遇到同样问题的可以进来看看.遇到的第一个问 ...
PHP 二维数组根据某个字段排序
二维数组根据某个字段排序有两种办法,一种是通过sort自己写代码,一种是直接用array_multisort排序函数一. 手写arraysort PHP的一维数组排序函数: sort 对数组的值按 ...
剑指Offer-【面试题03：二维数组中的查找】
package com.cxz.question3; /* * 在一个二维数组中,每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序. * 请完成一个函数,输入这样的一个二维数组和 ...
PHP开发笔记：二维数组根据某一项来进行排序
比如说我们现在有一个二维数组: $arr = array( ‘d' => array(‘id' => 5, ‘name' => 1, ‘age' => 7), ‘b' => ...
剑指Offer面试题：2.二维数组中的查找
一.题目:二维数组中的查找题目:在一个二维数组中,每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序.请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数. ...
PHP 根据key 给二维数组分组
我们经常拿到一个二维数组出来,会发现结果和自己想要的有些偏差,可能需要根据二维数组里的某个字段对数组分组.先来看以下数组, Array ( [0] => Array ( [id] => 1 ...

随机推荐

FZU 2032 Log函数问题模拟小数加法
题目链接:Log函数问题 2 / 49 Problem G FZU 2032 Log函数问题不知道为什么...比赛时高精度难倒了一票人...成功搞出大新闻... 试了一下直接double相加超时,然 ...
HTML元素，属性，基础标签
元素,属性元素 html有父元素和子元素,被包含的叫子元素,如html是head的父元素,他们是父子关系,head和body是兄弟关系 <html> <head></h ...
流控panabit的安装及配置
软件: 在panabit的下载页面上,没有最新的版本.刚开始就是从这个地方下载的,但是有一块网卡怎么也找不到.各种加载网卡驱动,最后失败. 之后,从其论坛中发现了最新的2013.05版本,将ISO刻盘 ...
jquery删除原事件
$(document).ready(function(){ var fn = $("#exportCsv").attr( "onclick" ); // 获取原 ...
二模（13）day1
第一题: 题目大意: N个发射站排成一排,求每个发射站左右第一个比它高的发射站. N<=1000000 解题过程: 1.前几天做poj的时候刚好在discuss里看到有一个神奇的东东叫单调栈,正 ...
Redis系列-存储篇string主要操作函数小结
通过上两篇的介绍,我们的redis服务器基本跑起来.db都具有最基本的CRUD功能,我们沿着这个脉络,开始学习redis丰富的数据结构之旅,当然先从最简单且常用的string开始. 1.新增 a)se ...
Redhat6.x下如何制作虚拟机快照和镜像封装
一.虚拟机快照 1.确认你的物理机上的vg还有足够的剩余空间 [root@hacker ~]# vgs VG #PV #LV #SN Attr VSize VFree vg_ ...
auto_ptr的使用原则
auto_ptr是c++标准库中的一种严格所有权型的智能指针,实现在backward/auto_ptr.h文件中 pro: 1.做临时变量时,不需要手动去释放资源 void f() { ClassA ...
bjui简单了解
bjui官网:http://demo.b-jui.com/ 其他的我就不是很了解,恶心.
MapReduce 重要组件——Recordreader组件
(1)以怎样的方式从分片中读取一条记录,每读取一条记录都会调用RecordReader类: (2)系统默认的RecordReader是LineRecordReader,如TextInputFormat ...

二维数组的传输 (host <-> device)

二维数组的传输 (host <-> device)的更多相关文章

随机推荐

热门专题