cudaMemcpy cudaMalloc

cudaMemcpy有四种类型：HostToHost, DeviceToHost, HostToDevice, DeviceToDevices

现在我有两个指针:h_ptr, d_ptr，分别指向host端某数组的起始位置，和device端数组的起始位置。num是h_ptr数组的大小，一开始只有host端存有这个数组。

这两个指针是直接定义在host端的，比如

int *h_ptr;

int *d_ptr;

当我要在Device（也就是GPU）上创建一个d_ptr指向的数组，并把h_ptr数组的值拷贝过去时：

cudaMalloc((void**)&d_ptr, (num) * sizeof(int));  //注意这里是void**

cudaMemcpy(d_ptr, h_ptr,

           sizeof(int) * (num), cudaMemcpyHostToDevice);

需要先在GPU上malloc一段内存，然后使用cudaMemcpyHostToDevice指定内存传输方向，把num个int传过去。

那么现在，虽然d_ptr仍然是host端的指针，但它指向的地址是device端的了，我在GPU的kernel function中将d_ptr作为参数传进去，便可以在GPU端通过d_ptr获取数组的值了：

__global__ void kernel_opt(int *d_ptr, int num){

    int id = blockIdx.x * blockDim.x + threadIdx.x;

    if(id < num)

	    d_ptr[id] = calc(d_ptr[id]);

    // 计算

}

在GPU端计算完毕之后，可能要把数组中新的值传回host端，也就是d_ptr到h_ptr，在host端这样操作即可：

cudaMemcpy(h_ptr, d_ptr, sizeof(int) * (num), cudaMemcpyDeviceToHost);

总结：host端只能获取位于host端的内存（比如 h_ptr[0] ），device端只能获取位于device端的内存（比如 d_ptr[0]），如要跨界，使用cudaMemcpy。

cudaMemcpy cudaMalloc的更多相关文章

CUDA内存拷贝
原文链接1.cudaMemcpy()<--> cudaMalloc() //线性内存拷贝 1 //线性内存拷贝 2 cudaMalloc((void**)&dev_A, data ...
cudaMemcpy与cudaMemcpyAsync的区别
转载请注明来源:http://www.cnblogs.com/shrimp-can/p/5231857.html 简单可以理解为:cudaMemcpy是同步的,而cudaMemcpyAsync是异步的 ...
cudaMalloc和cudaMallocPitch
原文链接偶有兴趣测试了一下题目中提到的这两个函数,为了满足对齐访问数据,咱们平时可能会用到cudamallocPitch,以为它会带来更高的效率.呵呵,这里给出一段测试程序,大家可以在自己的机器上跑 ...
如何理解CUDA中的cudaMalloc()的参数
首先看下此运行时函数的原型: cudaError_t cudaMalloc (void **devPtr, size_t size ); 主要的第一个参数.为什么是两个星星呢?用个例子来说明下. fl ...
CUDA[2] Hello,World
Section 0:Hello,World 这次我们亲自尝试一下如何用粗(CU)大(DA)写程序 CUDA最新版本是7.5,然而即使是最新版本也不兼容VS2015 ...推荐使用VS2012 进入VS ...
CUDA[1] Introductory
Section 0 :Induction of CUDA CUDA是啥?CUDA®: A General-Purpose Parallel Computing Platform and Program ...
[CUDA] CUDA to DL
又是一枚祖国的骚年,阅览做做笔记:http://www.cnblogs.com/neopenx/p/4643705.html 这里只是一些基础知识.帮助理解DL tool的实现. “这也是深度学习带来 ...
CUDA程序设计(一)
为什么需要GPU 几年前我启动并主导了一个项目,当时还在谷歌,这个项目叫谷歌大脑.该项目利用谷歌的计算基础设施来构建神经网络. 规模大概比之前的神经网络扩大了一百倍,我们的方法是用约一千台电脑.这确实 ...

随机推荐

项目经验记录丨Modbus转EtherNET/IP协议转换应用
使用电脑通过软件来进行模拟 EtherNET/IP主站连接Mdodbus从站设备的项目记录.使用软件为EIPScan 模拟主站,通过Modbus转EtherNET/IP网关连接Modbus Slave ...
Spring 请求方法的调用原理（Controller）和请求参数的获取的原理
1.请求映射原理所有的请求都会经过DispatcherServlet这个类,先了解它的继承树本质还是httpServlet 原理图测试 request请求携带的参数从requestMapp ...
【深入学习.Net】.泛型集合【体检管理系统】
基于泛型List的体检管理系统(蜗牛爬坡) 第五章[体检管理系统] 一.项目展示图(基于.net core6.0) 二.首先准备两个Model类 HealthCheckItem(项目类):Name(项 ...
映射问题，命名空间不能为空：org.apache.ibatis.builder.BuilderException : Mapper's namesapce cannot be empty
今天配置Spring配置文件时,出现了以下的报错倒数第三行,意思是Mapper的namespace(命名空间)不能为空检查xml文件里映射文件是否配置,如果没有配置,那请添加映射文件,不然Spri ...
k8s驱逐篇(2)-kubelet节点压力驱逐
kubelet节点压力驱逐 kubelet监控集群节点的 CPU.内存.磁盘空间和文件系统的inode 等资源,根据kubelet启动参数中的驱逐策略配置,当这些资源中的一个或者多个达到特定的消耗水平 ...
identity4 系列————启航篇[二]
前言开始identity的介绍了. 正文前文介绍了一些概念,如果概念不清的话,可以去前文查看. https://www.cnblogs.com/aoximin/p/13475444.html 对一 ...
redis淘汰策略和过期策略
淘汰策略 https://blog.csdn.net/qq_55961709/article/details/124568269 LRU算法和LFU算法的区别: LRU:最近最少使用,淘汰时间长没有使 ...
java中的字符流知识点总结
java中字符流字符流:对文本的读取,速度比字节流快常见的字符流:Reader 和 Writer Reader是InputStreamReader的父类,InputStreamReader是Fil ...
C#基础_类的声明
新建Clerk类. using System; using System.Collections.Generic; using System.Linq; using System.Text; usin ...
【Java】idea同时运行多个一样的类
点击"Edit Configurations..." 在左侧选中需要重复运行的类单击"Modify options" 选择"Allow multip ...

cudaMemcpy cudaMalloc

cudaMemcpy cudaMalloc的更多相关文章

随机推荐

热门专题