gpu显存（全局内存）在使用时数据对齐的问题

全局存储器，即普通的显存，整个网格中的随意线程都能读写全局存储器的任何位置。

存取延时为400-600 clock cycles 很easy成为性能瓶颈。

訪问显存时，读取和存储必须对齐，宽度为4Byte。假设没有正确的对齐，读写将被编译器拆分为多次操作，减少訪存性能。

多个warp的读写操作假设可以满足合并訪问，则多次訪存操作会被合并成一次完毕。合并訪问的条件，1.0和1.1的设备要求较严格，1.2及更高能力的设备上放宽了合并訪问的条件。

1.2及其更高能力的设备支持对8 bit、16 bit、32 bit、64 bit数据字的合并訪问，对应的段的大小为：32Byte 64Byte 128Byte，大于128Byte，分两次传输。

在一次合并传输的数据中，不要求线程编号和訪问的数据字编号同样。

当訪问128Byte数据时，假设地址没有对齐到128Byte时，在GT200会产生两次合并訪存。依据每一个区域的大小，分为两次合并訪存，如图所看到的32Byte和96Byte。

全局存储器在使用的时候，主要注意的两个问题：

1. 数据对齐的问题。一维数据使用cudaMalloc()开辟gpu全局内存空间，多维数据建议使用cudaMallocPitch()建立内存空间，以保证段对齐。cudaMallocPitch函数分配的内存中，数组的每一行的第一个元素的開始地址都保证是对齐的。由于每行有多少个数据是不确定的widthofx*sizeof(元素)不一定是256的倍数。故此，为保证数组的每一行的第一个元素的開始地址对齐，cudaMallocPitch在分配内存时，每行会多分配一些字节，以保证widthofx*sizeof(元素)+多分配的字节是256的倍数(对齐)。这样，y*widthofx*sizeof(元素)+x*sizeof(元素)来计算a[y][x]的地址就不对了。而应该是y*[widthofx*sizeof(元素)+多分配的字节]+x*sizeof(元素)。而函数中返回的pitch的值就是widthofx*sizeof(元素)+多分配的字节。

2. 合并訪问。关键就是要理解，GPU是以half-warp（1.2及更高设备为warp）进行訪存时，即16个线程一起訪问存储器，到这16个线程的訪问的地址在同一块区域（指硬件上能够一起传送宽度）时，而且没有冲突产生时，则这块区域的数据能够被线程同一时候，提升了訪存的效率。

gpu显存（全局内存）在使用时数据对齐的问题的更多相关文章

GPU 显存释放
我们在使用tensorflow 的时候, 有时候会在控制台终止掉正在运行的程序,但是有时候程序已经结束了,nvidia-smi也看到没有程序了,但是GPU的内存并没有释放,那么怎么解决该问题呢? 首先 ...
（原）tensorflow中使用指定的GPU及GPU显存
转载请注明出处: http://www.cnblogs.com/darkknightzh/p/6591923.html 参考网址: http://stackoverflow.com/questions ...
ubuntu服务器常见使用技巧及-kill掉后GPU显存不释放进程-
如何解决python进程被kill掉后GPU显存不释放的问题 1 重新开一个shell,然后输入: ps aux|grep user_name|grep python.所有该用户下的python程序就 ...
Ubuntu-Tensorflow 程序结束掉GPU显存没有释放的问题
笔者在ubuntu上跑Tensorflow的程序的时候,中途使用了Win+C键结束了程序的进行,但是GPU的显存却显示没有释放,一直处于被占用状态. 使用命令 nvidia-smi 显示如下两个GP ...
tensorflow中使用指定的GPU及GPU显存
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 本文目录 1 终端执行程序时设置使用的GPU 2 python代码中设置使用的GPU 3 设置tensorflow使用的显 ...
解决GPU显存未释放问题
前言今早我想用多块GPU测试模型,于是就用了PyTorch里的torch.nn.parallel.DistributedDataParallel来支持用多块GPU的同时使用(下面简称其为Dist). ...
解决矩池云GPU显存未释放问题
很多用户反馈说终止程序之后,显存依然被占用,这里我们提供了两种解决方案,帮助用户解决这个问题. nvidia-smi查看我们可以先用如下命令 nvidia-smi 查看一下当前GPU进程情况. _ ...
Saiku多用户使用时数据同步刷新（十七）
Saiku多用户使用时数据同步刷新这里我们需要了解一下关于saiku的刷新主要有两种数据需要刷新: >1 刷新数据库的表中的数据,得到最新的表数据进行展示. >2 刷新cube信息,得到 ...
查找和杀掉占用GPU显存的进程
用只有2个G的显卡跑数据就需要在训练之前先把无关进程杀掉,防止跑到一半显存满了 nvidia-smi:显示当前GPU中的线程 kill -9 PID:输入PID以结束线程

随机推荐

玩转Web之JavaScript（四）-----javaScript语法总结（四） JS中的函数
1.function/return function用来定义函数(位于head部分),函数包含着一些代码,这些代码只能被事件激活,或者在函数被调用时才会执行. return 用来从函数中返回值 ...
java线程中的sleep和wait区别
面试题:java线程中sleep和wait的区别以及其资 ...
sdut 上机练习8面向对象编程（对象的数组）
上机练习8面向对象编程(对象的数组) Time Limit: 1000MS Memory limit: 65536K 题目描写叙述利用类对象数组完毕N个学生数据(学号是字符串类型.成绩是整型)的输入 ...
【Nginx】显示器port管理
监听port属于server虚拟主机,由server{}块内的listen配置项决定. 也就是说,在server{}块配置项内定义了该虚拟主机所要监听的port. 在处理配置文件http块内main级 ...
opencv-阈值处理
从原理:http://www.opencv.org.cn/opencvdoc/2.3.2/html/doc/tutorials/imgproc/threshold/threshold.html 目标: ...
《R实战》读书笔记三
第二章创建数据集本章概要 1探索R数据结构 2使用数据编辑器 3数据导入 4数据集标注本章所介绍内容概括例如以下. 两个方面的内容. 方面一:R数据结构方面二:进入数据或者导入数据到数据结构 ...
ubuntu13.10 下一个 g++和gcc 4.8不兼容的问题不能被安装
前gcc这是4.8.x.导致g++不能用.因此,要网上找了很多办法,在安装过程中或这些以下问题的出现: 1. Unable to exec g++.real: 没有那个文件或文件夹 2. 下列软件包 ...
oracle中execute immediate的使用（select/insert/update/delete）(转)
execute immediate的语法如下: execute immediate 'sql'; execute immediate 'sql_select' into var_1, var_2; e ...
spring framework 4 源代码阅读器(1) --- 事前准备
在你开始看代码.的第一件事要做的就是下载代码. 这里:https://github.com/spring-projects/spring-framework 下载完整的使用发现gradle建立管理工具 ...
初步swift该研究指出语言(基本数据类型)
笔者:fengsh998 原文地址:http://blog.csdn.net/fengsh998/article/details/28258805 转载请注明出处假设认为文章对你有所帮助,请通过留言 ...

gpu显存（全局内存）在使用时数据对齐的问题

gpu显存（全局内存）在使用时数据对齐的问题的更多相关文章

随机推荐

热门专题