CUDA学习之二：shared_memory使用，矩阵相乘

CUDA中使用shared_memory可以加速运算，在矩阵乘法中是一个体现。

矩阵C = A * B，正常运算时我们运用 C[i,j] = A[i,:] * B[:,j] 可以计算出结果。但是在CPU上完成这个运算我们需要大量的时间，设A[m,n]，B[n,k]，那么C矩阵为m*k，总体，我们需要做m*n*k次乘法运算，m*(b-1)*k次加法运算，并且是串行执行，总体的复杂度为O(m*n*k) 。

矩阵类：

 class Matrix

 {

 public:

     int cols;   // x

     int rows;   // y

     float *data;  //数据，一位数组

 }

CPU上的程序,一个三层循环

for(int i =;i< C.rows;i++)

    {

        for(int j =;j< C.cols;j++)

        {

            float *a = A.data;

            float *b = B.data;

            for(int k=;k<A.cols;k++)

                C.data[i*C.cols+j]+=a[i*A.cols+k] * b[k*B.cols+j];

        }

    }

}

我们想到用GPU加速，在CUDA上实现，我们这么写kernel：

__global__ void matrixMulKernel(const Matrix A, const Matrix B, Matrix C)

{

    // Each thread computes one element of C

    // by accumulating results into Cvalue

    float Cvalue = ;

    int row = blockIdx.y * blockDim.y + threadIdx.y;

    int col = blockIdx.x * blockDim.x + threadIdx.x;

    for (int e = ; e < A.cols; ++e)

    Cvalue += A.data[row * A.cols + e]* B.data[e * B.cols + col];

    C.data[row * C.cols + col] = Cvalue;

}

此时，计算过程是并行的，但是访问A，B矩阵时，不能同时访问，因此主要的时间花在内存读取，每个线程读取A的一行，B的一列，计算C的对应值；所以这样需要从global memory中读n次A，m次B。时间复杂度是O(m+n)次内存访问，以及k次乘法运算。

实际上还有一种办法，可以用shared memory，这里我们把A，B矩阵按照blocksize划分为子矩阵subA[blocksize][blocksize]、subB[blocksize][blocksize]。并将子矩阵设置为__shared__。 thread block内所有threads共用（可读可写）shared memory。如此一来，A只从global memory读了n/block_size次，B只读了m/block_size次；时间复杂度是O(m/block_size+n/block_size)次内存访问，以及k次乘法运算。进一步减少的时间复杂度。代码如下：

__global__ void matrixMulKernel(const float *A, const float *B, float *C,int Aw ,int Bw)

{

    const int bs = CUDA_LG::block_size;

    int tx = threadIdx.x;

    int ty = threadIdx.y;

    int bx = blockIdx.x;

    int by = blockIdx.y;

    int aBlockFisrt = by * bs * Aw ;

    int aBlockStep  = bs ;

    int aBlockLast  = by * bs * Aw  + Aw -  ;

    int bBlockFisrt = bx * bs ;

    int bBlockStep  = bs * Bw ;

    float subC=;

    for(int a = aBlockFisrt,int b = bBlockFisrt; a <= aBlockLast ;a+=aBlockStep,b+=bBlockStep )

    {

        //定义两个shared memory的子矩阵

        __shared__ float  subA[bs][bs];

        __shared__ float  subB[bs][bs];

        subA[ty][tx] = A[a + ty * Aw + tx];

        subB[ty][tx] = B[b + ty * Bw + tx];

        __syncthreads(); 

        for(int i = ;i<bs;i++)

        {

            subC += subA[ty][i] * subB[i][tx];

        }    

        __syncthreads();

    }

    C[ by*bs*Bw + bx*bs + ty * Bw +tx] = subC;

}

参考sample_6.5\0_Simple\matrixMul程序。里面注释详细

参考Rachel zhang的博客CUDA学习系列之二：http://blog.csdn.net/abcjennifer/article/details/42528569

CUDA学习之二：shared_memory使用，矩阵相乘的更多相关文章

MPI学习笔记（二）：矩阵相乘的两种实现方法
mpi矩阵乘法(C=αAB+βC) 最近领导让把之前安装的软件lapack.blas里的dgemm运算提取出来独立作为一套程序,然后把这段程序改为并行的,并测试一下进程规模扩展到128时的并行效率. ...
pgloader 学习（二）特性矩阵&&命令行
pgloader 对于各种数据库支持的还是很完整的,同时有一套自己的dsl 特性矩阵操作命令命令格式 pgloader [<options>] [<command-file> ...
CUDA学习（二）之使用clock()函数
clock()函数是C/C++中的计时函数,相关的数据类型是clock_t,使用clock函数可以计算运行某一段程序所需的时间,如下所示程序计算从10000000逐渐减一直到0所需的时间. #incl ...
CUDA学习之一：二维矩阵加法
今天忙活了3个小时,竟然被一个苦恼的CUDA小例程给困住了,本来是参照Rachal zhang大神的CUDA学习笔记来一个模仿,结果却自己给自己糊里糊涂,最后还是弄明白了一些. RZ大神对CUDA关于 ...
CUDA学习笔记（二）【转】
来源:http://luofl1992.is-programmer.com/posts/38847.html 编程语言的特点是要实践,实践多了才有经验.很多东西书本上讲得不慎清楚,不妨自己用代码实现一 ...
CUDA编程－（2）其实写个矩阵相乘并不是那么难
程序代码及图解析: #include <iostream> #include "book.h" __global__ void add( int a, int b, i ...
dp方法论——由矩阵相乘问题学习dp解题思路
前篇戳:dp入门——由分杆问题认识动态规划导语刷过一些算法题,就会十分珍惜“方法论”这种东西.Leetcode上只有题目.讨论和答案,没有方法论.往往答案看起来十分切中要害,但是从看题目到得到思路 ...
利用Hadoop实现超大矩阵相乘之我见（二）
前文在<利用Hadoop实现超大矩阵相乘之我见(一)>中我们所介绍的方法有着“计算过程中文件占用存储空间大”这个缺陷,本文中我们着重解决这个问题. 矩阵相乘计算思想传统的矩阵相乘方法为 ...
java学习-zxing生成二维码矩阵的简单例子
这个例子需要使用google的开源项目zxing的核心jar包 core-3.2.0.jar 可以百度搜索下载jar文件,也可使用maven添加依赖 <dependency> <gr ...

随机推荐

百度MIP技术快速入门（上）
前言「本文假定读者已经有初级的前端开发知识,包括HTML.CSS.」百度在一年前推出了称为 MIP(Mobile Instant Pages)的前端开发组件,主要目的是加速移动端网页的显示.MIP ...
Stream学习笔记
1. 创建Stream实例的五种方式 @Test public void test1(){ // 创建Stream对象的第一种方式 List<String> list = Lists.ne ...
div中粘贴图片并上传服务器 div中拖拽图片文件并上传服务器
应用简介:此文主要是描述如何在前端div中直接ctrl+v 粘贴图片,并上传到服务器,包括拖拽图片文件到div中应用场景描述:用QQ或者其它切图软件截图,在指定的div中ctrl+v 粘贴并显示,点 ...
Python读取文件时出现UnicodeDecodeError 'gbk' codec can't decode byte 0x80 in position x
Python在读取文件时 with open('article.txt') as f: # 打开新的文本 text_new = f.read() # 读取文本数据出现错误: UnicodeDecode ...
python中常用得字符串，列表函数汇总
字符串函数: 1,replace函数,替换函数.s = s.replace(old,new),老得元素被新的元素替换.注意不能直接写s.replace(old,new).要写s=s.replace(o ...
English-Useful sentences
很乐意 pull request. Pleased to pull request. 这个项目现在已经被弃用了. This project is now deprecated. 如你下面看到的,你可以 ...
头疼3－4次的问题，数据从DB导出到EXCEL，再从EXCEL导入到DB，数据格式发生错误，导致程序出错。
反思: 1 解决问题的思路绕远了: 在这个问题出现前,程序是运行正确的问题出现前,我误删了DB 的 testcase表的所有 case ,然后再把邮件中的excel数据导入到 DB 然后 ...
20150709---Web中GridView控件根据绑定的数据显示不同的图片
示例图: 根据数据判断,显示各种不同的图片该列的前端代码: <asp:TemplateField HeaderText="审图"> <ItemTemplate& ...
基于Java Agent的premain方式实现方法耗时监控（转），为了找到结论执行：premain在jvm启动的时候执行，所有方法前，会执行MyAgent的premain方法
Java Agent是依附于java应用程序并能对其字节码做相关更改的一项技术,它也是一个Jar包,但并不能独立运行,有点像寄生虫的感觉.当今的许多开源工具尤其是监控和诊断工具,很多都是基于Java ...
python多线程的几种情形分析-三种情况
情形一:默认情况默认情况,只开启线程,那么,主线程结束,其他子线程可能还没结束. 只使用t=threading.Thead(target=fun),t.start(). import threadi ...

CUDA学习之二：shared_memory使用，矩阵相乘

CUDA学习之二：shared_memory使用，矩阵相乘的更多相关文章

随机推荐

热门专题