CUDA学习之二：shared_memory使用，矩阵相乘

CUDA中使用shared_memory可以加速运算，在矩阵乘法中是一个体现。

矩阵C = A * B，正常运算时我们运用 C[i,j] = A[i,:] * B[:,j] 可以计算出结果。但是在CPU上完成这个运算我们需要大量的时间，设A[m,n]，B[n,k]，那么C矩阵为m*k，总体，我们需要做m*n*k次乘法运算，m*(b-1)*k次加法运算，并且是串行执行，总体的复杂度为O(m*n*k) 。

矩阵类：

 class Matrix

 {

 public:

     int cols;   // x

     int rows;   // y

     float *data;  //数据，一位数组

 }

CPU上的程序,一个三层循环

for(int i =;i< C.rows;i++)

    {

        for(int j =;j< C.cols;j++)

        {

            float *a = A.data;

            float *b = B.data;

            for(int k=;k<A.cols;k++)

                C.data[i*C.cols+j]+=a[i*A.cols+k] * b[k*B.cols+j];

        }

    }

}

我们想到用GPU加速，在CUDA上实现，我们这么写kernel：

__global__ void matrixMulKernel(const Matrix A, const Matrix B, Matrix C)

{

    // Each thread computes one element of C

    // by accumulating results into Cvalue

    float Cvalue = ;

    int row = blockIdx.y * blockDim.y + threadIdx.y;

    int col = blockIdx.x * blockDim.x + threadIdx.x;

    for (int e = ; e < A.cols; ++e)

    Cvalue += A.data[row * A.cols + e]* B.data[e * B.cols + col];

    C.data[row * C.cols + col] = Cvalue;

}

此时，计算过程是并行的，但是访问A，B矩阵时，不能同时访问，因此主要的时间花在内存读取，每个线程读取A的一行，B的一列，计算C的对应值；所以这样需要从global memory中读n次A，m次B。时间复杂度是O(m+n)次内存访问，以及k次乘法运算。

实际上还有一种办法，可以用shared memory，这里我们把A，B矩阵按照blocksize划分为子矩阵subA[blocksize][blocksize]、subB[blocksize][blocksize]。并将子矩阵设置为__shared__。 thread block内所有threads共用（可读可写）shared memory。如此一来，A只从global memory读了n/block_size次，B只读了m/block_size次；时间复杂度是O(m/block_size+n/block_size)次内存访问，以及k次乘法运算。进一步减少的时间复杂度。代码如下：

__global__ void matrixMulKernel(const float *A, const float *B, float *C,int Aw ,int Bw)

{

    const int bs = CUDA_LG::block_size;

    int tx = threadIdx.x;

    int ty = threadIdx.y;

    int bx = blockIdx.x;

    int by = blockIdx.y;

    int aBlockFisrt = by * bs * Aw ;

    int aBlockStep  = bs ;

    int aBlockLast  = by * bs * Aw  + Aw -  ;

    int bBlockFisrt = bx * bs ;

    int bBlockStep  = bs * Bw ;

    float subC=;

    for(int a = aBlockFisrt,int b = bBlockFisrt; a <= aBlockLast ;a+=aBlockStep,b+=bBlockStep )

    {

        //定义两个shared memory的子矩阵

        __shared__ float  subA[bs][bs];

        __shared__ float  subB[bs][bs];

        subA[ty][tx] = A[a + ty * Aw + tx];

        subB[ty][tx] = B[b + ty * Bw + tx];

        __syncthreads(); 

        for(int i = ;i<bs;i++)

        {

            subC += subA[ty][i] * subB[i][tx];

        }    

        __syncthreads();

    }

    C[ by*bs*Bw + bx*bs + ty * Bw +tx] = subC;

}

参考sample_6.5\0_Simple\matrixMul程序。里面注释详细

参考Rachel zhang的博客CUDA学习系列之二：http://blog.csdn.net/abcjennifer/article/details/42528569

CUDA学习之二：shared_memory使用，矩阵相乘的更多相关文章

MPI学习笔记（二）：矩阵相乘的两种实现方法
mpi矩阵乘法(C=αAB+βC) 最近领导让把之前安装的软件lapack.blas里的dgemm运算提取出来独立作为一套程序,然后把这段程序改为并行的,并测试一下进程规模扩展到128时的并行效率. ...
pgloader 学习（二）特性矩阵&&命令行
pgloader 对于各种数据库支持的还是很完整的,同时有一套自己的dsl 特性矩阵操作命令命令格式 pgloader [<options>] [<command-file> ...
CUDA学习（二）之使用clock()函数
clock()函数是C/C++中的计时函数,相关的数据类型是clock_t,使用clock函数可以计算运行某一段程序所需的时间,如下所示程序计算从10000000逐渐减一直到0所需的时间. #incl ...
CUDA学习之一：二维矩阵加法
今天忙活了3个小时,竟然被一个苦恼的CUDA小例程给困住了,本来是参照Rachal zhang大神的CUDA学习笔记来一个模仿,结果却自己给自己糊里糊涂,最后还是弄明白了一些. RZ大神对CUDA关于 ...
CUDA学习笔记（二）【转】
来源:http://luofl1992.is-programmer.com/posts/38847.html 编程语言的特点是要实践,实践多了才有经验.很多东西书本上讲得不慎清楚,不妨自己用代码实现一 ...
CUDA编程－（2）其实写个矩阵相乘并不是那么难
程序代码及图解析: #include <iostream> #include "book.h" __global__ void add( int a, int b, i ...
dp方法论——由矩阵相乘问题学习dp解题思路
前篇戳:dp入门——由分杆问题认识动态规划导语刷过一些算法题,就会十分珍惜“方法论”这种东西.Leetcode上只有题目.讨论和答案,没有方法论.往往答案看起来十分切中要害,但是从看题目到得到思路 ...
利用Hadoop实现超大矩阵相乘之我见（二）
前文在<利用Hadoop实现超大矩阵相乘之我见(一)>中我们所介绍的方法有着“计算过程中文件占用存储空间大”这个缺陷,本文中我们着重解决这个问题. 矩阵相乘计算思想传统的矩阵相乘方法为 ...
java学习-zxing生成二维码矩阵的简单例子
这个例子需要使用google的开源项目zxing的核心jar包 core-3.2.0.jar 可以百度搜索下载jar文件,也可使用maven添加依赖 <dependency> <gr ...

随机推荐

Java中避免空指针常见的方法
什么是空指针? 当一个变量的值为null时,在Java里表示一个不存在的空对象,没有实际内容,没有给它分配内存,null也是对象成员的默认值.所以,一个对象如果没有进行初始化操作,这时如果调用这个对象 ...
shell脚本学习 (8) fmt 格式化段落
1 获取系统中的字典文件 -n隐藏查找过程 -e 匹配多次,只打印带p的行(不能写成-e -n) ,100p /usr/share/dict/words 会显示1-100行的字母 2 fmt 按默认 ...
POJ 3525 Most Distant Point from the Sea (半平面交)
Description The main land of Japan called Honshu is an island surrounded by the sea. In such an isla ...
phpstudy的80端口被占用问题
1.查看电脑中当前程序占用的端口和程序ID 当phpstudy设置端口号为80时显示占用,在命令行中输入:netstat -ano 就可以看到当前电脑中程序占用的端口和程序ID等等信息 2.查看正在运 ...
HDU 6121 Build a tree —— 2017 Multi-University Training 7
HazelFan wants to build a rooted tree. The tree has nn nodes labeled 0 to n−1, and the father of the ...
ip地址与子网掩码----基础知识
前言 IP地址有三种基本类型,由网络号的第一组数字来表示. A类地址的第一组数字为1-126. B类地址的第一组数字为128-191. C类地址的第一组数字为192-223. 注:数字0和 127不作 ...
Hibernate:More than one row with the given identifier was found解决办法
今天写一个Action 通过 HQL 查询一个表出现异常 “More than one row with the given identifier was found” 问题原因: 数据库出现数据异 ...
用DECODE进行排序
DECODE用法: 现定义一table名为output,其中定义两个column分别为monthid(var型)和sale(number型),若sale值=1000时翻译为D,=2000时翻译为C,= ...
用 Flask 来写个轻博客 (28) — 使用 Flask-Assets 压缩 CSS/JS 提升网页加载速度
Blog 项目源码:https://github.com/JmilkFan/JmilkFan-s-Blog 目录目录前文列表扩展阅读 Flask-Assets 将 Flask-Assets 应用 ...
lr 计算字符串长度
sizeof求后面的内容or表达式所占用的字节数 strlen求字符串的有效长度,只要遇到'\0'就认为字符串结束字符串转化为int型变量 Action2() { int j = 0; j = at ...

CUDA学习之二：shared_memory使用，矩阵相乘

CUDA学习之二：shared_memory使用，矩阵相乘的更多相关文章

随机推荐

热门专题