CUDA -- 规约求矩阵的行和

　　求矩阵每行的和？

　　可以把每行放入一个不同线程块，这样行与行之间进行粗粒度的并行。而对于每行，其对应的线程块中分配n个线程（对应行宽），使用共享存储器，让每个线程从显存中读取一个数至shared memory中，然后使用规约算法计算和。

代码如下：

#include "cuda_runtime.h" //CUDA运行时API

#include "device_launch_parameters.h"

#include <iostream>

#include <stdio.h>

cudaError_t addWithCuda(int mat[][], int *ans, dim3 d);

__global__ void addKernel(int *mat, int *ans, size_t pitch)

{

    int bid = blockIdx.x;

    int tid = threadIdx.x;

    __shared__ int data[];

    int *row = (int*)((char*)mat + bid*pitch);

    data[tid] = row[tid];

    __syncthreads();

    for (int i = ; i > ; i /= ) {

        if (tid < i)

            data[tid] = data[tid] + data[tid + i];

        __syncthreads();

    }

    if (tid == )

        ans[bid] = data[];

}

int main()

{

    const int row = ;

    const int col = ;

    dim3 d(col, row);

    int mat[row][col] = { ,,,,,,,,

                        ,,,,,,,,

                        ,,,,,,,,

                        ,,,,,,, };

    int ans[row];

    // Add vectors in parallel.

    cudaError_t cudaStatus = addWithCuda(mat, ans, d);

    if (cudaStatus != cudaSuccess)

    {

        fprintf(stderr, "addWithCuda failed!\n");

        return ;

    }

    // cudaThreadExit must be called before exiting in order for profiling and

    // tracing tools such as Nsight and Visual Profiler to show complete traces.

    cudaStatus = cudaThreadExit();

    if (cudaStatus != cudaSuccess)

    {

        fprintf(stderr, "cudaThreadExit failed!");

        return ;

    }

    for (int i = ; i < d.y; i++)

    {

        std::cout << ans[i] << " ";

    }

    return ;

}

// 重点理解这个函数

cudaError_t addWithCuda(int mat[][], int *ans, dim3 d)

{

    int *dev_mat = ; //GPU设备端数据指针

    int *dev_ans = ;

    int pitch;

    cudaError_t cudaStatus; //状态指示

                            // Choose which GPU to run on, change this on a multi-GPU system.

    cudaStatus = cudaSetDevice(); //选择运行平台

    if (cudaStatus != cudaSuccess)

    {

        fprintf(stderr, "cudaSetDevice failed! Do you have a CUDA-capable GPU installed?");

        goto Error;

    }

    // 分配GPU设备端内存

    cudaStatus = cudaMallocPitch((void**)&dev_mat, (size_t *)&pitch, d.x * sizeof(int), d.y);

    if (cudaStatus != cudaSuccess)

    {

        fprintf(stderr, "cudaMalloc failed!\n");

        goto Error;

    }

    cudaStatus = cudaMalloc((void**)&dev_ans, d.y * sizeof(int));

    if (cudaStatus != cudaSuccess)

    {

        fprintf(stderr, "cudaMalloc failed!\n");

        goto Error;

    }

    // 拷贝数据到GPU

    cudaStatus = cudaMemcpy2D(dev_mat, pitch, mat, d.x*sizeof(int), d.x*sizeof(int), d.y, cudaMemcpyHostToDevice);

    if (cudaStatus != cudaSuccess)

    {

        fprintf(stderr, "cudaMemcpy for dev_mat failed!\n");

        goto Error;

    }

    cudaStatus = cudaMemcpy(dev_ans, ans, d.y * sizeof(int), cudaMemcpyHostToDevice);

    if (cudaStatus != cudaSuccess)

    {

        fprintf(stderr, "cudaMemcpy for dev_ans failed!\n");

        goto Error;

    }

    // 运行核函数

    cudaEvent_t start, stop;

    cudaEventCreate(&start);

    cudaEventCreate(&stop);

    cudaEventRecord(start, );

    addKernel<<<d.y,d.x>>>(dev_mat, dev_ans, pitch);

    //addKernel_thd << <1, size >> >(dev_c, dev_a, dev_b);

    cudaEventRecord(stop, );

    cudaEventSynchronize(stop);

    float tm;

    cudaEventElapsedTime(&tm, start, stop);

    printf("GPU Elapsed time:%.6f ms.\n", tm);

    // cudaThreadSynchronize waits for the kernel to finish, and returns

    // any errors encountered during the launch.

    cudaStatus = cudaThreadSynchronize(); //同步线程

    if (cudaStatus != cudaSuccess)

    {

        fprintf(stderr, "cudaThreadSynchronize returned error code %d after launching addKernel!\n", cudaStatus);

        goto Error;

    }

    // Copy output vector from GPU buffer to host memory.

    cudaStatus = cudaMemcpy(ans, dev_ans, d.y * sizeof(int), cudaMemcpyDeviceToHost); //拷贝结果回主机

    if (cudaStatus != cudaSuccess)

    {

        fprintf(stderr, "cudaMemcpy failed!");

        goto Error;

    }

Error:

    cudaFree(dev_mat); //释放GPU设备端内存

    cudaFree(dev_ans);

    return cudaStatus;

}

CUDA -- 规约求矩阵的行和的更多相关文章

POJ 1151 Atlantis（经典的线段树扫描线，求矩阵面积并）
求矩阵的面积并采用的是区间更新 #include <iostream> #include <stdio.h> #include <string.h> #inclu ...
HDU 1828 / POJ 1177 Picture （线段树扫描线，求矩阵并的周长，经典题）
做这道题之前,建议先做POJ 1151 Atlantis,经典的扫描线求矩阵的面积并参考连接: http://www.cnblogs.com/scau20110726/archive/2013/0 ...
MATLAB中求矩阵非零元的坐标
MATLAB中求矩阵非零元的坐标: 方法1: index=find(a); [i,j]=ind2sub(size(a),index); disp([i,j]) 方法2: [i,j]=find(a> ...
POJ 1151 Atlantis 求矩阵面积并扫描线具体解释
题意: 给定n个矩阵的左下角和右上角坐标,求矩阵面积并(矩阵总是正放的,即与x轴y轴都平行) 思路: 扫描线裸题 http://www.cnblogs.com/fenshen371/p/3214092 ...
求矩阵中各列数字的和 Exercise08_01
import java.util.Scanner; /** * @author 冰樱梦 * 时间:2018年12月 * 题目:求矩阵中各列数字的和 * */ public class Exercise ...
求矩阵主对角线元素的和 Exercise08_02
import java.util.Scanner; /** * @author 冰樱梦 * 时间:2018年12月 * 题目:求矩阵主对角线元素的和 * */ public class Exercis ...
matlab求矩阵、向量的模
求矩阵的模: function count = juZhenDeMo(a,b) [r,c] = size(a);%求a的行列 [r1,c1] = size(b);%求b的行列 count = 0; f ...
JAVA 基础编程练习题29 【程序 29 求矩阵对角线之和】
29 [程序 29 求矩阵对角线之和] 题目:求一个 3*3 矩阵对角线元素之和程序分析:利用双重 for 循环控制输入二维数组,再将 a[i][i]累加后输出. package cskaoyan; ...
市场清仓价格算法 python求矩阵不同行不同列元素和的最大值
问题描述求矩阵不同行不同列元素和的最大值(最小值) 问题求解 1.通过scipy库求解 scipy.optimize库中的linear_sum_assignment方法可以求解输入一个矩阵,参数m ...

随机推荐

JupyterLab安装与配置虚拟环境
JupyterLab安装: 推荐使用miniconda,相比于anaconda更加简洁,下载连接:https://mirrors.tuna.tsinghua.edu.cn/anaconda/minic ...
冒泡排序和sort,sorted排序函数
冒泡: # 轮数元素个数比较次数# 1 6 5# 2 5 4# 3 4 3# 4 3 2# 5 2 1 # 列表有n个元素,则应比较n-1轮,即循环次数n-1 a=[85,7,4,89,34,2] ...
c++ 命令行执行
常用命令如下 g++ -g -std=c++ a.cpp -std 指定c++的版本 -g 在可执行程序中包含标准调试信息 -o FILE 指定输出文件名,在编译为目标代码时,这一选项不是必须的.如果 ...
QT使用LIBS添加绝对路径的dll引用
http://blog.sina.com.cn/s/blog_70b93da90100n6w8.html 参考这篇文章举例: 要引用 F:\QT\parttime_work\build-JChart ...
UOJ #450. 【集训队作业2018】复读机
前置知识单位根反演自己去浅谈单位根反演看(此外可能需要一定的生成函数的姿势) 首先一看\(d\)这么小,那我们来分类讨论一下吧当\(d=1\)时,显然答案就是\(k^n\) 当\(d=2\)时,如果 ...
一道常被人轻视的web前端常见面试题(JS)
本文转载自站长之家,如有侵权问题,请联系我,马上删除. 面试题是招聘公司和开发者都非常关心的话题,公司希望通过它了解开发者的真实水平和细节处理能力,而开发者希望能够最大程度地展示自己的水平(甚至超常发 ...
【翻译】spring-data 之JdbcTemplate 使用
文档 Jdbc的使用基础的代码结构: 一个Application作为入口.IUserRepository和UserRepository作为具体的实现.applicationContext.xml定义 ...
ASP.NET Core 中基于 API Key 对私有 Web API 进行保护
这两天遇到一个应用场景,需要对内网调用的部分 web api 进行安全保护,只允许请求头账户包含指定 key 的客户端进行调用.在网上找到一篇英文博文 ASP.NET Core - Protect y ...
python做中学（六）os.getcwd() 的用法
概述 os.getcwd() 方法用于返回当前工作目录. 语法 getcwd()方法语法格式如下: os.getcwd() 参数无返回值返回当前进程的工作目录. 实例以下实例演示了 getcw ...
11-Django站点管理
站点管理内容发布的部分由网站的管理员负责,包括查看.添加.修改.删除数据开发这些重复的功能是一件单调乏味.缺乏创造力的工作,为此,Django能够根据定义的模型类自动地生成管理模块在Django ...

CUDA -- 规约求矩阵的行和

CUDA -- 规约求矩阵的行和的更多相关文章

随机推荐

热门专题