cuda编程-并行规约

利用shared memory计算，并避免bank conflict；通过每个block内部规约，然后再把所有block的计算结果在CPU端累加

代码：

#include <cuda_runtime.h>

#include <device_launch_parameters.h>

#include <stdio.h>

#include <stdlib.h>

#include <memory>

#include <iostream>

#define DATA_SIZE 128

#define TILE_SIZE 64

__global__ void reductionKernel(float *in, float *out){

    int tx = threadIdx.x;

    int bx = blockIdx.x;

    __shared__ float data_shm[TILE_SIZE];

    data_shm[tx] = in[bx * blockDim.x + tx];

    __syncthreads();

    for (int i = blockDim.x / ; i > ; i >>= ){

        if (tx < i){

            data_shm[tx] += data_shm[tx + i];

        }

        __syncthreads();

    }

    if (tx == )

        out[bx] = data_shm[];

}

void reduction(){

    int out_size = (DATA_SIZE + TILE_SIZE - ) / TILE_SIZE;

    float *in = (float*)malloc(DATA_SIZE * sizeof(float));

    float *out = (float*)malloc(out_size*sizeof(float));

    for (int i = ; i < DATA_SIZE; ++i){

        in[i] = i;

    }

    memset(out, , out_size*sizeof(float));

    float *d_in, *d_out;

    cudaMalloc((void**)&d_in, DATA_SIZE * sizeof(float));

    cudaMalloc((void**)&d_out, out_size*sizeof(float));

    cudaMemcpy(d_in, in, DATA_SIZE * sizeof(float), cudaMemcpyHostToDevice);

    dim3 block(TILE_SIZE, );

    dim3 grid(out_size, );

    reductionKernel << <grid, block >> >(d_in, d_out);

    cudaMemcpy(in, d_in, DATA_SIZE * sizeof(float), cudaMemcpyDeviceToHost);

    cudaMemcpy(out, d_out, out_size * sizeof(float), cudaMemcpyDeviceToHost);

    float sum = ;

    for (int i = ; i < out_size; ++i){

        sum += out[i];

    }

    std::cout << sum << std::endl;

    // Check on CPU

    float sum_cpu = ;

    for (int i = ; i < DATA_SIZE; ++i){

        sum_cpu += in[i];

    }

    std::cout << sum_cpu << std::endl;

}

cuda编程-并行规约的更多相关文章

CUDA中并行规约（Parallel Reduction）的优化
转自: http://hackecho.com/2013/04/cuda-parallel-reduction/ Parallel Reduction是NVIDIA-CUDA自带的例子,也几乎是所有C ...
【Cuda编程】加法归约
目录 cuda编程并行归约 AtomicAdd调用出错 gpu cpu下时间计算加法的归约矩阵乘法矩阵转置统计数目平方和求和分块处理线程相邻多block计算 cuda编程并行归约 At ...
CUDA编程（六）进一步并行
CUDA编程(六) 进一步并行在之前我们使用Thread完毕了简单的并行加速,尽管我们的程序运行速度有了50甚至上百倍的提升,可是依据内存带宽来评估的话我们的程序还远远不够.在上一篇博客中给大家介绍 ...
cuda编程基础
转自: http://blog.csdn.net/augusdi/article/details/12529247 CUDA编程模型 CUDA编程模型将CPU作为主机,GPU作为协处理器(co-pro ...
CUDA学习笔记（一）——CUDA编程模型
转自:http://blog.sina.com.cn/s/blog_48b9e1f90100fm56.html CUDA的代码分成两部分,一部分在host(CPU)上运行,是普通的C代码:另一部分在d ...
CUDA编程
目录: 1.什么是CUDA 2.为什么要用到CUDA 3.CUDA环境搭建 4.第一个CUDA程序 5. CUDA编程 5.1. 基本概念 5.2. 线程层次结构 5.3. 存储器层次结构 5.4. ...
CUDA编程－（1）Tesla服务器Kepler架构和万年的HelloWorld
结合CUDA范例精解以及CUDA并行编程.由于正在学习CUDA,CUDA用的比较多,因此翻译一些个人认为重点的章节和句子,作为学习,程序将通过NVIDIA K40服务器得出结果.如果想通过本书进行CU ...
CUDA编程模型
1. 典型的CUDA编程包括五个步骤: 分配GPU内存从CPU内存中拷贝数据到GPU内存中调用CUDA内核函数来完成指定的任务将数据从GPU内存中拷贝回CPU内存中释放GPU内存 *2. 数据 ...
CUDA编程之快速入门
CUDA(Compute Unified Device Architecture)的中文全称为计算统一设备架构.做图像视觉领域的同学多多少少都会接触到CUDA,毕竟要做性能速度优化,CUDA是个很重要 ...

随机推荐

Java多线程（九）—— interrupt()和线程终止方式
一.interrupt() 说明 interrupt()的作用是中断本线程.本线程中断自己是被允许的:其它线程调用本线程的interrupt()方法时,会通过checkAccess()检查权限.这有可 ...
Elasticsearch 思维导图集锦（持续更新...）
目录引言思维导图全文搜索 Elastic 基础 Query DSL Multi Match Query 系列文章列表参考引言本文主要是对 elasticsearch 的一些知识点使用思维导 ...
Azure Load Balancer : 动态扩展
笔者在前文<Azure Load Balancer : 支持 IPv6>中介绍了如何通过 PowerShell 脚本创建支持 IPv6 的 Load Balancer.本文我们接着介绍如何 ...
第八次oo作业
作业五作业五是当前最后一次电梯作业,也是我们第一次接触到多线程编程,输入方式也由之前的一次性输入变为了实时输入,其中涉及到大量的同步和冲突,其中学习多线程的使用也花了大量的时间,但总的来说为以后的作 ...
Python入门-函数
定义:将一组语句的集合通过一个名字(函数名)封装起来,要先执行这个函数,只需要调用其函数名即可.特性:1.减少重复代码2.使程序变的可扩展3.使程序变的易维护函数参数:形参和实参形参:位置参数,关键 ...
UnderWater+SDN论文之三
Software-Defined Underwater Acoustic Modems: Historical Review and the NILUS Approach Source: IEEE J ...
FreeBSD常用操作
导读最近遇到一些FreeBSD的故障,在这种操作系统上我们平时用的一些命令无法执行,FreeBSD的一些配置文件也和其他很多Linux系统不一样.为了方便以后查阅,我特别整理了这篇文档. 1. 网络 ...
使用VBA进行JS加密的反混淆，还原JS代码。
本文地址:http://www.cnblogs.com/Charltsing/p/JSEval.html 联系QQ:564955427 类似下面的代码是登陆全国企业信用信息公示系统(安徽)(网址:h ...
spring security运行流程图（转）
原文:http://blog.csdn.net/u011511684/article/details/31394493 示例下载地址:http://download.csdn.net/detail/u ...
hana-banach定理
1. x1不是X除开G以外所有的空间 2.如果极大元不是全空间的话,根据前面的讨论,还可以延拓,这就和极大矛盾了

cuda编程-并行规约

cuda编程-并行规约的更多相关文章

随机推荐

热门专题