技术背景

在前面的几篇博客中我们介绍了在Python中使用Numba来写CUDA程序的一些基本操作和方法，并且展示了GPU加速的实际效果。在可并行化的算法中，比如计算两个矢量的加和，或者是在分子动力学模拟领域中的查找近邻表等等，都是可以直接并行的算法，而且实现起来难度不大。而有一种情况是，如果我们要计算的内容的线程之间互相存在依赖，比方说最常见的，计算一个矩阵所有元素的和。

CUDA的atomic运算

正如前面所提到的问题，如何去计算一个矩阵所有元素之和呢？具体问题可以表述为：

\[S=\sum_{i,j}A_{i,j}
\]

对于此类的问题，如果我们像普通的CUDA并行操作一样，直接创建一个S变量，然后直接在线程和分块上直接把每一个矩阵元素加到这个S变量中，那么会出现一种情况：在线程同步时，存在冲突的线程是无法同时加和成功的，也就是说，这种情况下虽然程序不会报错，但是得到的结果是完全错误的。对于此类情况，CUDA官方给出了atomic运算这样的方案，可以保障线程之间不被干扰：

import numpy as np

from numba import cuda

from numba import vectorize

cuda.select_device(1)

@cuda.jit

def ReducedSum(arr, result):

    i, j = cuda.grid(2)

    cuda.atomic.add(result, 0, arr[i][j])

if __name__ == '__main__':

    import time

    np.random.seed(2)

    data_length = 2**10

    arr = np.random.random((data_length,data_length)).astype(np.float32)

    print (arr)

    arr_cuda = cuda.to_device(arr)

    np_time = 0.0

    nb_time = 0.0

    for i in range(100):

        res = np.array([0],dtype=np.float32)

        res_cuda = cuda.to_device(res)

        time0 = time.time()

        ReducedSum[(data_length,data_length),(1,1)](arr_cuda,res_cuda)

        time1 = time.time()

        res = res_cuda.copy_to_host()[0]

        time2 = time.time()

        np_res = np.sum(arr)

        time3 = time.time()

        if i == 0:

            print ('The error rate is: ', abs(np_res-res)/res)

            continue

        np_time += time3 - time2

        nb_time += time1 - time0

    print ('The time cost of numpy is: {}s'.format(np_time))

    print ('The time cost of numba is: {}s'.format(nb_time))

这里需要重点关注的就是用CUDA实现的简单函数ReducedSum，这个函数中调用了CUDA的atomic.add方法，用这个方法直接替代系统内置的加法，就完成了所有的操作。我们将这个函数的运行时间去跟np.sum函数做一个对比，结果如下：

$ python3 cuda_reduced_sum.py

[[0.4359949  0.02592623 0.5496625  ... 0.3810055  0.6834749  0.5225032 ]

 [0.62763107 0.3184925  0.5822277  ... 0.89322233 0.7845663  0.4595605 ]

 [0.9666947  0.16615923 0.6931703  ... 0.29497907 0.63724256 0.06265242]

 ...

 [0.96224505 0.36741972 0.6673239  ... 0.3115176  0.7561843  0.9396167 ]

 [0.781736   0.28829736 0.38047555 ... 0.15837361 0.00392629 0.6236886 ]

 [0.03247315 0.3664344  0.00369871 ... 0.0205253  0.15924706 0.8655231 ]]

The error rate is:  4.177044e-06

The time cost of numpy is: 0.027491092681884766s

The time cost of numba is: 0.01042938232421875s

在GPU的计算中，会有一定的精度损失，比如这里的误差率就在1e-06级别，但是运行的速度要比numpy的实现快上2倍！

总结概要

我们知道GPU加速在可并行化程度比较高的算法中，能够发挥出比较大的作用，展示出明显的加速效果，而对于一些线程之间存在依赖这样的场景就不一定能够起到很大的加速作用。CUDA官方针对此类问题，提供了atomic的内置函数解决方案，包含有求和、求最大值等常用函数。而这些函数的特点就在于，线程与线程之间需要有一个时序的依赖关系。就比如说求最大值的函数，它会涉及到不同线程之间的轮询。经过测试，CUDA的这种atomic的方案，实现起来非常方便，性能也很乐观，相比于自己动手实现一个不断切割、递归的规约函数，还是要容易快捷的多。

版权声明

本文首发链接为：https://www.cnblogs.com/dechinphy/p/gpu-sum.html

作者ID：DechinPhy

更多原著文章请参考：https://www.cnblogs.com/dechinphy/

打赏专用链接：https://www.cnblogs.com/dechinphy/gallery/image/379634.html

腾讯云专栏同步：https://cloud.tencent.com/developer/column/91958

用CUDA写出比Numpy更快的规约求和函数的更多相关文章

1. 写出一个能创建多级目录的 PHP 函数(新浪网技术部)
function create_dir($path,$mode){ if (is_dir($path)){ echo "该目录已经存在"; }else{ if(mkdir($pat ...
面试官：如何写出让 CPU 跑得更快的代码？
前言代码都是由 CPU 跑起来的,我们代码写的好与坏就决定了 CPU 的执行效率,特别是在编写计算密集型的程序,更要注重 CPU 的执行效率,否则将会大大影响系统性能. CPU 内部嵌入了 CPU ...
webstorm注释写出的提示
写出这种代码提示的方法是在一个函数上方打出 /** 然后敲回车就出出来没达到上面的效果,自己手动写上即可. 这样的好处是: 当你写代码用到此方法的时候会有参数类型提示,如图
php--------使用 isset()判断字符串长度速度比strlen()更快
isset()速度为什么比strlen()更快呢? strlen()函数函数执行起来相当快,因为它不做任何计算,只返回在zval 结构(C的内置数据结构,用于存储PHP变量)中存储的已知字符串长度.但 ...
扯扯淡，写个更快的memcpy
写代码有时候和笃信宗教一样,一旦信仰崩溃,是最难受的事情.早年我读过云风的一篇<VC 对 memcpy 的优化>,以及<Efficiency geek 2: copying data ...
使用Groovy+Spock轻松写出更简洁的单测
当无法避免做一件事时,那就让它变得更简单. 概述单测是规范的软件开发流程中的必不可少的环节之一.再伟大的程序员也难以避免自己不犯错,不写出有BUG的程序.单测就是用来检测BUG的.Java阵营中,J ...
[label][翻译][JavaScript-Translation]七个步骤让你写出更好的JavaScript代码
7 steps to better JavaScript 原文链接: http://www.creativebloq.com/netmag/7-steps-better-javascript-5141 ...
QT就是别人好心帮你做一些枯燥，并且很重复的代码编写工作，让你更好的把精力投入到你界面的逻辑和功能的实现的功能库（否则写了上万行代码了，才写出个BUG一大堆的毛坯）
好了,现在开始记录我学习QT的学习历程 . 本人也不是计算机专业出来的,自学了一点,但还是不好找工作,于是参加了培训,虽然感觉没多学到什么编程的学习生涯就是不断的看别人的源码,然后自己参考着写写自己 ...
如何在 ASP.NET Core 中写出更干净的 Controller
你可以遵循一些最佳实践来写出更干净的 Controller,一般我们称这种方法写出来的 Controller 为瘦Controller,瘦 Controller 的好处在于拥有更少的代码,更加单一的职 ...

随机推荐

CSP-S 2020 初赛
游记游记个鬼啊跨条街就到了=-= 不分Day反正就一天. 9:30开考,8:30起床. 下雨了,一出宿舍门整个学校全被白色的雾气笼罩.愚以为这是祥瑞之气,昨夜似有麒麟貔貅路过,祝我今日初赛RP++ ...
windows上安装python3里没有pip问题，解决办法！
安装python3: 1.下载python:https://www.python.org/downloads/ 2.安装: 3.安装完成进cmd里验证,但发现无pip包所以操作步骤如下: 1.下 ...
又一本springmvc学习指南之---第22篇 springmvc 加载.xml文件的bean标签的过程
writedby 张艳涛,今天看spring mvc 学习指南的第2章,特意提下这个作者是how tomcat works 俩个作者之一, 喜欢上一本书的风格,使用案例来讲述原理, 在做第一个案例的时 ...
【动画消消乐｜CSS】调皮逃跑的小方块 077
前言 Hello!小伙伴! 非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出- 自我介绍 ଘ(੭ˊᵕˋ)੭ 昵称:海轰标签:程序猿|C++选手|学生简介:因C语言结识编程,随后转入计 ...
SQL SERVER获取表在哪些存储过程中使用过
1.获取某张表在哪些存储过程中使用到 select distinct object_name(id) from syscomments where id in (select object_id fr ...
CentOS 7 安装虚拟机
1.本次安装centos7 安装使用的软件是VitrualBox 虚拟机软件 Oracle公司的虚拟机软件,免费商品(大家可以百度搜索去官网下载) 1:我这里使用的是阿里的centos7的镜像(大家可 ...
JavaEE精英进阶课学习笔记《博学谷》
JavaEE精英进阶课学习笔记<博学谷> 第1章亿可控系统分析与设计学习目标了解物联网应用领域及发展现状能够说出亿可控的核心功能能够画出亿可控的系统架构图能够完成亿可控环境的准 ...
小白自学vue的第一天，加油！
一.插值的操作 1.Mustache语法也就是双大括号(翻译过来就是胡须的意思) 2.v-once指令加了v-once数据不会随着数据的改变而改变,只会渲染一次 3.v-html指令可以解析HT ...
5.1 剑指 Offer 03. 数组中重复的数字
类型题:剑指 Offer 03. 数组中重复的数字找出数组中重复的数字.在一个长度为 n 的数组 nums 里的所有数字都在 0-n-1 的范围内.数组中某些数字是重复的,但不知道有几个数字重复了, ...
为什么不建议使用WordPress呢？
程序过于注重扩展性与动态配置解析,导致执行流程中包含大量的钩子.判断.文件加载等操作,导致执行效率偏低,对服务器要求较高.对系统的开销,尤其是CPU等部分消耗较大,据观察,单个请求在腾讯云s1主机单核 ...