技术背景

GPU的加速技术在深度学习、量子计算领域都已经被广泛的应用。其适用的计算模型是小内存的密集型计算场景，如果计算的模型内存较大，则需要使用到共享内存，这会直接导致巨大的数据交互的运算量，通信开销较大。因为pycuda的出现，也使得我们可以直接在python内直接使用GPU函数，当然也可以直接在python代码中集成一些C++的代码，用于构建GPU计算的函数。有一个专门介绍pycuda使用案例的中文开源代码仓可以简单参考一些实现的示例，但是这里面的示例数量还是比较有限，更多的案例可以直接参考pycuda官方文档。

pycuda环境配置

pycuda的安装环境很大程度上取决约显卡驱动本身是否能够安装成功，除了安装pycuda库本身之外，重点是需要确保如下的指令可以运行成功：

[dechin@dechin-manjaro pycuda]$ nvidia-smi

Sun Mar 21 20:26:43 2021

+-----------------------------------------------------------------------------+

| NVIDIA-SMI 455.45.01    Driver Version: 455.45.01    CUDA Version: 11.1     |

|-------------------------------+----------------------+----------------------+

| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |

| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |

|                               |                      |               MIG M. |

|===============================+======================+======================|

|   0  GeForce MX250       Off  | 00000000:3C:00.0 Off |                  N/A |

| N/A   48C    P0    N/A /  N/A |      0MiB /  2002MiB |      0%      Default |

|                               |                      |                  N/A |

+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+

| Processes:                                                                  |

|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |

|        ID   ID                                                   Usage      |

|=============================================================================|

|  No running processes found                                                 |

+-----------------------------------------------------------------------------+

上述返回的结果是一个没有GPU任务情况下的展示界面，包含有显卡型号、显卡内存等信息。如果存在执行的任务，则显示结果如下案例所示：

[dechin@dechin-manjaro pycuda]$ nvidia-smi

Sun Mar 21 20:56:04 2021

+-----------------------------------------------------------------------------+

| NVIDIA-SMI 455.45.01    Driver Version: 455.45.01    CUDA Version: 11.1     |

|-------------------------------+----------------------+----------------------+

| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |

| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |

|                               |                      |               MIG M. |

|===============================+======================+======================|

|   0  GeForce MX250       Off  | 00000000:3C:00.0 Off |                  N/A |

| N/A   47C    P0    N/A /  N/A |     31MiB /  2002MiB |      0%      Default |

|                               |                      |                  N/A |

+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+

| Processes:                                                                  |

|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |

|        ID   ID                                                   Usage      |

|=============================================================================|

|    0   N/A  N/A     18427      C   python3                            29MiB |

+-----------------------------------------------------------------------------+

我们发现这里多了一个pid为18427的python的进程正在使用GPU进行计算。在运算过程中，如果任务未能够执行成功，有可能在内存中遗留一个进程，这需要我们自己手动去释放。最简单粗暴的方法就是：直接使用kill -9 pid来杀死残留的进程。我们可以使用pycuda自带的函数接口，也可以自己写C++代码来实现GPU计算的相关功能，当然一般情况下更加推荐使用pycuda自带的函数。以下为一部分已经实现的接口函数，比如gpuarray的函数：

再比如cumath的函数：

使用GPU计算向量指数

对于一个向量的指数而言，其实就是将每一个的向量元素取指数。当然，这与前面一篇关于量子门操作的博客中介绍的矩阵指数略有区别，这点要注意区分。

在下面的示例中，我们对比了numpy中实现的指数运算和pycuda中实现的指数运算。

# array_exp.py

import pycuda.autoinit

import pycuda.gpuarray as ga

import pycuda.cumath as gm

import numpy as np

import sys

if sys.argv[1] == '-l':

    length = int(sys.argv[2]) # 从命令行获取参数值

np.random.seed(1)

array = np.random.randn(length).astype(np.float32)

array_gpu = ga.to_gpu(array)

exp_array = np.exp(array)

print (exp_array)

exp_array_gpu = gm.exp(array_gpu)

gpu_exp_array = exp_array_gpu.get()

print (gpu_exp_array)

这里面我们计算一个随机向量的指数，向量的维度length是从命令行获取的一个参数，上述代码的执行方式和执行结果如下所示：

[dechin@dechin-manjaro pycuda]$ python3 array_exp.py -l 5

[5.0750957  0.5423974  0.58968204 0.34199178 2.3759744 ]

[5.075096   0.5423974  0.58968204 0.34199178 2.3759747 ]

我们先确保两者计算出来的结果是一致的，这里我们可以观察到，两个计算的结果只保障了7位的有效数字是相等的，这一点在大部分的场景下精度都是有保障的。接下来我们使用timeit来统计和对比两者的性能：

# array_exp.py

import pycuda.autoinit

import pycuda.gpuarray as ga

import pycuda.cumath as gm

import numpy as np

import sys

import timeit

if sys.argv[1] == '-l':

    length = int(sys.argv[2])

np.random.seed(1)

array = np.random.randn(length).astype(np.float32)

array_gpu = ga.to_gpu(array)

def npexp():

    exp_array = np.exp(array)

def gmexp():

    exp_array_gpu = gm.exp(array_gpu)

    # gpu_exp_array = exp_array_gpu.get()

if __name__ == '__main__':

    n = 1000

    t1 = timeit.timeit('npexp()', setup='from __main__ import npexp', number=n)

    print (t1)

    t2 = timeit.timeit('gmexp()', setup='from __main__ import gmexp', number=n)

    print (t2)

这里也顺便介绍一下timeit的使用方法：这个函数的输入分别是：函数名、函数的导入方式、函数的重复次数。这里需要特别说明的是，如果在函数的导入方式中，不使用__main__函数进行导入，即使是本文件下的python函数，也是无法被导入成功的。在输入的向量达到一定的规模大小时，我们发现在执行时间上相比于numpy有非常大的优势。当然还有一点需要注意的是，由于我们测试的是计算速度，原本使用了get()函数将GPU中计算的结果进行导出，但是这部分其实不应该包含在计算的时间内，因此后来又注释掉了。具体的测试数据如下所示：

[dechin@dechin-manjaro pycuda]$ python3 array_exp.py -l 10000000

26.13127974300005

3.469969915000547

总结概要

使用GPU来进行计算，可以极大程度上的加速我们所需要计算的任务，这得益于GPU强大的自带的并行化技术。pycuda的出现，使得我们不需要手工去写GPU的C或者C++代码也可以调用GPU来进行计算，还提供了众多的python接口可以直接使用。经过测试，本文给出了一些pycuda的基本使用方法示例，以及初步的测试结果，从测试结果中我们进一步明确了pycuda的高性能特性。

版权声明

本文首发链接为：https://www.cnblogs.com/dechinphy/p/pycuda.html

作者ID：DechinPhy

更多原著文章请参考：https://www.cnblogs.com/dechinphy/

参考链接

https://documen.tician.de/pycuda/array.html#pycuda.gpuarray.GPUArray

python3使用pycuda执行简单GPU计算任务的更多相关文章

CUDA刷新：GPU计算生态系统
CUDA刷新:GPU计算生态系统 CUDA Refresher: The GPU Computing Ecosystem 这是CUDA Refresher系列的第三篇文章,其目标是刷新CUDA中的关键 ...
GPU计算的十大质疑—GPU计算再思考
http://blog.csdn.NET/babyfacer/article/details/6902985 原文链接:http://www.hpcwire.com/hpcwire/2011-06-0 ...
OpenGL实现通用GPU计算概述
可能比較早一点做GPU计算的开发者会对OpenGL做通用GPU计算,随着GPU计算技术的兴起,越来越多的技术出现,比方OpenCL.CUDA.OpenAcc等,这些都是专门用来做并行计算的标准或者说接 ...
OpenCL入门：(二：用GPU计算两个数组和)
本文编写一个计算两个数组和的程序,用CPU和GPU分别运算,计算运算时间,并且校验最后的运算结果.文中代码偏多,原理建议阅读下面文章,文中介绍了OpenCL相关名词概念. http://opencl. ...
Julia：高性能 GPU 计算的编程语言
Julia:高性能 GPU 计算的编程语言 0条评论 2017-10-31 18:02 it168网站原创作者: 编译|田晓旭编辑: 田晓旭 [IT168 评论]Julia是一种用于数学计 ...
GPU计算的后CUDA时代-OpenACC(转)
在西雅图超级计算大会(SC11)上发布了新的基于指令的加速器并行编程标准,既OpenACC.这个开发标准的目的是让更多的编程人员可以用到GPU计算,同时计算结果可以跨加速器使用,甚至能用在多核CPU上 ...
从 SPIR-V 到 ISPC：将 GPU 计算转化为 CPU 计算
游戏行业越来越多地趋向于将计算工作转移到图形处理单元 (GPU) 中,导致引擎和/或工作室需要开发大量 GPU 计算着色器来处理不同的计算任务.但有时候在 CPU 上运行这些计算着色器非常方便,不必重 ...
（一）tensorflow-gpu2.0学习笔记之开篇（cpu和gpu计算速度比较）
摘要: 1.以动态图形式计算一个简单的加法 2.cpu和gpu计算力比较(包括如何指定cpu和gpu) 3.关于gpu版本的tensorflow安装问题,可以参考另一篇博文:https://www.c ...
(Matlab)GPU计算简介，及其与CPU计算性能的比较
1.GPU与CPU结构上的对比 2.GPU能加速我的应用程序吗? 3.GPU与CPU在计算效率上的对比 4.利用Matlab进行GPU计算的一般流程 5.GPU计算的硬件.软件配置 5.1 硬件及驱动 ...

随机推荐

以初学者的角度理解：SQL实现关系除法
以初学者的角度理解:SQL实现关系除法相信各位在学习SQL的时候,由于没有一家SQL语言提供除法命令而只能自己写一个.而网上大多就是四步骤加一个模板: select distinct A.X fro ...
【排序+模拟】魔法照片 luogu-1583
题目描述一共有n(n≤20000)个人(以1--n编号)向佳佳要照片,而佳佳只能把照片给其中的k个人.佳佳按照与他们的关系好坏的程度给每个人赋予了一个初始权值W[i].然后将初始权值从大到小进行排序 ...
数据结构与算法-排序（二）选择排序（Selection Sort）
摘要选择排序的逻辑是先遍历比较出序列中最大的,然后把最大的放在最后位置. 遵循这个逻辑,用代码实现时,做到1.减少比较次数之外,这里引入一个新的指标 - 稳定性,2.保证排序过程中的稳定性也是一个优 ...
一口气说出 Redis 16 个常见使用场景！
1.缓存 String类型例如:热点数据缓存(例如报表.明星出轨),对象缓存.全页缓存.可以提升热点数据的访问数据. 文章首发于:http://ht5n8.cn/LEc6v 2.数据共享分布式 St ...
Android ELF文件解析
0X01 ELF初认识 elf文件是linux下的二进制文件,相当于windows下的PE文件,Android系统里的dll. 解析elf文件两个用处:1.so加固:2.frida(xposed)检 ...
月薪20k+的Android面试都问些什么？（含答案）
金九银十跳槽季接近尾声了,可是今年由于疫情的影响仍然不太好找工作,相信大家肯定急需一套Android面试宝典,下面就分享给大家我珍藏已久的Android高阶面试宝典,供大家学习 ! 1.自定义Hand ...
SpringCloud升级之路2020.0.x版-9.如何理解并定制一个Spring Cloud组件
本系列为之前系列的整理重启版,随着项目的发展以及项目中的使用,之前系列里面很多东西发生了变化,并且还有一些东西之前系列并没有提到,所以重启这个系列重新整理下,欢迎各位留言交流,谢谢!~ 我们实现的 S ...
Python3中的List列表的相关操作
列表对象内建函数 1. append(obj) 在列表的末尾添加新元素obj.例: >>> a = ['a', 'b', 'c'] >>> a.append('d' ...
【Unity3D】Android App Bundle（aab）打包上架Google Play介绍
总体说来,Android App Bundle打包有3种方式,每种方式都有成功上架Google Play进行测试通过,因此实用程度还是挺高的.能够理解以下内容的前提是会打apk包,知道如何生成Asse ...
Go连接到Linux服务器进行操作-执行shell命令&&上传文件
Go连接到Linux服务器进行操作使用密码连接Linux服务器 package main import ( "fmt" "golang.org/x/crypto/ssh ...

python3使用pycuda执行简单GPU计算任务