用cudamat做矩阵运算的GPU加速

yunhe 2024-09-23 11:06:40 原文

1. cudamat简介

cudamat是一个python语言下，利用NVIDIA的cuda sdk 进行矩阵运算加速的库。对于不熟悉cuda编程的程序员来说，这是一个非常方便的GPU加速方案。很多工程和项目中都使用了cudamat,例如gnumpy,deepnet等。

2. 安装

cudamat的github地址如下：https://github.com/cudamat/cudamat。

下载完成后，运行命令 python setup.py install来进行安装。

windows下安装需要将“cl.exe”加入path之中，另外会提示你安装vc的python编译器，依照提示下载安装即可。

3. 基本矩阵运算

import numpy as np

import cudamat as cm

cm.cublas_init()

# create two random matrices and copy them to the GPU

a = cm.CUDAMatrix(np.random.rand(32, 256))

b = cm.CUDAMatrix(np.random.rand(256, 32))

# perform calculations on the GPU

c = cm.dot(a, b)

d = c.sum(axis = 0)

# copy d back to the host (CPU) and print

print(d.asarray())

如以上代码所示，cudamat的基本使用方法是利用cm.CUDAMatrix(A)来讲矩阵A转换成GPU里的矩阵，进而进行各种运算。cudamat提供了多种矩阵运算的接口，可参考文档：http://www.cs.toronto.edu/~vmnih/docs/cudamat_tr.pdf。或者可阅读源代码里的cudamat/cudamat.py或test/test_cudamat.py来查看其各种接口。

4. where等其他运算

接下来介绍一个矩阵里的where运算，示例代码如下：

def func(temp,threshold):

    temp_cpu1=temp.asarray()

    res_d = cm.empty(temp.shape)

    temp.greater_than(threshold,  res_d)

    temp.free_device_memory()

    x=np.ones_like(temp_cpu1)

    z = np.zeros_like(temp_cpu1)

    x_d=cm.CUDAMatrix(x)

    z_d = cm.CUDAMatrix(z)

    # > threhold ? 1 : 0

    cm.where(res_d, x_d, z_d)

    temp_cpu=res_d.asarray()

    return temp_cpu

如代码所示，该函数的输入是一个CUDAMatrix temp,一个double值threshold。通过great_than函数，可将temp与threshold进行比较，比较的结果放入res_d中，x_d,z_d是与temp同样大小的1,0矩阵，最后通过where操作，即可将res_d中的正值设为1，负值设为0，最后得到的结果也就是将矩阵temp中大于threshold的值设为1，否则设为0

5. 大型矩阵相乘的分块加速算法

对于非常大型的矩阵相乘，如果显存不足以放下矩阵的话，可以尝试分块送入GPU进行计算，再将得到的结果进行汇总。

作者yunhe

谢谢阅读！转载请注明出处。

用cudamat做矩阵运算的GPU加速的更多相关文章

mxnet：结合R与GPU加速深度学习
转载于统计之都,http://cos.name/tag/dmlc/,作者陈天奇 ------------------------------------------------------------ ...
GPU 加速NLP任务（Theano+CUDA）
之前学习了CNN的相关知识,提到Yoon Kim(2014)的论文,利用CNN进行文本分类,虽然该CNN网络结构简单效果可观,但论文没有给出具体训练时间,这便值得进一步探讨. Yoon Kim代码:h ...
深度学习“引擎”之争：GPU加速还是专属神经网络芯片？
深度学习“引擎”之争:GPU加速还是专属神经网络芯片? 深度学习(Deep Learning)在这两年风靡全球,大数据和高性能计算平台的推动作用功不可没,可谓深度学习的“燃料”和“引擎”,GPU则是引 ...
GPU加速有坑？
大多数人都知道有动画的地方可以使用GPU来加速页面渲染. 例如,做优化的时候,将使用left和top属性的动画修改成使用transform属性的CSS动画.或者听到别人教你使用transform:tr ...
记录一次Python下Tensorflow安装过程，1.7带GPU加速版本
最近由于论文需要,急需搭建Tensorflow环境,16年底当时Tensorflow版本号还没有过1,我曾按照手册搭建过CPU版本.目前,1.7算是比较新的版本了(也可以从源码编译1.8版本的Tens ...
Windows 10下安装配置Caffe并支持GPU加速(修改版)
基本环境建议严格按照版本来 - Windows 10 - Visual Studio 2013 - Matlab R2016b - Anaconda - CUDA 8.0.44 - cuDNN v4 ...
CSS动画的性能分析和浏览器GPU加速
此文已由作者袁申授权网易云社区发布. 欢迎访问网易云社区,了解更多网易技术产品运营经验. 有数的数据大屏可以在一块屏幕上展示若干张不同的图表,以炫酷的方式展示各种业务数据.其中有些图表使用CSS实现了 ...
Python笔记_第四篇_高阶编程_进程、线程、协程_5.GPU加速
Numba:高性能计算的高生产率在这篇文章中,笔者将向你介绍一个来自Anaconda的Python编译器Numba,它可以在CUDA-capable GPU或多核cpu上编译Python代码.Pyt ...
0704-使用GPU加速_cuda
0704-使用GPU加速_cuda 目录一.CPU 和 GPU 数据相互转换二.使用 GPU 的注意事项三.设置默认 GPU 四.GPU 之间的切换 pytorch完整教程目录:https:// ...

随机推荐

[Angular 2] Generate Angular 2 Components Programmatically with entryComponents & ViewContainerRef
You can generate Angular 2 components using a combination of ViewContainer and ComponentFactory, but ...
C预处理器
C预处理器目录概述文件包含宏替换条件包含概述预处理器是编译过程中单独执行的第一个步骤文件包含 #include "文件名" / #include <文件名&g ...
Ogre Addon之Paged Geometry
还是OGRE好啊,无尽的Addon,无尽的宝藏.既有SkyX,Hydrx这样的天空水体渲染库可供学习,还有Paged Geometry这样的“大规模海量geometry管理系统”.它通过batch,s ...
C#中String和string有什么区别
在C#中,string 是 System.String 的别名,所以基本上在使用时是没有差别的. 习惯上,我们把字符串当作对象时(有值的对象实体),我们用string.而我们把它当类时(需要字符串类中 ...
linux上一些命令
ps -ef看看有没有tomcat的进程:也可以用netstat -tnl来看tomcat的端口是否开放
浏览器自动化工具-Selenium
Table of Contents 1. 什么是Selenium 2. 简单的例子 3. PS 什么是Selenium Selenium可以自动化操作浏览器,利用Selenium可以模拟用户操作,因此 ...
kafka删除topic
手动: 删除kafka存储目录(server.properties文件log.dirs配置,默认为"/tmp/kafka-logs")相关topic目录删除zookeeper & ...
docker 连接容器
1.通过端口映射 sudo docker run -d -P training/webapp python app.py 容器有一个内部网络和IP地址(在使用Docker部分我们使用docker in ...
JavaScript随机数
function random(start,end){ var total=start+end; return Manth.floor(Manth.random()+total-start); }
WPF 之 TreeView右键选中节点及节点重命名
下面的TreeView节点是通过数据双向绑定的方式,绑定到TextBlock控件和TextBox控件的Text属性上,并且让两者绑定相同的属性,同时使TextBox控件刚好完全覆盖TextBlock控 ...