一、PyCUDA

当前，PyCUDA 和Theano使用不同的对象来存储GPU数据。这两种实现支持的是不同的特征集。 Theano的实现是叫做CudaNdarray ，并且支持strides。 同时只支持float32 dtype。 PyCUDA的实现叫做 GPUArray 而且不支持strides。 然而，它可以处理所有的NumPy 和CUDA dtypes。

我们现在来介绍下如何工作在这两个都有的基对象上，而且也在模仿NumPy。下面有一些资料关于如何在同一个脚本中使用这两个对象。

1.1 迁移

你可以使用 theano.misc.pycuda_utils 模块来对
GPUArray和CudaNdarray之间进行转换。函数 to_cudandarray(x,copyif=False) 和 to_gpuarray(x) 返回一个新的对象，该对象占据着和原始对象同一块内存空间。不过它会抛出一个值错误（ValueError）的异常。因为GPUArrays不支持strides，如果CudaNdarray
是strided，那么我们需要对它进行non-strided复制。生成的GPUArray不会在共享同一片内存区域。如果你想要这种行为，那么可以在to_gpuarray中设置 copyif=True 。

1.2 用PyCUDA 来编译

你可以使用 PyCUDA来编译直接工作在CudaNdarrays上的
CUDA 函数。这里是来自文件theano/misc/tests/test_pycuda_theano_simple.py中的例子：

import sys

import numpy

import theano

import theano.sandbox.cuda as cuda_ndarray

import theano.misc.pycuda_init

import pycuda

import pycuda.driver as drv

import pycuda.gpuarray

def test_pycuda_theano():

    """Simple example with pycuda function and Theano CudaNdarray object."""

    from pycuda.compiler import SourceModule

    mod = SourceModule("""

__global__ void multiply_them(float *dest, float *a, float *b)

{

  const int i = threadIdx.x;

  dest[i] = a[i] * b[i];

}

""")

    multiply_them = mod.get_function("multiply_them")

    a = numpy.random.randn(100).astype(numpy.float32)

    b = numpy.random.randn(100).astype(numpy.float32)

    # Test with Theano object

    ga = cuda_ndarray.CudaNdarray(a)

    gb = cuda_ndarray.CudaNdarray(b)

    dest = cuda_ndarray.CudaNdarray.zeros(a.shape)

    multiply_them(dest, ga, gb,

                  block=(400, 1, 1), grid=(1, 1))

    assert (numpy.asarray(dest) == a * b).all()

1.3 Theano 操作，使用一个PyCUDA函数

你可以在theano op中使用用PyCUDA编译好的GPU函数：

import numpy, theano

import theano.misc.pycuda_init

from pycuda.compiler import SourceModule

import theano.sandbox.cuda as cuda

class PyCUDADoubleOp(theano.Op):

    def __eq__(self, other):

        return type(self) == type(other)

    def __hash__(self):

        return hash(type(self))

    def __str__(self):

        return self.__class__.__name__

    def make_node(self, inp):

        inp = cuda.basic_ops.gpu_contiguous(

           cuda.basic_ops.as_cuda_ndarray_variable(inp))

        assert inp.dtype == "float32"

        return theano.Apply(self, [inp], [inp.type()])

    def make_thunk(self, node, storage_map, _, _2):

        mod = SourceModule("""

    __global__ void my_fct(float * i0, float * o0, int size) {

    int i = blockIdx.x * blockDim.x + threadIdx.x;

    if(i<size){

        o0[i] = i0[i] * 2;

    }

  }""")

        pycuda_fct = mod.get_function("my_fct")

        inputs = [ storage_map[v] for v in node.inputs]

        outputs = [ storage_map[v] for v in node.outputs]

        def thunk():

            z = outputs[0]

            if z[0] is None or z[0].shape!=inputs[0][0].shape:

                z[0] = cuda.CudaNdarray.zeros(inputs[0][0].shape)

            grid = (int(numpy.ceil(inputs[0][0].size / 512.)),1)

            pycuda_fct(inputs[0][0], z[0], numpy.intc(inputs[0][0].size),

                       block=(512, 1, 1), grid=grid)

        thunk.lazy = False

        return thunk

二、CUDAMat

这里的函数是用来在CUDAMat对象和 Theano的 CudaNdArray对象之间进行转换的。它们遵循和theano的PyCUDA函数一样的原则，可以查阅 theano.misc.cudamat_utils.py.

WARNING: 在这些转换器上，会有一个与stride/shape相关的特殊的问题。为了能够work，需要 transpose和reshape.等操作..

三、Gnumpy

这是介于Gnumpy garray 对象和
Theano CudaNdArray 对象之间的转换函数。也同样相似于 Theano的 PyCUDA 函数，可查阅： theano.misc.gnumpy_utils.py.

参考资料：

[1] 官网：http://deeplearning.net/software/theano/tutorial/gpu_data_convert.html

Theano2.1.13-基础知识之PyCUDA、CUDAMat、Gnumpy的兼容的更多相关文章

Theano2.1.1-基础知识之准备工作
来源:http://deeplearning.net/software/theano/tutorial/index.html#tutorial 这里介绍的是使用theano的一些基础知识,虽然thea ...
C# 基础知识系列-13 常见类库（三）
0. 前言在<C# 基础知识系列- 13 常见类库(二)>中,我们介绍了一下DateTime和TimeSpan这两个结构体的内容,也就是C#中日期时间的简单操作.本篇将介绍Guid和Nu ...
【干货】用大白话聊聊JavaSE — ArrayList 深入剖析和Java基础知识详解（二）
在上一节中,我们简单阐述了Java的一些基础知识,比如多态,接口的实现等. 然后,演示了ArrayList的几个基本方法. ArrayList是一个集合框架,它的底层其实就是一个数组,这一点,官方文档 ...
java基础知识多线程
package org.base.practise9; import org.junit.Test; import java.awt.event.WindowAdapter; import java. ...
Java基础知识【下】( 转载)
http://blog.csdn.net/silentbalanceyh/article/details/4608360 (最终还是决定重新写一份Java基础相关的内容,原来因为在写这一个章节的时候没 ...
IOS开发基础知识碎片-导航
1:IOS开发基础知识--碎片1 a:NSString与NSInteger的互换 b:Objective-c中集合里面不能存放基础类型,比如int string float等,只能把它们转化成对象才可 ...
LLDB基础知识
LLDB基础知识 LLDB控制台 Xcode中内嵌了LLDB控制台,在Xcode中代码的下方,我们可以看到LLDB控制台. LLDB控制台平时会输出一些log信息.如果我们想输入命令调试,必须让程序进 ...
Oracle数据库基础知识
oracle数据库plsql developer 目录(?)[-] 一 SQL基础知识创建删除数据库创建删除修改表添加修改删除列 oracle cascade用法添加删除约束主键外 ...
Linux基础知识整理
一.基础知识 1.Linux简介 Linux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和UNIX的多用户.多任务.支持多线程和多CPU的操作系统.它能运行主要的UNIX工具软件 ...

随机推荐

SQLServer基本函数
1.字符串函数长度与分析用 datalength(Char_expr) 返回字符串包含字符数,但不包含后面的空格 substring(expression,start,length) 取子串 ri ...
Zookeeper 服务注册和发现
Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务.状态同步服务.集群管理.分布式应用配置项的管理 ...
day 2 Linux目录结构
Linux系统的目录结构的基本介绍: 1)在逻辑上的所有目录(包括目录下的子目录)都在最高级别的目录“/”下. 根(/)目录是Linux系统中所有目录的起始点(顶点),根下面的目录及子目录是一个有层次 ...
Linux network driver
一.常见问题 1)2.6.32内核不兼容I219网卡 http://exxactcorp.com/blog/how-to-installconfigure-intel-i219-network-ada ...
【工作常用代码集】批量Telnet远端端口
作者:gnuhpc 出处:http://www.cnblogs.com/gnuhpc/ __author__ = 'gnuhpc' import telnetlib,socket IP={} def ...
Google Cloud Platform
一个离我们很遥远,很遥远的公司.作为全球三大公有云厂商之一,在国内根本听不到他的声音.其实吧,听到了也没用,因为在国内没法用!AWS还在纠结的落地过程中挣扎,GCP基本上就当不存在吧. 抛开这些乌烟瘴 ...
GTAC 2015 Schedule
之前发的GTAC 2015将于11月10号和11号召开现在时刻表也出来啦 https://developers.google.com/google-test-automation-conferenc ...
ASP.NET常用页面指令
1.<%@Page "属性"="值"%>指令 AutoEventWireup:指定页的事件是否自动绑定,默认值true为启用自动绑定. CodeBe ...
nodeType的12种类型
// NodeType const unsigned short ELEMENT_NODE = 1; 元素节点 const unsigned short ATTRIBUTE_NODE = 2; 属性节 ...
BZOJ 2005: [Noi2010]能量采集
2005: [Noi2010]能量采集 Time Limit: 10 Sec Memory Limit: 552 MBSubmit: 3312 Solved: 1971[Submit][Statu ...

Theano2.1.13-基础知识之PyCUDA、CUDAMat、Gnumpy的兼容