适用于CUDA GPU的Numba 随机数生成

随机数生成

Numba提供了可以在GPU上执行的随机数生成算法。由于NVIDIA如何实现cuRAND的技术问题，Numba的GPU随机数生成器并非基于cuRAND。相反，Numba的GPU RNG是xoroshiro128 +算法的实现。xoroshiro128 +算法的周期为2**128 - 1，比cuRAND中默认使用的XORWOW算法的周期短，但是xoroshiro128 +算法仍然通过了随机数发生器质量的BigCrush测试。

在GPU上使用任何RNG时，重要的是要确保每个线程都有其自己的RNG状态，并且它们已初始化为产生不重叠的序列。numba.cuda.random模块提供了执行此操作的主机功能，以及提供统一或正态分布的随机数的CUDA设备功能。

注意

Numba (like cuRAND) uses the Box-Muller transform <https://en.wikipedia.org/wiki/Box%E2%80%93Muller_transform>从统一生成器生成正态分布的随机数。但是，Box-Muller生成随机数对，当前实现只返回其中之一。结果，生成正态分布的值是均匀分布的值的速度的一半。

numba.cuda.random.create_xoroshiro128p_states(n, seed, subsequence_start=0, stream=0)

返回为n个随机数生成器初始化的新设备数组。

这将初始化RNG状态，以便数组中的每个状态与主序列中彼此分开2 ** 64步的子序列相对应。因此，只要没有CUDA线程请求超过2 ** 64个随机数，就可以保证此函数产生的所有RNG状态都是独立的。

subsequence_start参数可用于将第一个RNG状态提前2 ** 64步的倍数。

参数：

n（int）–要创建的RNG状态数
seed（uint64）–生成器列表的起始种子
subsequence_start（uint64）–
Stream（CUDA流）–在其上运行初始化内核的流

numba.cuda.random.init_xoroshiro128p_states(states, seed, subsequence_start=0, stream=0)

在GPU上为并行生成器初始化RNG状态。

subsequence_start参数可用于将第一个RNG状态提前2 ** 64步的倍数。

参数：

states (1D DeviceNDArray, dtype=xoroshiro128p_dtype)– RNG状态数组
seed（uint64）–生成器列表的起始种子

numba.cuda.random.xoroshiro128p_uniform_float32

返回范围为[0.0，1.0）的float32并前进states[index]。

参数：	states (1D DeviceNDArray, dtype=xoroshiro128p_dtype)– RNG状态数组 index（int64）–要更新的状态的偏移量
返回类型：	float32

numba.cuda.random.xoroshiro128p_uniform_float64

返回范围为[0.0，1.0）的float64并前进states[index]。

参数：	状态states (1D array, dtype=xoroshiro128p_dtype)– RNG状态数组 index（int64）–要更新的状态的偏移量
返回类型：	float64

numba.cuda.random.xoroshiro128p_normal_float32

返回正态分布的float32并前进states[index]。

使用Box-Muller变换从平均值= 0和sigma = 1的高斯中得出返回值。这使RNG序列前进了两个步骤。

参数：	states (1D array, dtype=xoroshiro128p_dtype)– RNG状态数组 index（int64）–要更新的状态的偏移量
返回类型：	float32

numba.cuda.random.xoroshiro128p_normal_float64

返回正态分布的float32并前进states[index]。

使用Box-Muller变换从平均值= 0和sigma = 1的高斯中得出返回值。这使RNG序列前进了两个步骤。

参数：	状态states (1D array, dtype=xoroshiro128p_dtype)– RNG状态数组 index（int64）–要更新的状态的偏移量
返回类型：	float64

例

这是使用随机数生成器的示例程序：

from __future__ import print_function, absolute_import

from numba import cuda

from numba.cuda.random import create_xoroshiro128p_states, xoroshiro128p_uniform_float32

import numpy as np

@cuda.jit

def compute_pi(rng_states, iterations, out):

"""Find the maximum value in values and store in result[0]"""

thread_id = cuda.grid(1)

# Compute pi by drawing random (x, y) points and finding what

# fraction lie inside a unit circle

inside = 0

for i in range(iterations):

x = xoroshiro128p_uniform_float32(rng_states, thread_id)

y = xoroshiro128p_uniform_float32(rng_states, thread_id)

if x**2 + y**2 <= 1.0:

inside += 1

out[thread_id] = 4.0 * inside / iterations

threads_per_block = 64

blocks = 24

rng_states = create_xoroshiro128p_states(threads_per_block * blocks, seed=1)

out = np.zeros(threads_per_block * blocks, dtype=np.float32)

compute_pi[blocks, threads_per_block](rng_states, 10000, out)

print('pi:', out.mean())

适用于CUDA GPU的Numba 随机数生成的更多相关文章

适用于CUDA GPU的Numba例子
适用于CUDA GPU的Numba例子矩阵乘法这是使用CUDA内核的矩阵乘法的简单实现: @cuda.jit def matmul(A, B, C): """Perf ...
适用于AMD ROC GPU的Numba概述
适用于AMD ROC GPU的Numba概述 Numba通过按照HSA执行模型将Python代码的受限子集直接编译到HSA内核和设备功能中,从而支持AMD ROC GPU编程.用Numba编写的内核似 ...
NVIDIA GPU上的随机数生成
NVIDIA GPU上的随机数生成 NVIDIA CUDA随机数生成库(cuRAND)提供高性能的GPU加速的随机数生成(RNG).cuRAND库使用NVIDIA GPU中提供的数百个处理器内核,将质 ...
Gradient Boosting, Decision Trees and XGBoost with CUDA ——GPU加速5-6倍
xgboost的可以参考:https://xgboost.readthedocs.io/en/latest/gpu/index.html 整体看加速5-6倍的样子. Gradient Boosting ...
CUDA ---- GPU架构（Fermi、Kepler）
GPU架构 SM(Streaming Multiprocessors)是GPU架构中非常重要的部分,GPU硬件的并行性就是由SM决定的. 以Fermi架构为例,其包含以下主要组成部分: CUDA co ...
奉献pytorch 搭建 CNN 卷积神经网络训练图像识别的模型，配合numpy 和matplotlib 一起使用调用 cuda GPU进行加速训练
1.Torch构建简单的模型 # coding:utf-8 import torch class Net(torch.nn.Module): def __init__(self,img_rgb=3,i ...
CUDA && GPU中dim3介绍
布客·ApacheCN 翻译/校对/笔记整理活动进度公告 2020.1
注意请贡献者查看参与方式,然后直接在 ISSUE 中认领. 翻译/校对三个文档就可以申请当负责人,我们会把你拉进合伙人群.翻译/校对五个文档的贡献者,可以申请实习证明. 请私聊片刻(52981514 ...
真实机下 ubuntu 18.04 安装GPU +CUDA+cuDNN 以及其版本选择（亲测非常实用）【转】
本文转载自:https://blog.csdn.net/u010801439/article/details/80483036 ubuntu 18.04 安装GPU +CUDA+cuDNN : 目前, ...

随机推荐

hdu2870暴力或者dp优化
题意: 给你一个矩阵,俩面的字母有一些转换规则,让你找到最大的相同字母字矩阵.. 思路: 一共有三种情况,就是a,b,c三种,我们可以分开来处理这三种情况,比如先处理a的,吧能转 ...
POJ3189二分最大流（枚举下界，二分宽度，最大流判断可行性）
题意: 有n头猪,m个猪圈,每个猪圈都有一定的容量(就是最多能装多少只猪),然后每只猪对每个猪圈的喜好度不同(就是所有猪圈在每个猪心中都有一个排名),然后要求所有的猪都进猪圈,但是要求所有 ...
PowerShell-4.API调用以及DLL调用
PowerShell可以直接调用API,So...这东西完全和cmd不是一回事了... 调用API的时候几乎和C#一样(注意堆栈平衡): 调用MessageBox: $iii = Add-Type - ...
C#-宽带连接
public static string Connect(string UserS,string PwdS) { string arg = @"rasdial.exe 宽带连接" ...
【翻译】WPF中的数据绑定表达式
有很多文章讨论绑定的概念,并讲解如何使用StaticResources和DynamicResources绑定属性.这些概念使用WPF提供的数据绑定表达式.在本文中,让我们研究WPF提供的不同类型的数据 ...
Wampserver-添加虚拟主机
鼠标左键点击,之后点击第一个 localhost(有一个小房子) 添加虚拟地址具体添加完成界面注意:这个时候一定需要重启一个Wampserver64 如果没有重启直接进入4这个步骤,会发现进入的 ...
获取某日期后一周、一月、一年的日期 php
//获取某日期后三周同一天日期public static function getNextDate($date){ $return = [ date( 'Y-m-d', strtotime(" ...
No input file specified.问题的解决
问题描述:apache配置网站出现问题"No input file specified." 解决1: 打开.htaccess 在RewriteRule 后面的index.php教程 ...
.NET Worker Service 如何优雅退出
上一篇文章中我们了解了 .NET Worker Service 的入门知识[1],今天我们接着介绍一下如何优雅地关闭和退出 Worker Service. Worker 类从上一篇文章中,我们已经知 ...
C++将数值转换为string
std::to_string string to_string (int val); string to_string (long val); string to_string (long long ...

适用于CUDA GPU的Numba 随机数生成

适用于CUDA GPU的Numba 随机数生成的更多相关文章

随机推荐

热门专题