Translated by xingoo

如果有错误请联系:xinghl90@gmail.com

2.3 返回值

所有的CURAND host端的函数返回值都是curandStatus_t.如果调用没有错误,则返回成功,即返回值为CURAND_STATUS_SUCCESS.如果发生了错误,返回值会依据错误的不同而不同。因为cuda允许内核函数异步的调用cpu端的代码,因此返回的错误,有可能是在调用函数库时发生的,而非CURAND内核函数,此时,返回值是CURAND_STATUS_PREEXISTING.

2.4 触发函数

curandStatus_t curandGenerate(curandGenerator_t generator, unsigned int *outputPtr, size_t num)

curandGenerate() 函数用来生成伪随机或者真随机数序列。包括 XORWOW、MRG32k3a,MTGP32,and SOBOL32,每个元素都是32位unsigned int型的每位都是随机产生的。对于SOBOL64触发器来说,产生的是每一位随机产生的64位的unsigned long long型随机数。

curandStatus_t curandGenerateUniform(curandGenerator_t generator,  float *outputPtr, size_t num)

curandGenerateUniform() 函数用来产生0.0-1.0间的服从均匀分布(uniformly distributed)的浮点型随机数,其中0不包含0.0,包含1.0。

curandStatus_t curandGenerateNormal(curandGenerator_t generator, float *outputPtr, size_t n, float mean, float stddev)

curandGenerateNormal()函数通过指定的方法和输出目标来产生服从正态分布(normally distributed)的浮点型随机数。

curandStatus_t curandGenerateLogNormal(curandGenerator_t generator, float *outputPtr, size_t n, float mean, float stddev)

curandGenerateLogNormal()函数通过指定的方法和输出目标产生服从对数正态分布(log-normaly distributed)的浮点数。

curandStatus_t curandGeneratePoisson(curandGenerator_t generator, unsigned int *outputPtr, size_t n, double lambda)

curandGeneratePoision()函数通过指定的lamda产生基于泊松分布(possion distributed)的随机数。

curandStatus_tcurandGenerateUniformDouble(curandGenerator_t generator, double *outputPtr, size_t num)

curandGenerateUniformDouble()函数产生双精度的均匀分布的随机数。

curandStatus_tcurandGenerateNormalDouble(curandGenerator_t generator, double *outputPtr, size_t n, double mean, double stddev)

curandGenerateNormalDouble()触发器通过指定的方法和标准输出对象产生基于正态分布的双精度随机数。双精度的随机数只能在计算能力在1.3以上或者host端产生。

curandStatus_t curandGenerateLogNormalDouble(curandGenerator_t generator,double *outputPtr, size_t n, double mean, double stddev)

curandGernerateLogNormalDouble()通过指定的方法和输出对象产生基于正态分布的对数正态分布双精度随机数。

只有多维度的触发器才能产生真随机数。(大概是这个意思,For quasirandom generation,the number of results returned must be a multiple of the dimension of the generator)

生成函数能够被同一个触发器多次调用,来产生连续的结果块。对于伪随机数触发器,多次调用size大小的随机数,相当于一次调用产生n*size大小的随机数。对于真随机数触发器,由于内存的空间排序问题,多次短的调用,与一次长调用产生的结果并不相同;然而,产生的n维动态数组确实相同的。

双精度的随机数只能在计算能力1.3以上的设备或是host端产生。

2.5 Host API Example

/*

 * This program uses the host CURAND API to generate 100 

 * pseudorandom floats.

 */

#include <stdio.h>

#include <stdlib.h>

#include <cuda.h>

#include <curand.h>

#define CUDA_CALL(x) do { if((x)!=cudaSuccess) { \

    printf("Error at %s:%d\n",__FILE__,__LINE__);\

    return EXIT_FAILURE;}} while()

#define CURAND_CALL(x) do { if((x)!=CURAND_STATUS_SUCCESS) { \

    printf("Error at %s:%d\n",__FILE__,__LINE__);\

    return EXIT_FAILURE;}} while()

int main(int argc, char *argv[])

{

    size_t n = ;

    size_t i;

    curandGenerator_t gen;

float *devData, *hostData;

    /* Allocate n floats on host */

    hostData = (float *)calloc(n, sizeof(float));

    /* Allocate n floats on device */

    CUDA_CALL(cudaMalloc((void **)&devData, n*sizeof(float)));

    /* Create pseudo-random number generator */

    CURAND_CALL(curandCreateGenerator(&gen, 

                CURAND_RNG_PSEUDO_DEFAULT));

    /* Set seed */

    CURAND_CALL(curandSetPseudoRandomGeneratorSeed(gen, 

                1234ULL));

    /* Generate n floats on device */

    CURAND_CALL(curandGenerateUniform(gen, devData, n));

    /* Copy device memory to host */

    CUDA_CALL(cudaMemcpy(hostData, devData, n * sizeof(float),

        cudaMemcpyDeviceToHost));

    /* Show result */

    for(i = ; i < n; i++) {

        printf("%1.4f ", hostData[i]);

    }

    printf("\n");

    /* Cleanup */

    CURAND_CALL(curandDestroyGenerator(gen));

    CUDA_CALL(cudaFree(devData));

    free(hostData);    

    return EXIT_SUCCESS;

}

通常通过CURAND库产生的随机数规模越大,产生的性能越好。对于多次调用产生小规模的随机数来说,尽可能少的调用随机函数库而产生大量的随机数来使用,更有效率。比如一次产生n*size大小规模的随机数,然后分n次使用,要比n次调用,每次产生size高效。XORWOW是默认的伪随机数触发器,通过默认的排序,首次调用可能要花费一些时间来启动,后来的调用就不需要这步了。为了避免启动时间,可以使用CURAND_ORDERING_PSEUDO_SEEDED排序。

MTGP32 mersenne Twister算法与线程和块数目紧密联系。MTGP32的产生结果通常是一个通过特定的参数集产生的指定顺序的256个大小的样例,每64个块使用不同的参数集并且每256个线程产生整体中的一个样例。因此使用MTGP32产生16384个样品是最高效的。(这一块有待研究)。

[翻译]CURAND Libaray--Host API--(2)的更多相关文章

  1. 翻译Android USB HOST API

    翻译Android USB HOST API 源代码地址:http://developer.android.com/guide/topics/connectivity/usb/host.html 译者 ...

  2. [翻译]CURAND Libaray--Host API--(1)

    原文来自:cuda curand toolkit document Translated by xingoo 如果有错误请联系:xinghl90@gmail.com 2Host API简述 使用hos ...

  3. couldn't resolve host api.weixin.qq.com

    1.代理服务器突然出现 couldn't resolve host api.weixin.qq.com 不知原因 2.重启nginx无效-----代码肯定没有动过(之前出现过,过了一天恢复) 3.防火 ...

  4. 【翻译】Flink Table Api & SQL — 内置函数

    本文翻译自官网:Built-In Functions  https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/table/fu ...

  5. Android开启OTG功能/USB Host API功能

    Android USB 模式简介 设备模式 当计算机或其他USB主机需要连接安卓设备时,此时安卓设备是作为"USB设备"角色的,在计算机上显示为 USB 外设.现在的安卓设备已经被 ...

  6. [翻译]ASP.NET Web API 2 中的全局错误处理

    目录 已存在的选项 解决方案预览 设计原则 什么时候去用 方案详情 示例 附录: 基类详情 原文链接 Global Error Handling in ASP.NET Web API 2 由于翻译水平 ...

  7. 【翻译】Flink Table Api & SQL —— 连接到外部系统

    本文翻译自官网:Connect to External Systems  https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev ...

  8. 【Android Api 翻译3】android api 完整翻译之Application Fundamentals (学习android必须知道的)

    Android应用程序是用Java编程语言编写的.Android SDK工具把应用程序的代码.数据和资源文件一起编译到一个Android程序包中(这个程序包是以.apk为后缀的归档文件),一个Andr ...

  9. Python 批量翻译 使用有道api;

    妹子是做翻译相关的,遇到个问题,要求得到句子中的所有单词的 音标; 有道翻译只能对单个单词翻译音标,不能对多个单词或者句子段落翻译音标; 手工一个一个翻的话那就要累死人了.....于是就让我写个翻译音 ...

随机推荐

  1. java代码swing编程 制作一个单选按钮的Frame

    不善于思考,结果费了时间,也没有效果 下面的框框可以做出来. package com.kk; import javax.swing.JFrame; import javax.swing.JLabel; ...

  2. c# 几种singleton 实现

    http://csharpindepth.com/Articles/General/Singleton.aspx#introduction 4th在线看 https://www.manning.com ...

  3. jvm调优(二)

    栈内存溢出,主要发生在大数据批量处理的情况,一般解决方案:1.加大栈内存 2.分批处理(用事物,全通过则通过,没有通过则回滚) cpu过高,死锁啊,内存过高啊,i/0问题啊 都可以看 线程栈 jsta ...

  4. rsync mac->windows openssh

    rsync -azvP --progress -e "ssh -p 6666" /Users/codar/360\344\272\221\347\233\230/ghld/ rsy ...

  5. OpenGL渲染流水线

    其实OpenGL的流水线,对我学习来说只能算是一个概念性的东西.毕竟OpenGL也在发展,流水线也不会是一成不变的. 不过理解流水线的过程,重点在于理解每一步的作用,进而可以如何衔接起来,完成整个绘制 ...

  6. 关于EF中实体和数据表以及查询语句映射的问题

    关于EF中实体和数据表以及查询语句映射的问题? 很多人在使用的时候分不清楚 实体字段应该少于等于(数据库中的表字段或者SQL查询中的临时字段).这样在查询或者添加修改都不会出现问题 如果实体的字段大于 ...

  7. ie6-ie8不支持opacity,rgba解决方法

    半透明部分设置样式:opacity:0.7在ie9/ie10/ff/chrome/opera/safari显示正常. 但是这样在ie6-ie8中是不支持的,需要加上下面这句话: filter: pro ...

  8. hibernate的子查询

    hibernate原话 HQL supports subqueries in the where clause. We can't think of many good uses for subque ...

  9. Generalized Low Rank Approximation of Matrices

    Generalized Low Rank Approximations of Matrices JIEPING YE*jieping@cs.umn.edu Department of Computer ...

  10. HTML布局,插件的调用方法