cuda(1) 最大并发量

Created on 2013-8-5
URL : http://blog.sina.com.cn/s/blog_a502f1a30101mi6t.html
@author: zhxfl
转载请说明出处

 cudaDeviceProp  prop;

     int count;

     ( cudaGetDeviceCount( &count ) );

     for (int i=; i< count; i++) {

         ( cudaGetDeviceProperties( &prop, i ) );

         printf( "   --- General Information for device %d ---\n", i );

         printf( "Name:  %s\n", prop.name );

         printf( "Compute capability:  %d.%d\n", prop.major, prop.minor );

         printf( "Clock rate:  %d\n", prop.clockRate );

         printf( "Device copy overlap:  " );

         if (prop.deviceOverlap)

             printf( "Enabled\n" );

         else

             printf( "Disabled\n");

         printf( "Kernel execution timeout :  " );

         if (prop.kernelExecTimeoutEnabled)

             printf( "Enabled\n" );

         else

             printf( "Disabled\n" );

         printf( "   --- Memory Information for device %d ---\n", i );

         printf( "Total global mem:  %ld\n", prop.totalGlobalMem );

         printf( "Total constant Mem:  %ld\n", prop.totalConstMem );

         printf( "Max mem pitch:  %ld\n", prop.memPitch );

         printf( "Texture Alignment:  %ld\n", prop.textureAlignment );

         printf( "   --- MP Information for device %d ---\n", i );

         printf( "Multiprocessor count:  %d\n",

             prop.multiProcessorCount );

         printf( "Shared mem per mp:  %ld\n", prop.sharedMemPerBlock );

         printf( "Registers per mp:  %d\n", prop.regsPerBlock );

         printf( "Threads in warp:  %d\n", prop.warpSize );

         printf( "Max threads per block:  %d\n",

             prop.maxThreadsPerBlock );

         printf( "Max thread dimensions:  (%d, %d, %d)\n",

             prop.maxThreadsDim[], prop.maxThreadsDim[],

             prop.maxThreadsDim[] );

         printf( "Max grid dimensions:  (%d, %d, %d)\n",

             prop.maxGridSize[], prop.maxGridSize[],

             prop.maxGridSize[] );

         printf( "\n" );

     }

     int n1 = rand() % base + base;

     int m1 = rand() % base + base;

     int n2 = m1;

     int m2 = rand() % base + base;

     int *g1 = new int[n1 * m1];

     int *g2 = new int[n2 * m2];

     printf("matrix A[%3d %3d]\n", n1, m1);

     for(int i = ; i < n1 * m1;i++)

     {

         g1[i] = rand() % large;

         //printf("%5d ", g1[i]);

         //if((i + 1) % m1 == 0)printf("\n");

     }

     printf("matrix B[%3d %3d]\n", n2, m2);

     for(int i = ; i < n2 * m2;i++)

     {

         g2[i] = rand() % large;

         //printf("%5d ", g2[i]);

         //if((i + 1) % m2 == 0)printf("\n");

     }

     int *g;

     g = matrixMultiply(g1,n1,m1,g2,n2,m2);

     printf("matrix C[%3d %3d]\n", n1, m2);

     for(int i = ; i< n1*m2;i++)

     {

         //printf("%5d ", g[i]);

         //if((i + 1) % m2 == 0) printf("\n");

     }

cuda本机参数查看的代码

上面是cuda example的代码，其中maxThreadsPerBlock是指每个块上的最大线程数，maxGridSize是最大的blocks数。理论上讲最大的并发量是maxThreadsPerBlock * maxGridSize。下面是在我本机上的运行结果，可以看到65535 * 1024是我想要的答案。

下面来测试一下

1）崩溃：function <<<65535,1024>>()

2）正常：function <<<65536,1>>()

3）崩溃：function <<<65536,1>>()

4）正常：function <<<1,1024>>()

5）崩溃：function <<<1,1025>>()

其中第一个的崩溃让人无法理解，其他都符合预期，对于这种申请资源失败的情况，目前还没有较好的对策，如果有我会及时补上

cuda(1) 最大并发量的更多相关文章

针对web高并发量的处理
针对web高并发量的处理针对高并发量的处理一个老生常谈的话题了至于需要运维支持的那些cdn.负载均衡神马的就不赘述了你们都懂的虫子在此博文只讲一些从程序角度出发的一些不错的解决方案. 至于从 ...
lr并发量和迭代的区别
1.并发量并发量也就是同时运行的量.比如100个用户同时登录,那么并发量就是100.当然这100个用户可以进行参数化,也可以采用设置虚拟用户数(vuser). 2.迭代迭代就是单个用户运行的次数. ...
Loadrunner根据PV量来确定需要进行压测的并发量
在实际做压力测试的过程中,我们有时不知道用怎样的并发量比较好,下面是几个用PV量去确定并发量的公式,这个在我们公司是比较适用的,大家可以根据自己的业务进行运算. 方法一:这个方法是我在网上查到的80- ...
使用gevent提高IO繁忙型wsgi服务的并发量（转）
add by zhj: 在Benchmark of Python WSGI Servers一文中,作者进行详细分析,得出的结论是gevent在所有WSGI Server(包括Tornado.Uwsgi ...
QPS/TPS/并发量/系统吞吐量概念和公式
1.概念我们在日常工作中经常会听到QPS/TPS这些名词,也会经常被别人问起说你的系统吞吐量有多大.一个系统的吞度量(承压能力)与request对CPU的消耗.外部接口.IO等等紧密关联,单个req ...
Python- redis缓存可达到瞬间并发量10W+
redis是什么? mysql是一个软件,帮助开发者对一台机器的硬盘进行操作. redis是一个软件,帮助开发者对一台机器的内存进行操作. redis缓存可达到瞬间并发量10W+ 高并发架构系列:R ...
PHP使用Apache中的ab(ApacheBench)测试网站的并发量
AB(ApacheBench) 是 Apache 自带的超文本传输协议 (HTTP) 性能测试工具. 其设计意图是描绘当前所安装的 Apache 的执行性能, 主要是显示 Apache 每秒可以处理多 ...
【杂谈】Spring Boot 默认支持的并发量
Spring Boot应用支持的最大并发量是多少? Spring Boot 能支持的最大并发量主要看其对Tomcat的设置,可以在配置文件中对其进行更改.当在配置文件中敲出max后提示值就是它的默认值 ...
self: 限制并发量asyncio
#coding:utf-8 import time,asyncio a=time.time() id=1 async def hello(id,semaphore): async with semap ...

随机推荐

利用Xlinix SDK 建立Linux程序以及对该程序进行调试
一.创建Linux程序 1. 点击File > New > Application Project .并参照下图设置. 2. 输入工程名,并选择存储路径. 3. 选择所需的操作系统平台(O ...
HTTP中Get与Post、ViewState 原理
Http是请求,响应的模型,服务器不会来读取浏览器的网页,只能够得到客户端提交过来的数据当用户点击提交,服务器就知道"提交回来了"(PostBack) Get与Post 设置for ...
Linux下U盘的格式化
一次系统装机带来的烦恼. 之前有一次装centos 系统 ,把一个centos4.8的系统刻录到了一个8G的U盘,之后是centos安装成功了 ,却发现电脑不认识U盘了,试了好多次也没有处理好,刚好今 ...
服务器卡死，重启报错： INFO: task blocked for more than 120 seconds
问题:服务器负载很高,但是CPU利用率不高.服务器经常夯住,网站打不开,SSH连接非常不稳定,输入命令夯住. 重启服务器报错: INFO: task blocked for more than 120 ...
linux下启动和关闭网卡命令
ifup.ifdown:linux命令实时地手动修改一些网络接口参数,可以利用ifconfig来实现,如果是要直接以配置文件,亦即是在 /etc/sysconfig/network-script ...
Libnids---编写网络应用程序的利器
一.前言 Libnids是一个用于网络入侵检测开发的专业编程接口,它使用Libpcap进行数据包的捕获.同时,Libnids提供了TCP/IP数据流重组功能,因此省去了应用层自己考虑数据分片.重传等情 ...
java中移位运算符：<<、>>和>>>之间的比较
一.说明 <<:运算符将二进制位进行左移操作 >>:运算符将二进制位进行右移操作 >>>:运算符将用0填空高位二.举例 /** * *----------c ...
DIV+CSS 网页布局之：两列布局
1.宽度自适应两列布局两列布局可以使用浮动来完成,左列设置左浮动,右列设置右浮动,这样就省的再设置外边距了. 当元素使用了浮动之后,会对周围的元素造成影响,那么就需要清除浮动,通常使用两种方法.可以 ...
c#集合解析
什么是集合(collection)? 提供了一种结构化组织任意对象的方式,从.NET 的角度看,所谓的集合可以定义为一种对象,这种对象实现一个或者多个System.Collections.IColle ...
html中th 与thead tbody的使用
上午工作的时候,遇到一挺纠结的问题,在<th width...> width根本不起作用. 后来才明白<th>标签不能写在<tbody>里,不符合语法. 所以顺便总 ...

cuda(1) 最大并发量

cuda(1) 最大并发量的更多相关文章

随机推荐

热门专题