cuda多线程间通信

 #include "cuda_runtime.h"

 #include "device_launch_parameters.h"

 #include <stdio.h>

 #include <time.h>

 #include <stdlib.h>

 #define MAX 120

 #define MIN 0

 cudaError_t addWithCuda(int *c, const int *a, size_t size);

 __global__ void addKernel(int *c, const int *a) {

     int i = threadIdx.x;

     extern __shared__ int smem[];

     smem[i] = a[i];

     __syncthreads();

     if (i == )  // 0号线程做平方和

             {

         c[] = ;

         for (int d = ; d < ; d++) {

             c[] += smem[d] * smem[d];

         }

     }

     if (i == )  //1号线程做累加

             {

         c[] = ;

         for (int d = ; d < ; d++) {

             c[] += smem[d];

         }

     }

     if (i == )  //2号线程做累乘

             {

         c[] = ;

         for (int d = ; d < ; d++) {

             c[] = smem[d];

         }

     }

     if (i == )  //3号线程做异或

                 {

             c[] = ;

             for (int d = ; d < ; d++) {

                 c[] ^= smem[d];

             }

         }

 }

 int main() {

     const int arraySize = ;

     srand((unsigned) time(NULL));

     const int a[arraySize] = { rand() % (MAX +  - MIN) + MIN, rand()

             % (MAX +  - MIN) + MIN, rand() % (MAX +  - MIN) + MIN, rand()

             % (MAX +  - MIN) + MIN, rand() % (MAX +  - MIN) + MIN };

     int c[arraySize] = {  };

     // Add vectors in parallel.

     cudaError_t cudaStatus = addWithCuda(c, a, arraySize);

     if (cudaStatus != cudaSuccess) {

         fprintf(stderr, "addWithCuda failed!");

         return ;

     }

     printf(

             "\t%d+%d+%d+%d+%d = %d\n\t%d^2+%d^2+%d^2+%d^2+%d^2 = %d\n\t%d*%d*%d*%d*%d = %d\n\t%d^%d^%d^%d^%d = %d\n\n\n\n\n",

             a[], a[], a[], a[], a[], c[], a[], a[], a[], a[], a[],

             c[], a[], a[], a[], a[], a[], c[],a[], a[], a[], a[], a[], c[]);

     // cudaThreadExit must be called before exiting in order for profiling and

     // tracing tools such as Nsight and Visual Profiler to show complete traces.

     cudaStatus = cudaThreadExit();

     if (cudaStatus != cudaSuccess) {

         fprintf(stderr, "cudaThreadExit failed!");

         return ;

     }

     return ;

 }

 // Helper function for using CUDA to add vectors in parallel.

 cudaError_t addWithCuda(int *c, const int *a, size_t size) {

     int *dev_a = ;

     int *dev_c = ;

     cudaError_t cudaStatus;

     // Choose which GPU to run on, change this on a multi-GPU system.

     cudaStatus = cudaSetDevice();

     if (cudaStatus != cudaSuccess) {

         fprintf(stderr,

                 "cudaSetDevice failed!  Do you have a CUDA-capable GPU installed?");

         goto Error;

     }

     // Allocate GPU buffers for three vectors (two input, one output)    .

     cudaStatus = cudaMalloc((void**) &dev_c, size * sizeof(int));

     if (cudaStatus != cudaSuccess) {

         fprintf(stderr, "cudaMalloc failed!");

         goto Error;

     }

     cudaStatus = cudaMalloc((void**) &dev_a, size * sizeof(int));

     if (cudaStatus != cudaSuccess) {

         fprintf(stderr, "cudaMalloc failed!");

         goto Error;

     }

     // Copy input vectors from host memory to GPU buffers.

     cudaStatus = cudaMemcpy(dev_a, a, size * sizeof(int),

             cudaMemcpyHostToDevice);

     if (cudaStatus != cudaSuccess) {

         fprintf(stderr, "cudaMemcpy failed!");

         goto Error;

     }

     // Launch a kernel on the GPU with one thread for each element.

     addKernel<<<, size, size * sizeof(int), >>>(dev_c, dev_a);

     // cudaThreadSynchronize waits for the kernel to finish, and returns

     // any errors encountered during the launch.

     cudaStatus = cudaThreadSynchronize();

     if (cudaStatus != cudaSuccess) {

         fprintf(stderr,

                 "cudaThreadSynchronize returned error code %d after launching addKernel!\n",

                 cudaStatus);

         goto Error;

     }

     // Copy output vector from GPU buffer to host memory.

     cudaStatus = cudaMemcpy(c, dev_c, size * sizeof(int),

             cudaMemcpyDeviceToHost);

     if (cudaStatus != cudaSuccess) {

         fprintf(stderr, "cudaMemcpy failed!");

         goto Error;

     }

     Error: cudaFree(dev_c);

     cudaFree(dev_a);

     return cudaStatus;

 }

22+103+61+63+17 = 266
22^2+103^2+61^2+63^2+17^2 = 19072
22*103*61*63*17 = 17
22^103^61^63^17 = 98

cuda多线程间通信的更多相关文章

（十一）boost库之多线程间通信
(十一)boost库之多线程间通信 1.互斥锁在编程中,引入了对象互斥锁的概念,来保证共享数据操作的完整性.每个对象都对应于一个可称为" 互斥锁" 的标记,这个标记用来保证在任一 ...
Java 多线程间通信
JDK 1.5 以后, 将同步和锁封装成了对象, 并将操作锁的隐式方法定义到了该对象中, 将隐式动作变成了显示动作. Lock 接口 Lock 接口, 位于 java.util.concurrent. ...
Java多线程间通信-解决安全问题、等待唤醒机制
/*1.增加一个知识点一个类怎么在所有的类中,让其它类来共同修改它的数据呢?可以用单例设计模式可以用静态可以在其它类中做一个构造函数,接受同一个对象,这样就可以实现对象 2.状态选择可以用数字0 1 ...
多线程间通信之AutoResetEvent和ManualResetEvent的原理分析和开发示例
AutoResetEvent 允许线程通过发信号互相通信. 通常,当线程需要独占访问资源时使用该类. 线程通过调用 AutoResetEvent 上的 WaitOne 来等待信号. 如果 AutoRe ...
java 多线程间通信（二）
传统的线程通信 Object提供了三个方法wait(), notify(), notifyAll()在线程之间进行通信,以此来解决线程间执行顺序等问题. wait():释放当前线程的同步监视控制器,并 ...
多线程间通信之AutoResetEvent和ManualResetEvent的原理分析
AutoResetEvent 允许线程通过发信号互相通信. 通常,当线程需要独占访问资源时使用该类. 线程通过调用 AutoResetEvent 上的 WaitOne 来等待信号. 如果 AutoRe ...
java 多线程间通信（一）
synchronized同步 package com.test7; public class Run { public class MyObject { private int a; public M ...
wxpython多线程间通信
#!bin/bash/python # -*- coding=utf-8 -*- import time import wx from threading import Thread from wx. ...
06_Java多线程、线程间通信
1. 线程的概念 1.1多进程与多线程进程:一个正在执行的程序.每个进程执行都有一个执行顺序,该顺序是一个执行路径,或叫一个控制单元. 一个进程至少有一个线程. 线程:就是进程中的一个独立 ...

随机推荐

jQuery cbpContentSlider 滑动切换
cbpContentSlider是一款选项卡插件,只要按照以下html结构就可以自动生成菜单切换内容特效. 在线实例实例演示使用方法 <div id="cbp-contentsli ...
CSS3简单动画
css3的动画确实非常绚丽!浏览器兼容性很重要!. 分享两个小动画 <!doctype html> <html lang="en"> <head> ...
[js开源组件开发]tip提示组件
tip提示组件常见的应用场景中,总是难免会遇到提示信息,比如显示不完全时需要鼠标移上去显示title,比如验证时的错误提示,比如操作按钮的辅助说明等,所以我独立出来了一个小的js组件,tip提示组件 ...
Electron笔记
一个能让你用Web技术开发桌面应用的开源项目.这里做一个笔记(非正式文章): 官网地址:http://electron.atom.io/ API相关 Electron提供的主进程接口.渲染进程接口.共 ...
Ubuntu开机黑屏，无法进入系统
今天早上起来开机发现Ubuntu进不去了,启动项选择之后长时间的black of screen,击键盘.点鼠标毫无反应,后来实在等不下去了就按了一下电源键,以平时的性格就是强制关机的,这次轻轻碰一下就 ...
SharePoint 2013 搜索报错"Unable to retrieve topology component health. This may be because the admin component is not up and running"
环境描述 Windows 2012 R2,SharePoint 2013(没有sp1补丁),sql server 2012 错误描述搜索服务正常,但是爬网一直在Crawling Full,但是爬不到 ...
让你的APK瘦成一道闪电
APK瘦身是长久以来的难题,我们需要通过一些工具和技巧才能让它瘦下去,下面我来分享一下我在apk瘦身方面的经验. 一.apk中有哪些东西 1.代码 2.lib 3.so本地库 4.资源文件(图片,音频 ...
免费真机调试 -- Xcode7
刚新安装了Xcode7 Version 7.1 beta , 据说这个版本可以免费真机调试,于是用了一个新的AppID测试了,发现真的可以免费真机调试了呢!新的appId账号,没有支付每年的99美刀, ...
停止运行ExecutorService中的线程
while(true){ try { sleep(1000); } catch (InterruptedException e) { // TODO Auto-generated catch bloc ...
在Mac上关于tomcat服务器的安装、配置、启动、部署web详细流程
之前在Mac上通过安装mamp来搭建PHP环境服务器,但是对于java来说,目前还是没有找到类似mamp这样强大的软件来构建及管理java环境服务器,所以目前也是通过命令行来进行tomcat服务器的安 ...

cuda多线程间通信

cuda多线程间通信的更多相关文章

随机推荐

热门专题