OpenACC parallel

▶ 使用 kernels 导语并行化 for 循环

● 同一段代码，使用 kernels，parallel 和 parallel + loop 进行对比

 #include <stdio.h>

 #include <time.h>

 #include <openacc.h>

 const int row = ;

 int main()

 {

     int i, j, k, a[row], b[row], c[row];

     clock_t time;

     for (i = ; i < row; i++)

         a[i] = b[i] = i;

 #ifdef _OPENACC

     time = clock();

 #pragma acc kernels     // 使用 kernels 或 parallel 或 parallel + loop

 // #pragma acc parallel

 // #pragma acc loop

     for (i = ; i < row; i++)

         c[i] = a[i] + b[i];

     time = clock() - time;

     printf("\nTime with acc:%d ms\n", time);

 #else

     time = clock();

     for (i = ; i < row; i++)

         c[i] = a[i] + b[i];

     time = clock() - time;

     printf("\nTime without acc:%d ms\n", time);

 #endif

     getchar();

     return ;

 }

● 输出结果

D:\Code\OpenACC\OpenACCProject\OpenACCProject>pgcc -acc -Minfo main.c -o main_acc_kernels.exe       // kernels

main:

     , Generating implicit copyin(b[:row])

         Generating implicit copyout(c[:row])

         Generating implicit copyin(a[:row])

     , Loop is parallelizable

         Accelerator kernel generated

         Generating Tesla code

         , #pragma acc loop gang, vector(128) /* blockIdx.x threadIdx.x */

D:\Code\OpenACC\OpenACCProject\OpenACCProject>pgcc -acc -Minfo main.c -o main_acc_parallel.exe      // parallel

main:

     , Accelerator kernel generated

         Generating Tesla code

         , #pragma acc loop vector(128) /* threadIdx.x */

     , Generating implicit copyout(c[:row])

         Generating implicit copyin(b[:row],a[:row])

     , Loop is parallelizable

D:\Code\OpenACC\OpenACCProject\OpenACCProject>pgcc -acc -Minfo main.c -o main_acc_parallel_loop.exe // parallel + loop

main:

     , Accelerator kernel generated

         Generating Tesla code

         , #pragma acc loop gang, vector(128) /* blockIdx.x threadIdx.x */

     , Generating implicit copyout(c[:row])

         Generating implicit copyin(b[:row],a[:row])

D:\Code\OpenACC\OpenACCProject\OpenACCProject>main_acc_kernels.exe

launch CUDA kernel  file=C:/Program Files (x86)/Windows Kits//Include/10.0.16299.0/ucrt\time.h function=main

line= device= threadid= num_gangs= num_workers= vector_length= grid= block=    // 多个 gang，自动配置，线程网格全都是一维的

Time with acc: ms

D:\Code\OpenACC\OpenACCProject\OpenACCProject>main_acc_parallel.exe

launch CUDA kernel  file=C:/Program Files (x86)/Windows Kits//Include/10.0.16299.0/ucrt\time.h function=main

line= device= threadid= num_gangs= num_workers= vector_length= grid= block=        // 一个 gang，gang冗余模式

Time with acc: ms

D:\Code\OpenACC\OpenACCProject\OpenACCProject>main_acc_parallel_loop.exe

launch CUDA kernel  file=C:/Program Files (x86)/Windows Kits//Include/10.0.16299.0/ucrt\time.h function=main

line= device= threadid= num_gangs= num_workers= vector_length= grid= block=    // 多个 gang，gang分裂模式

Time with acc: ms

● 二重循环，考虑是否在内层循环中使用 loop 导语

 #include <stdio.h>

 #include <time.h>

 #include <openacc.h>

 const int row = , col = ;

 int main()

 {

     int i, j, k, a[row][col], b[row][col], c[row][col];

     clock_t time;

     for (i = ; i < row; i++)

     {

         for (j = ; j < col; j++)

             a[i][j] = b[i][j] = i + j;

     }

 #ifdef _OPENACC

     time = clock();

 #pragma acc parallel

 #pragma acc loop

     for (i = ; i < row; i++)

     {

 // #pragma acc loop

         for (j = ; j < col; j++)

             c[i][j] = a[i][j] + b[i][j];

     }

     time = clock() - time;

     printf("\nTime with acc:%d ms\n", time);

 #else

     time = clock();

     for (i = ; i < row; i++)

     {

         for (j = ; j < col; j++)

             c[i][j] = a[i][j] + b[i][j];

     }

     time = clock() - time;

     printf("\nTime without acc:%d ms\n", time);

 #endif

     getchar();

     return ;

 }

● 输出结果

D:\Code\OpenACC\OpenACCProject\OpenACCProject>pgcc -acc -Minfo main.c -o main_acc_loop1.exe // 仅使用外层 loop

main:

     , Accelerator kernel generated

         Generating Tesla code

         , #pragma acc loop gang /* blockIdx.x */

         , #pragma acc loop vector(128) /* threadIdx.x */

     , Generating implicit copyin(a[:row][:col])

         Generating implicit copyout(c[:row][:col])

         Generating implicit copyin(b[:row][:col])

     , Loop is parallelizable

D:\Code\OpenACC\OpenACCProject\OpenACCProject>pgcc -acc -Minfo main.c -o main_acc_loop2.exe // 内外都使用 loop，优化结果完全相同

main:

     , Accelerator kernel generated

         Generating Tesla code

         , #pragma acc loop gang /* blockIdx.x */

         , #pragma acc loop vector(128) /* threadIdx.x */

     , Generating implicit copyin(a[:row][:col])

         Generating implicit copyout(c[:row][:col])

         Generating implicit copyin(b[:row][:col])

     , Loop is parallelizable

D:\Code\OpenACC\OpenACCProject\OpenACCProject>main_acc_loop1.exe

launch CUDA kernel  file=C:/Program Files (x86)/Windows Kits//Include/10.0.16299.0/ucrt\time.h function=main

line= device= threadid= num_gangs= num_workers= vector_length= grid= block=

Time with acc: ms

D:\Code\OpenACC\OpenACCProject\OpenACCProject>main_acc_loop2.exe

launch CUDA kernel  file=C:/Program Files (x86)/Windows Kits//Include/10.0.16299.0/ucrt\time.h function=main

line= device= threadid= num_gangs= num_workers= vector_length= grid= block=  // 优化结果完全相同

Time with acc: ms

● 三重循环，无论仅使用外循环 loop、外中循环 loop，还是外中内循环 loop，获得的编译和运行结果都是相同的，只放上来一个进行讨论

 #include <stdio.h>

 #include <time.h>

 #include <openacc.h>

 const int row = , col = , page = ;

 int main()

 {

     int i, j, k, a[row][col][page], b[row][col][page], c[row][col][page];

     clock_t time;

     for (i = ; i < row; i++)

     {

         for (j = ; j < col; j++)

         {

             for (k = ; k < page; k++)

                 a[i][j][k] = b[i][j][k] = i + j + k;

         }

     }

 #ifdef _OPENACC

     time = clock();

 #pragma acc parallel

 #pragma acc loop

     for (i = ; i < row; i++)

     {

 //#pragma acc loop

         for (j = ; j < col; j++)

         {

 //#pragma acc loop

             for (k = ; k<page; k++)

                 c[i][j][k] = a[i][j][k] + b[i][j][k];

         }

     }

     time = clock() - time;

     printf("\nTime with acc:%d ms\n", time);

 #else

     time = clock();

     for (i = ; i < row; i++)

     {

         for (j = ; j < col; j++)

         {

             for (k = ; k<page; k++)

                 c[i][j][k] = a[i][j][k] + b[i][j][k];

         }

     }

     time = clock() - time;

     printf("\nTime without acc:%d ms\n", time);

 #endif

     getchar();

     return ;

 }

● 输出结果

D:\Code\OpenACC\OpenACCProject\OpenACCProject>pgcc -acc -Minfo main.c -o main_acc_loop.exe

main:

     , Accelerator kernel generated

         Generating Tesla code

         , #pragma acc loop gang /* blockIdx.x */ // 并行化了外层循环和内层循环，但是用中间层使用的是串行

         , #pragma acc loop seq

         , #pragma acc loop vector(128) /* threadIdx.x */

     , Generating implicit copyout(c[:row][:col][:page])

         Generating implicit copyin(b[:row][:col][:page],a[:row][:col][:page])

     , Loop is parallelizable

     , Loop is parallelizable

D:\Code\OpenACC\OpenACCProject\OpenACCProject>main_acc_loop1.exe

launch CUDA kernel  file=C:/Program Files (x86)/Windows Kits//Include/10.0.16299.0/ucrt\time.h function=main

line= device= threadid= num_gangs= num_workers= vector_length= grid= block=

Time with acc: ms

OpenACC parallel的更多相关文章

7.OpenACC
OpenACC: openacc 可以用于fortran, c 和 c++程序,可以运行在CPU或者GPU设备. openacc的代码就是在原有的C语言基础上进行修改,通过添加:compiler di ...
OpenACC 云水参数化方案
▶ 书上第十三章,用一系列步骤优化一个云水参数化方案.用于熟悉 Fortran 以及 OpenACC 在旗下的表现 ● 代码,文件较多,放在一起了 ! main.f90 PROGRAM main US ...
OpenACC 绘制曼德勃罗集
▶ 书上第四章,用一系列步骤优化曼德勃罗集的计算过程. ● 代码 // constants.h ; ; ; ; const double xmin=-1.7; ; const double ymin= ...
OpenACC 优化矩阵乘法
▶ 按书上的步骤使用不同的导语优化矩阵乘法 ● 所有的代码 #include <iostream> #include <cstdlib> #include <chrono ...
OpenACC 简单的原子操作
▶ OpenACC 的原子操作,用到了 C++ 的一个高精度计时器 ● 代码,直接的原子操作 #include <iostream> #include <cstdlib> #i ...
OpenACC Julia 图形
▶ 书上的代码,逐步优化绘制 Julia 图形的代码 ● 无并行优化(手动优化了变量等) #include <stdio.h> #include <stdlib.h> #inc ...
OpenACC 异步计算
▶ 按照书上的例子,使用 async 导语实现主机与设备端的异步计算 ● 代码,非异步的代码只要将其中的 async 以及第 29 行删除即可 #include <stdio.h> #in ...
OpenACC 计算圆周率（简单版）
▶ 书上的计算圆周率的简单程序,主要是使用了自定义函数 #include <stdio.h> #include <stdlib.h> #include <math.h&g ...
OpenACC 计算构建内的自定义函数
▶ 使用 routine 构件创建的自定义函数,在并行调用上的差别 ● 代码,自定义一个 sqab 函数,使用内建函数 fabsf 和 sqrtf 计算一个矩阵所有元素绝对值的平方根 #include ...

随机推荐

关于FormData及其用法
XMLHttpRequest Level 2添加了一个新的接口FormData.利用FormData对象,我们可以通过JavaScript用一些键值对来模拟一系列表单控件,我们还可以使用XMLHttp ...
HihoCoder - 1501：风格不统一如何写程序
时间限制:10000ms 单点时限:1000ms 内存限制:256MB 描述小Hi写程序时习惯用蛇形命名法(snake case)为变量起名字,即用下划线将单词连接起来,例如:file_name. ...
SPOJCOT2 Count on a tree II
分析树上莫队裸题. 好博客树剖的时候不能再次dfs重儿子.(好像是废话,但我因为这个问题调了三小时) 代码 #include<cstdlib> #include<cstdio&g ...
WebSocket（二）-WebSocket、Socket、TCP、HTTP区别
原文地址:Socket 与 WebSocket 1. 概述 WebSocket 是为了满足基于 Web 的日益增长的实时通信需求而产生的.在传统的 Web 中,要实现实时通信,通用的方式是采用 HTT ...
LeetCode Majority Element Python
Given an array of size n, find the majority element. The majority element is the element that appear ...
es6语法快速上手（转载）
一.相关背景介绍我们现在大多数人用的语法javascript 其实版本是ecmscript5,也是就es5.这个版本己经很多年了,且完美被各大浏览器所支持.所以很多学js的朋友可以一直分不清楚es5 ...
day28 python学习反射 sinstance和issubclass
isinstance和issubclass isinstance(obj,cls)检查是否obj是否是类 cls 的对象判断这个对象是不是这个类,或者是不是这个类的子类的实例化 class Foo( ...
nginx 配置 vhosts 的方案
网上有很多种 nginx 配置 vhosts,来个比较方便的. 步骤如下: 在 conf 目录建一个vhosts 目录. 在 nginx.conf 末尾加入 include vhosts/*.conf ...
【转】每天一个linux命令(12)：more命令
原文网址:http://www.cnblogs.com/peida/archive/2012/11/02/2750588.html more命令,功能类似 cat ,cat命令是整个文件的内容从上到下 ...
RAC2——11g Grid Infrastructure的新机制
版权声明:本文为博主原创文章,未经博主允许不得转载. 可以看到,最初CRS(Cluster Ready Services)名词的起源就是因为10.1中作为集群软件的原因.后来经历了Clusterwar ...

OpenACC parallel

OpenACC parallel的更多相关文章

随机推荐

热门专题