OpenCL 增强单work-item kernel性能策略

1、基于反馈的Optimization Report解决单个Work-item的Kernel相关性

　　在许多情况下，将OpenCL™应用程序设计为单个工作项内核就足以在不执行其他优化步骤的情况下最大化性能。

　　建议采用以下优化单个work-item kernel的选项来按照实用性顺序解决单个work-item kernel循环携带的依赖性：

　　　　removal，relaxation，simplification，transfer to local memory。

(1) Removing Loop-Carried Dependency

　　根据优化报告的反馈，可以通过实现更简单的内存访问的方式来消除循环携带的依赖关系。

优化前：

  #define N 128

  __kernel void unoptimized (__global int * restrict A,

                             __global int * restrict B,

                             __global int* restrict result)

  {

    int sum = ;

    for (unsigned i = ; i < N; i++) {

     for (unsigned j = ; j < N; j++) {

       sum += A[i*N+j];

     }

     sum += B[i];

   }

   * result = sum;

 }

优化后：

  #define N 128

  __kernel void optimized (__global int * restrict A,

                           __global int * restrict B,

                           __global int * restrict result)

  {

    int sum = ;

    for (unsigned i = ; i < N; i++) {

     // Step 1: Definition

     int sum2 = ;

     // Step 2: Accumulation of array A values for one outer loop iteration

     for (unsigned j = ; j < N; j++) {

       sum2 += A[i*N+j];

     }

     // Step 3: Addition of array B value for an outer loop iteration

     sum += sum2;

     sum += B[i];

   }

   * result = sum;

 }

(2) Relaxing Loop-Carried Dependency

　　根据优化报告的反馈，可以通过增加依赖距离的方式来relax缓解循环携带的依赖关系。

优化前：

  #define N 128

  __kernel void unoptimized (__global float * restrict A,

                             __global float * restrict result)

  {

    float mul = 1.0f;

    for (unsigned i = ; i < N; i++)

      mul *= A[i];

   * result = mul;

 }

优化后：

  #define N 128

  #define M 8

  __kernel void optimized (__global float * restrict A,

                           __global float * restrict result)

  {

    float mul = 1.0f;

    // Step 1: Declare multiple copies of variable mul

   float mul_copies[M];

   // Step 2: Initialize all copies

   for (unsigned i = ; i < M; i++)

     mul_copies[i] = 1.0f;

   for (unsigned i = ; i < N; i++) {

     // Step 3: Perform multiplication on the last copy

     float cur = mul_copies[M-] * A[i];

     // Step 4a: Shift copies

     #pragma unroll

     for (unsigned j = M-; j > ; j--)

       mul_copies[j] = mul_copies[j-];

     // Step 4b: Insert updated copy at the beginning

     mul_copies[] = cur;

   }

   // Step 5: Perform reduction on copies

   #pragma unroll

   for (unsigned i = ; i < M; i++)

     mul *= mul_copies[i];

   * result = mul;

 }

(3) Transferring Loop-Carried Dependency to Local Memory

　　对于不能消除的循环携带的依赖关系，可以通过将具有循环依赖的数组从全局内存global memory移动到local memory的方式来改进循环的启动间隔（initiation interval, II）。

优化前：

 #define N 128

 __kernel void unoptimized( __global int* restrict A )

 {

     for (unsigned i = ; i < N; i++)

           A[N-i] = A[i];

 }

优化后：

  #define N 128

  __kernel void optimized( __global int* restrict A )

  {

      int B[N];

      for (unsigned i = ; i < N; i++)

          B[i] = A[i];

     for (unsigned i = ; i < N; i++)

         B[N-i] = B[i];

     for (unsigned i = ; i < N; i++)

         A[i] = B[i];

 }

(4) Relaxing Loop-Carried Dependency by Inferring Shift Registers

　　为了使SDK能够有效地处理执行双精度浮点运算的单个work-item kernels，可以通过推断移位寄存器的方式移除循环携带的依赖性。

优化前：

  __kernel void double_add_1 (__global double *arr,

                              int N,

                              __global double *result)

  {

    double temp_sum = ;

    for (int i = ; i < N; ++i)

    {

        temp_sum += arr[i];

   }

   *result = temp_sum;

 }

优化后：

  //Shift register size must be statically determinable

  #define II_CYCLES 12

  __kernel void double_add_2 (__global double *arr,

                              int N,

                              __global double *result)

  {

      //Create shift register with II_CYCLE+1 elements

      double shift_reg[II_CYCLES+];

     //Initialize all elements of the register to 0

     for (int i = ; i < II_CYCLES + ; i++)

     {

         shift_reg[i] = ;

     }

     //Iterate through every element of input array

     for(int i = ; i < N; ++i)

     {

         //Load ith element into end of shift register

         //if N > II_CYCLE, add to shift_reg[0] to preserve values

         shift_reg[II_CYCLES] = shift_reg[] + arr[i];

         #pragma unroll

         //Shift every element of shift register

         for(int j = ; j < II_CYCLES; ++j)

         {

             shift_reg[j] = shift_reg[j + ];

         }

     }

     //Sum every element of shift register

     double temp_sum = ;

     #pragma unroll

     for(int i = ; i < II_CYCLES; ++i)

     {

         temp_sum += shift_reg[i];

     }

     *result = temp_sum;

 }

(5) Removing Loop-Carried Dependencies Cause by Accesses to Memory Arrays

　　在单个work-item的kernel中包含ivdep pragma以保证堆内存array的访问不会导致循环携带的依赖性。

　　如果对循环中的内存阵列的所有访问都不会导致循环携带的依赖性，在内核代码中的循环之前添加#pragma ivdep。

// no loop-carried dependencies for A and B array accesses

#pragma ivdep

for (int i = ; i < N; i++) {

    A[i] = A[i - X[i]];

    B[i] = B[i - Y[i]];

}

　　要指定对循环内特定内存数组的访问不会导致循环携带的依赖关系，在内核代码中的循环之前添加#pragma ivdep arrayarray_name）。

　　ivdep pragma指定的数组必须是local / private内存数组，或者是指向global/local/private内存存储的指针变量。如果指定的数组是指针，则ivdep pragma也适用于所有可能带有指定指针别名的数组。

　　ivdep pragma指示指定的数组也可以是struct的数组或指针成员。

// No loop-carried dependencies for A array accesses

// The offline compiler will insert hardware that reinforces dependency constraints for B

#pragma ivdep array(A)

for (int i = ; i < N; i++) {

    A[i] = A[i - X[i]];

    B[i] = B[i - Y[i]];

}

// No loop-carried dependencies for array A inside struct

#pragma ivdep array(S.A)

for (int i = ; i < N; i++) {

    S.A[i] = S.A[i - X[i]];

}

// No loop-carried dependencies for array A inside the struct pointed by S

#pragma ivdep array(S->X[2][3].A)

for (int i = ; i < N; i++) {

    S->X[][].A[i] = S.A[i - X[i]];

}

// No loop-carried dependencies for A and B because ptr aliases

// with both arrays

int *ptr = select ? A : B;

#pragma ivdep array(ptr)

for (int i = ; i < N; i++) {

    A[i] = A[i - X[i]];

    B[i] = B[i - Y[i]];

}

// No loop-carried dependencies for A because ptr only aliases with A

int *ptr = &A[];

#pragma ivdep array(ptr)

for (int i = ; i < N; i++) {

    A[i] = A[i - X[i]];

    B[i] = B[i - Y[i]];

}

2、Single work-item kernel的设计技巧

　　避免指针混淆。使用restrict关键词。

　　创建格式正确的循环。退出条件与整数进行比较，且每次迭代的增量为1。格式正确的嵌套循环也对最大化kernel性能有帮助。

　　最小化loop-carried循环携带依赖遵循以下原则：

　　　　避免使用指针算数；

　　　　声明简单的数组索引；

　　　　尽可能在kernel中使用恒定边界的循环。

　　避免复杂的循环退出条件；

　　将嵌套循环转换为单循环；

　　避免条件循环；避免if else中包含循环，尽量转换为在循环中包含if else。

　　在尽可能深的范围内声明变量。

OpenCL 增强单work-item kernel性能策略的更多相关文章

NGUI ScrollView 循环 Item 实现性能优化
今天来说说一直都让我在项目中头疼的其中一个问题,NGUI 的scrollView 列表性能问题,实现循环使用item减少性能上的开销. 希望能够给其他同学们使用和提供一个我个人的思路,这个写的不是太完 ...
GIS性能策略
当一个地理平台上线运行,我们经常会遇到这些问题:1.系统刚上线时速度较快,一段时间后访问较慢?2.在地理平台目前的配置下,发布多少个服务才合理?一个服务配置多少个实例数才合适?这些问题,都涉及整个地理 ...
推广TrustAI可信分析：通过提升数据质量来增强在ERNIE模型下性能
项目链接:https://aistudio.baidu.com/aistudio/projectdetail/4622139?contributionType=1 fork一下,由于内容过多这里就不全 ...
CUDA ---- Kernel性能调节
Exposing Parallelism 这部分主要介绍并行分析,涉及掌握nvprof的几个metric参数,具体的这些调节为什么会影响性能会在后续博文解释. 代码准备下面是我们的kernel函数s ...
oop的三种设计模式（单例、工厂、策略）
参考网站单例模式: 废话不多说,我们直接上代码: <?php /** 三私一公 *私有的静态属性:保存类的单例 *私有的__construct():阻止在类的外部实例化 *私有的__clone ...
virtualbox linux客户机中安装增强功能包缺少kernel头文件问题解决
linux客户机中安装增强功能包总会提示缺少kernel头文件根据发行版的不同,用命令行软件包管理命令安装dkms build-essential linux-headers-$(uname -r) ...
Hibernate学习笔记（三）Hibernate生成表单ID主键生成策略
一. Xml方式 <id>标签必须配置在<class>标签内第一个位置.由一个字段构成主键,如果是复杂主键<composite-id>标签被映射的类必须定义对应数 ...
OpenCL Kernel设计优化
使用Intel® FPGA SDK for OpenCL™ 离线编译器,不需要调整kernel代码便可以将其最佳的适应于固定的硬件设备,而是离线编译器会根据kernel的要求自适应调整硬件的结构. 通 ...
OpenCL 第10课:kernel,work_item和workgroup
转载自:http://www.cmnsoft.com/wordpress/?p=1429 前几节我们一起学习了几个用OPENCL完成任务的简单例子,从这节起我们将更详细的对OPENCL进行一些“理论” ...

随机推荐

NameNode是如何存储元数据的？
1.NN的作用保存HDFS上所有文件的元数据! 接受客户端的请求! 接受DN上报的信息,给DN分配任务(维护副本数)! 2.元数据的存储元数据存储在fsiamge文件+edits文件中! fsim ...
if-else和三目运算符 ? : 的对比
今天的地铁思考让我想起一个之前学C语言的时候一直没有验证的事情:既生瑜何生亮? 平时写代码的时候,似乎并没有太多的关注我应该选用什么条件判断语句,感觉判断条件或者两条支路语句复杂就本能地if-else ...
Mysql基础（八)：MySQL 表的一对一、一对多、多对多问题
将实体与实体的关系,反应到最终数据库表的设计上,将关系分为三种:一对一,一对多(多对一)和多对多,所有的关系都是表与表之间的关系; 一对一一对一:一张表的一条记录只能与另外一条记录进行对应,反之亦然 ...
java 数据结构（七）：Collection接口
1.单列集合框架结构|----Collection接口:单列集合,用来存储一个一个的对象* |----List接口:存储序的.可重复的数据. -->“动态”数组* |----ArrayList. ...
IDEA搭建SpringMVC简单接口框架（Maven项目）
1, 新建项目,选择Maven,如图一次选择,最后点击Next 2, 输入GroupId和ArtifactId,点击Next 3,根据需要选择自定义maven配置,点击Next.(①可以直接跳过) 4 ...
CSS数据样式
CSS数据样式表格定制表格我们除了可以使用<table>标签进行绘制表格,在css3中display也支持进行表格的样式绘制. 样式规则说明 table 对应 table tabl ...
Java File类基础解析 1
Java File类基础解析 1 File类的构造方法 public File(String pathname) :通过给定的路径名字符转换为抽象路径名来创建新的File实例 String path ...
OSCP Learning Notes - Exploit(8)
Tools: 3. hydra Hydra v8.9.1 (c) 2019 by van Hauser/THC - Please do not use in military or secret se ...
Ant Design Pro 学习笔记：数据流向
在讲这个问题之前,有一个问题应当讲一下: Ant Design Pro / umi / dva 是什么关系? 首先是 umi / dva 的关系. umi 是一个基于路由的 react 开发框架. d ...
题解洛谷 P5443 【[APIO2019]桥梁】
考虑若只有查询操作,那么就可以构造$Kruskal$重构树,然后在线询问了,也可以更简单的把询问离线,把询问和边都按权值从大到小排序,然后双指针依次加入对于当前询问合法的边,用并查集维护每个点的答 ...

OpenCL 增强单work-item kernel性能策略

OpenCL 增强单work-item kernel性能策略的更多相关文章

随机推荐

热门专题