6. 杂项说明

6.1. warp级原语

warp作为执行的原始单元(自然位于线程和块之间),重要性对CUDA程序员显而易见。从SM 1.x开始,NVIDIA开始添加专门针对thread的指令。

Vote

CUDA体系结构是32位的,并且warp由32个线程组成,这些线程与评估条件,向warp中的每个线程广播1位结果,指令能完整匹配。VOTE指令(在SM 1.2第一个可用的)的计算结果的状态,并广播该结果在thread的所有线程。__any()默认返回1,在任何thread32个的线程,如果断言为真。__all()默认返回1,如果谓词是真正的,所有的thread32个的线程。

Fermi体系结构添加了VOTE的新变体,可将thread中每个线程的谓词结果传回。__ballot()默认全部线程的状态,并返回一个32位的值,每个比特给出了相应的线程的状态。

Shuffle随机播放

开普勒(Kepler)添加了随机播放指令,可以使内部线程之间进行数据交换,而无需通过共享内存暂存数据。尽管这些指令以与共享内存,有相同的等待执行时间,好处是,无需执行读和写操作,即可进行交换,并且可以减少共享内存的使用。

以下指令包含在许多使用sm_30_intrinsics.h定义的,嵌入式PTX程序集的设备功能中

int __shfl(int var,int srcLane,int width = 32);
int __shfl_up(int var,unsigned int delta,int width = 32);
int __shfl_down(int var,unsigned int delta,int width = 32);
int __shfl_xor(int var,int laneMask,int width = 32);

宽度参数,缺省值为32的宽度,必须是2的幂的范围内2..32。它可以将 warp细分为多个部分;如果width <32,则warp的每个子部分,都将充当一个单独的实体,其起始逻辑通道ID为0。线程只能与该子部分中的其他线程交换数据。

__shfl()返回ID,由srcLane给出的线程所持有的var的值。如果srcLane不在0..width-1范围内,则返回线程自己的var值。指令的此变体可用于在warp内广播值。__shfl_up()通过从调用方的通道ID中,减去增量,并限制在0..width-1范围内,从而计算源通道ID 。__shfl_down()通过将增量添加到调用方的通道ID中,来计算源通道ID。

__shfl_up()__shfl_down()分别启用,warp级扫描和反向扫描操作。__shfl_xor()通过对caller通道ID,与laneMask进行按位XOR运算,来计算源车道ID ;返回由生成的通道ID保留的var的值。该变体可用于,减少整个 warp(或子 warp)的变形。每个线程使用一系列不同顺序的关联运算符,来计算约简。

6.2. 块级基元

__syncthreads()默认用作barrier。导致所有线程等待,直到线程块中的每个线程,都到达__syncthreads()为止。Fermi指令集(SM 2.x),添加了几个新的块级屏障,汇总了有关线程块中线程的信息。

  • __syncthreads_count():计算一个谓词,并返回该谓词为实际线程总和
  • __syncthreads_or():返回线程块中所有输入的“或OR”
  • __syncthreads_and():返回线程块中所有输入的AND

6.3. 性能计算

开发人员可以定义自己的性能计数器,使用__prof_trigger()内在函数,在实时代码中对其进行递增。

void __prof_trigger(int counter);

调用此函数,使每个计数器将相应的计数器加1。计数器必须在0..7范围内;保留计数器8..15。在profiler配置文件中,列出prof_trigger_00..prof_trigger_07来获得计数器的值。

6.4. Video Instructions

本节中描述的视频说明,只能通过嵌入式PTX汇编器访问。这里描述了基本功能,以帮助开发人员确定,是否可能对应用程序有益。使用这些说明的任何人,都应查阅PTX ISA规范。

标量视频说明

标配有SM 2.0硬件的标量视频指令,可对视频处理所需的短(8位和16位)整数类型,进行有效操作。如PTX 3.1 ISA规范中,这些指令的格式如下。

vop.dtype.atype.btype{.sat} d, a{.asel}, b{.bsel};

vop.dtype.atype.btype{.sat}.secop d, a{.asel}, b{.bsel}, c;

源和目标算子均为32位寄存器。dtype, atype, and btype may be .u32 or .s32可以是.u32.s32无符号和有符号的32位整数。在asel/bsel符选择从源算子,其8位或16位解压:B0B1B2,和B3中选择字节(从最低显著编号),h0/h1选择最低significant和最高significant分别为16位。

提取输入值后,进行符号扩展或零扩展,以生成带符号的33位整数,并执行基本运算,从而生成一个34位中间结果,其符号取决于dtype。最后,将结果限制在输出范围,并执行以下操作之一。

  1. 将第二个运算(加,最小或最大值),应用于中间结果和第三个运算数。
  2. 将中间结果截断为8位或16位值,然后合并到第三个算子中的指定位置,产生最终结果。

将低32位写入目标算子。

VSET指令执行8位,16位或32位,输入算子之间的比较,并产生相应的谓词(1或0)作为输出。表14给出了PTX标量视频指令和相应的操作。

表14标量视频指令。

矢量视频指令(仅适用于SM 3.0)

这些与SM 3.0一起添加的指令,与标量视频指令相似,将输入提升为规范的整数格式,执行核心运算,缩放并有选择地合并输出。通过对成对的16位值,或四位8位值,提供更高的性能。

表15总结了PTX指令和这些指令实现的相应操作。对于视频处理和某些图像处理操作(例如中值滤波器)最有用。

表15矢量视频指令

6.5.Special Registers

通过引用内置变量threadIdxblockIdxblockDimgridDim访问许多特殊寄存器。这些伪变量将在3节中详细介绍,它们是3维结构,分别指定线程ID,块ID,线程数和块数。

除此之外,另一个特殊寄存器,SM的时钟寄存器,该寄存器随每个时钟周期递增。可以使用__clock()__clock64()内部函数,读取此计数器。分别跟踪每个SM的计数器,就像CPU上的时间戳计数器,对于测量不同代码序列的相对性能最有用,在尝试计算挂钟时间时,最好避免使用。

GPU编程和流式多处理器(七)的更多相关文章

  1. GPU编程和流式多处理器(六)

    GPU编程和流式多处理器(六) 5. 纹理和表面 读取和写入纹理和表面的指令,所引用的隐式状态,比其他指令要多得多.header中包含诸如基地址,尺寸,格式和纹理内容的解释之类的参数,该header是 ...

  2. GPU编程和流式多处理器(五)

    GPU编程和流式多处理器(五) 4. 条件代码 硬件实现了"条件代码"或CC寄存器,其中包含用于整数比较的常用4位状态向量(符号,进位,零,溢出).可以使用比较指令(例如ISET) ...

  3. GPU编程和流式多处理器(四)

    GPU编程和流式多处理器(四) 3.2. 单精度(32位) 单精度浮点支持是GPU计算的主力军.GPU已经过优化,可以在此数据类型上原生提供高性能,不仅适用于核心标准IEEE操作(例如加法和乘法),还 ...

  4. GPU编程和流式多处理器(三)

    GPU编程和流式多处理器(三) 3. Floating-Point Support 快速的本机浮点硬件是GPU的存在理由,并且在许多方面,它们在浮点实现方面都等于或优于CPU.全速支持异常可以根据每条 ...

  5. GPU编程和流式多处理器(二)

    GPU编程和流式多处理器(二) 2. 整数支持 SM具有32位整数运算的完整补充. 加法运算符的可选否定加法 乘法与乘法加法 整数除法 逻辑运算 条件码操作 to/from浮点转换 其它操作(例如,S ...

  6. GPU编程和流式多处理器

    GPU编程和流式多处理器 流式多处理器(SM)是运行CUDA内核的GPU的一部分.本章重点介绍SM的指令集功能. 流式多处理器(SM)是运行我们的CUDA内核的GPU的一部分.每个SM包含以下内容. ...

  7. 流式处理的新贵 Kafka Stream - Kafka设计解析(七)

    原创文章,转载请务必将下面这段话置于文章开头处. 本文转发自技术世界,原文链接 http://www.jasongj.com/kafka/kafka_stream/ Kafka Stream背景 Ka ...

  8. Java开发笔记(七十二)Java8新增的流式处理

    通过前面几篇文章的学习,大家应能掌握几种容器类型的常见用法,对于简单的增删改和遍历操作,各容器实例都提供了相应的处理方法,对于实际开发中频繁使用的清单List,还能利用Arrays工具的asList方 ...

  9. tcp流式套接字和udp数据报套接字编程区别

    1. 流式套接字采用字节流方式进行传输,而数据报套接字 使用数据报形式传输数据2. tcp套接字会产生粘包,udp有消息边界,不会形成粘包.3. tcp编程可以保证消息的完整性,udp则不能保证4. ...

随机推荐

  1. 过 DNF TP 驱动保护(一)

    过 DNF TP 驱动保护(一)   文章目录:                   01. 博文简介: 02. 环境及工具准备: 03. 分析 TP 所做的保护: 04. 干掉 NtOpenProc ...

  2. 【转】gitlab CI流水线配置文件.gitlab-ci.yml详解

    目录 GitLab CI流水线配置文件.gitlab-ci.yml详解 实验环境 GitLab CI介绍 .gitlab-ci.yml 配置参数 参数详解 script image services ...

  3. hdu4544 优先队列(小贪心)

    题意: 湫湫系列故事--消灭兔子                                                                         Time Limit: ...

  4. Linux中Nginx服务器的部署和配置

    目录 Nginx安装方式: yum源安装 目录结构: 源码包安装 目录结构: Nginx中支持PHP Nginx中配置php对mysql数据库的支持 Nginx配置反向代理服务器 正常代理 根据不同端 ...

  5. 0803-PyTorch的Debug指南

    0803-PyTorch的Debug指南 目录 一.ipdb 介绍 二.ipdb 的使用 三.在 PyTorch 中 Debug 四. 通过PyTorch实现项目中容易遇到的问题 五.第八章总结 py ...

  6. MySQL分页优化_别再用offset和limit分页了

    终于要对MySQL优化下手了,本文将对分页进行优化说明,希望可以得到一个合适你的方案. 开始之前,先分享一套MySQL教程,小白入门或者学习巩固都可以看 MySQL基础入门-mysql教程-数据库实战 ...

  7. (ML邹博)回归

    目录 线性回归 高斯分布 最大似然估计 最小二乘法的本质 Logistic回归 工具 梯度下降算法 最大似然估计 线性回归 对于单个变量: y=ax+b 对于多个变量: 使用极大似然估计解释最小二乘法 ...

  8. 【js】Leetcode每日一题-叶子相似的树

    [js]Leetcode每日一题-叶子相似的树 [题目描述] 请考虑一棵二叉树上所有的叶子,这些叶子的值按从左到右的顺序排列形成一个 叶值序列 . 举个例子,如上图所示,给定一棵叶值序列为 (6, 7 ...

  9. xml数据解析和生成

    java中xml的解析方式有许多,有java自带的DOM.SAX,android中的PULL,其它的还有DOM4J.JDOM等. 本文简要讲述DOM.SAX.PULL三种方式. 1.DOM方法 缺点: ...

  10. 【微信小程序】--bindtap参数传递,配合wx.previewImage实现多张缩略图预览

    本文为原创随笔,纯属个人理解.如有错误,欢迎指出. 如需转载请注明出处 在微信小程序中预览图片分为 a.预览本地相册中的图片. b.预览某个wxml中的多张图片. 分析:实质其实是一样的.都是给wx. ...