一.传统的提高计算速度的方法 faster clocks (设置更快的时钟) more work over per clock cycle(每个时钟周期做更多的工作) more processors(更多处理器) 二.CPU & GPU CPU更加侧重执行时间,做到延时小 GPU则侧重吞吐量,能够执行大量的计算 更形象的理解就是假如我们载一群人去北京,CPU就像那种敞篷跑车一样速度贼快,但是一次只能坐两个人,而GPU就像是大巴车一样,虽然可能速度不如跑车,但是一次能载超多人. 总结起来相比于CP…
本小节笔记大纲: 1.Communication patterns gather,scatter,stencil,transpose 2.GPU hardware & Programming Model SMs,threads,blocks,ordering Synchronization Memory model: local, shared, global Atomic Operation 3.Efficient GPU Programming Access memory faster co…
一.传统的提高计算速度的方法 faster clocks (设置更快的时钟) more work over per clock cycle(每个时钟周期做更多的工作) more processors(更多处理器) 二.CPU & GPU CPU更加侧重执行时间,做到延时小 GPU则侧重吞吐量,能够执行大量的计算 更形象的理解就是假如我们载一群人去北京,CPU就像那种敞篷跑车一样速度贼快,但是一次只能坐两个人,而GPU就像是大巴车一样,虽然可能速度不如跑车,但是一次能载超多人. 总结起来相比于CP…
本小节笔记大纲: 1.Communication patterns gather,scatter,stencil,transpose 2.GPU hardware & Programming Model SMs,threads,blocks,ordering Synchronization Memory model: local, shared, global Atomic Operation 3.Efficient GPU Programming Access memory faster co…
I. Scan应用--Compact 在介绍这节之前,首先给定一个情景方便理解,就是因为某种原因我们需要从扑克牌中选出方块的牌. 更formal一点的说法如下,输入是 \(s_0,s_1,...\), 我们提前预设条件来得到 Predicate,即每个元素都会根据条件输出True或False.然后我们根据Predicate(比如做与运算)就可以输出我们想要的值. 但是如下图示,我们的输出Output有两种表达形式: 第一种是 Sparse,即 \(s_0, - , s_2 , -, ...\);…
本周主要内容如下: 如何分析GPU算法的速度和效率 ​​3个新的基本算法:归约.扫描和直方图(Reduce.Scan.Histogram) 一.评估标准 首先介绍用于评估GPU计算的两个标准: step :完成某特定计算所需时间--挖洞操作(Operation Hole Digging) work:工作总量 如下图示,第一种情况只有一个工人挖洞,他需要8小时才能完成,所以工作总量(Work)是8小时.第二种情况是有4个工人,它们2个小时就能完成挖洞任务,此时工作总量是8小时.第三种情况同理不加赘…
Problem set 1 // Homework 1 // Color to Greyscale Conversion //A common way to represent color images is known as RGBA - the color //is specified by how much Red, Green, and Blue is in it. //The 'A' stands for Alpha and is used for transparency; it w…
深度学习课程笔记(十七)Meta-learning (Model Agnostic Meta Learning) 2018-08-09 12:21:33 The video tutorial can be found from: Model Agnostic Meta Learning Related Videos: My talk for Model Agnostic Meta Learning with domain adaptation Paper: https://arxiv.org/p…
深度学习课程笔记(二)Classification: Probility Generative Model  2017.10.05 相关材料来自:http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS17.html 本节主要讲解分类问题: classification 问题最常见的形式,就是给定一个输入,我们去学习一个函数,使得该函数,可以输出一个东西(label).如下所示: 其实好多其他的问题,都是分类问题演化而来,都可以通过分类问题来解决,如:物体…
鉴于自己的毕设需要使用GPU CUDA这项技术,想找一本入门的教材,选择了Jason Sanders等所著的书<CUDA By Example an Introduction to General Purpose GPU Programming>.这本书作为入门教材,写的很不错.自己觉得从理解与记忆的角度的出发,书中很多内容都可以被省略掉,于是就有了这篇博文.此博文记录与总结此书的笔记和理解.注意本文并没有按照书中章节的顺序来写.书中第8章图像互操作性和第11章多GPU系统上的CUDA C,这…