本小节笔记大纲: 1.Communication patterns gather,scatter,stencil,transpose 2.GPU hardware & Programming Model SMs,threads,blocks,ordering Synchronization Memory model: local, shared, global Atomic Operation 3.Efficient GPU Programming Access memory faster co…
本小节笔记大纲: 1.Communication patterns gather,scatter,stencil,transpose 2.GPU hardware & Programming Model SMs,threads,blocks,ordering Synchronization Memory model: local, shared, global Atomic Operation 3.Efficient GPU Programming Access memory faster co…
一.传统的提高计算速度的方法 faster clocks (设置更快的时钟) more work over per clock cycle(每个时钟周期做更多的工作) more processors(更多处理器) 二.CPU & GPU CPU更加侧重执行时间,做到延时小 GPU则侧重吞吐量,能够执行大量的计算 更形象的理解就是假如我们载一群人去北京,CPU就像那种敞篷跑车一样速度贼快,但是一次只能坐两个人,而GPU就像是大巴车一样,虽然可能速度不如跑车,但是一次能载超多人. 总结起来相比于CP…
I. Scan应用--Compact 在介绍这节之前,首先给定一个情景方便理解,就是因为某种原因我们需要从扑克牌中选出方块的牌. 更formal一点的说法如下,输入是 \(s_0,s_1,...\), 我们提前预设条件来得到 Predicate,即每个元素都会根据条件输出True或False.然后我们根据Predicate(比如做与运算)就可以输出我们想要的值. 但是如下图示,我们的输出Output有两种表达形式: 第一种是 Sparse,即 \(s_0, - , s_2 , -, ...\);…
本周主要内容如下: 如何分析GPU算法的速度和效率 ​​3个新的基本算法:归约.扫描和直方图(Reduce.Scan.Histogram) 一.评估标准 首先介绍用于评估GPU计算的两个标准: step :完成某特定计算所需时间--挖洞操作(Operation Hole Digging) work:工作总量 如下图示,第一种情况只有一个工人挖洞,他需要8小时才能完成,所以工作总量(Work)是8小时.第二种情况是有4个工人,它们2个小时就能完成挖洞任务,此时工作总量是8小时.第三种情况同理不加赘…
一.传统的提高计算速度的方法 faster clocks (设置更快的时钟) more work over per clock cycle(每个时钟周期做更多的工作) more processors(更多处理器) 二.CPU & GPU CPU更加侧重执行时间,做到延时小 GPU则侧重吞吐量,能够执行大量的计算 更形象的理解就是假如我们载一群人去北京,CPU就像那种敞篷跑车一样速度贼快,但是一次只能坐两个人,而GPU就像是大巴车一样,虽然可能速度不如跑车,但是一次能载超多人. 总结起来相比于CP…
Problem set 1 // Homework 1 // Color to Greyscale Conversion //A common way to represent color images is known as RGBA - the color //is specified by how much Red, Green, and Blue is in it. //The 'A' stands for Alpha and is used for transparency; it w…
Udacity调试课笔记之断言异常 这一单元的内容不是很多,如Zeller教授所说,就是如何写.检查断言,并如何使用工具实现自动推导出断言的条件. 现在,多数的编程语言,尤其是高级编程语言都会有内置的断言语句或断言函数.而随手编写个简易的断言也不件难事.使用内置的断言会有很多优点,比如获知出错断言的位置,可以通过编程语言的编译参数等来打开或关闭断言——即所谓的优化. 个人觉得,本单元的笔记想写成一篇博文会比较空.算起来,上一单元教授了一个方法.过程,可以让人去遵循.实践.这一单元教的断言,想得简…
译者注:本文翻译自斯坦福CS231n课程笔记ConvNet notes,由课程教师Andrej Karpathy授权进行翻译.本篇教程由杜客和猴子翻译完成,堃堃和李艺颖进行校对修改. 原文如下 内容列表: 结构概述 用来构建卷积神经网络的各种层 卷积层 汇聚层 归一化层 全连接层 将全连接层转化成卷积层 卷积神经网络的结构 层的排列规律 层的尺寸设置规律 案例学习(LeNet / AlexNet / ZFNet / GoogLeNet / VGGNet) 计算上的考量 拓展资源 卷积神经网络(C…
Stanford大学在2015年开设了一门Deep Learning for Natural Language Processing的课程,广受好评.并在2016年春季再次开课.我将开始这门课程的学习,并做好每节课的课程笔记放在博客上.争取做到每周一更吧. 本文是第一篇. NLP简介 NLP,全名Natural Language Processing(自然语言处理),是一门集计算机科学,人工智能,语言学三者于一身的交叉性学科.她的终极研究目标是让计算机能够处理甚至是"理解"人类的自然语…