ISSCC 2017论文导读 Session 14: A 28nm SoC with a 1.2GHz Prediction Sparse Deep-Neural-Network Engine

A 28nm SoC with a 1.2GHz 568nJ/Prediction Sparse Deep-Neural-Network Engine with >0.1 Timing Error Rate Tolerance for IoT Applications

单位：Harvard（哈佛大学）

这是一篇专门为DNN加速设计的芯片，在CNN加速芯片设计当道的今天也算是非常另类了~~不过能在ISSCC上发表，自然也有它的innovation，下面讲一讲。

就我当前的可以理解部分（知识结构不足哈，Razor timing violation detection这一块暂时不是特别清楚，留着以后再补），我觉得本文的创新点有：（1）稀疏计算，数据0不会参与运算；（2）采用sign-magnitude number format保存参数和计算；

DNN计算（就是一个向量*矩阵）是存在SIMD窗口的，一个输入同时可以计算多个节点。但是很容易想到，如果SIMD窗口太大，数据是重用了，但是参数一次要读太多会使得带宽变大。

因此，作者分析了数据和参数读取的相对比例，如图，可以看出，8通道的SIMD其效率是较高的，带宽也在合理范围内，同时可以在128b位宽的AXI总线下运行获得10x的数据有效重用率。

下面是整体架构图，是一个5阶段的SIMD流水架构，流程基本上是：

1、Host Processor将配置和输入数据载入CFG和IPBUF

2、乘累加器进行计算，数据由IPBUF读入，权重由W-MEM读入

3、在Activation步骤，进行偏置、激活操作，随后将数据写回XBUF（隐藏层结果）

4、向host发起中断请求，数据输出

分别对几个点展开讲一下：

XBUF：有两份，使得同时可以写结果到XBUF,又可以读数据用于计算；

Weight采用sign-magnitude number format：其实就是1bit符号位，后面是绝对值的原码，这样的好处是减少了补码表示带来的bit翻转率，既降低了功耗，也减少了出错率；

MAC Datapath：有8个并行的16bit MAC单元。因为采用SM，所以作者对同号和异号分开处理——其实就是同号乘结果累加，异号减去。

重点还有sparse怎么做。在MAC单元计算完（累加完成），然后要加上Bias，然后过RELU单元（也是因为RELU所以数据结果才稀疏，但是换其他激活函数就不行了），对于0数据（以及小于阈值的比较小的值），是不会写回XBUF的，同时Activation生产了SKIP信号存在临时的NBUF中。NBUF（512B SRAM）中维护的是参数中非零的index，DMA阶段会根据index来生成weight address，用于下个阶段从W-MEM取参数；这样就可以避免0数据的计算cycle了。

最后总结[1]：

DNN ENGINE——一款高能效的DNN加速器(568nj/pred@1.2GHz)，时序容差>10^-1@MNIST 98.36%

-Parallelism：10x的数据重用@带宽128b/cycle

-Sparcity：+4x吞吐，-4x能耗

-Resilience：+50%吞吐/-30%能耗(2/Razor)

[1] https://reconfigdeeplearning.com/2017/02/08/isscc-2017-session-14-slides14-3/

[2] ISSCC2017， A 28nm SoC with a 1.2GHz 568nJ/Prediction Sparse Deep-Neural-Network Engine with >0.1 Timing Error Rate Tolerance for IoT Applications

ISSCC 2017论文导读 Session 14: A 28nm SoC with a 1.2GHz Prediction Sparse Deep-Neural-Network Engine的更多相关文章

ISSCC 2017论文导读 Session 14:ENVISION: A 0.26-to-10 TOPS/W Subword-Parallel DVAFS CNN Processor in 28nm
ENVISION: A 0.26-to-10 TOPS/W Subword-Parallel Dynamic-Voltage-Accuracy-Frequency-Scalable CNN Proce ...
ISSCC 2017论文导读 Session 14 Deep Learning Processors，DNPU: An 8.1TOPS/W Reconfigurable CNN-RNN
转载请注明,本文出自Bin的专栏http://blog.csdn.net/xbinworld,谢谢! DNPU: An 8.1TOPS/W Reconfigurable CNN-RNN Process ...
ISSCC 2017论文导读 Session 14 Deep Learning Processors，A 2.9TOPS/W Deep Convolutional Neural Network
最近ISSCC2017大会刚刚举行,看了关于Deep Learning处理器的Session 14,有一些不错的东西,在这里记录一下. A 2.9TOPS/W Deep Convolutional N ...
ISSCC 2017论文导读 Session 14 Deep Learning Processors，A 2.9TOPS/W Deep Convolutional Neural Network SOC
最近ISSCC2017大会刚刚举行,看了关于Deep Learning处理器的Session 14,有一些不错的东西,在这里记录一下. A 2.9TOPS/W Deep Convolutional N ...
ISSCC 2017论文导读 Session 14:A 0.62mW Ultra-Low-Power Convolutional-Neural-Network Face-Recognition Pro
A 0.62mW Ultra-Low-Power Convolutional-Neural-Network Face-Recognition Processor and a CIS Integrate ...
ISSCC 2017论文导读 Session 14:A 288μW Programmable Deep-Learning Processor with 270KB On-Chip Weight
A 288μW Programmable Deep-Learning Processor with 270KB On-Chip Weight Storage Using Non-Uniform Mem ...
论文翻译：2022_PACDNN: A phase-aware composite deep neural network for speech enhancement
论文地址:PACDNN:一种用于语音增强的相位感知复合深度神经网络引用格式:Hasannezhad M,Yu H,Zhu W P,et al. PACDNN: A phase-aware compo ...
【论文笔记】Malware Detection with Deep Neural Network Using Process Behavior
[论文笔记]Malware Detection with Deep Neural Network Using Process Behavior 论文基本信息会议: IEEE(2016 IEEE 40 ...
论文阅读（XiangBai——【AAAI2017】TextBoxes_A Fast Text Detector with a Single Deep Neural Network）
XiangBai——[AAAI2017]TextBoxes:A Fast Text Detector with a Single Deep Neural Network 目录作者和相关链接方法概括 ...

随机推荐

deferred对象（摘自别人的文章）
对jQuery中的deferred对象的整体认识: Deferred是个工厂类,返回的是内部构建的deferred对象 tuples 创建三个$.Callbacks对象,分别表示成功,失败,处理中三种 ...
ios unrecognized selector sent to instance出现的原因和解决方案
概述:造成unrecognized selector sent to instance iphone,大部分情况下是因为对象被提前release了,在你心里不希望他release的情况下,指针还在,对 ...
微信小程序 --- 获取设备信息
获取设备信息: wx.getSystemInfo model:手机型号 pixelRatio:设备像素比 windowWidth:窗口宽度 windowHeight:窗口高度 language:语言 ...
js数组转成对象
$scope.addalerts = []; $scope.addalertsString = JSON.stringify($scope.addalerts); 全部教程http://each.si ...
expdp全库备份rac数据库因错误终止
1.expdp导出日志报错如下: ORA-39014: One or more workers have prematurely exited. ORA-39029: worker 2 with pr ...
HTTP监视器charles入门使用教程分享---http/s packet monitors---ubuntu installation
charles --usage http://www.cnblogs.com/chenlogin/p/5849471.html 按照Charles的提示,PC打开 chls.pro/ssl下载得到一个 ...
Django - rest - framework - 下
一.视图三部曲 https://www.cnblogs.com/wupeiqi/articles/7805382.html 使用混合(mixins) 之前得视图部分 # urls.py from dj ...
js基础面试高频面点1：变量提升
一.什么是变量提升?var变量提升的底层原理是什么? 变量提升的定义:所有变量的声明语句都会被提升到代码头部,这就是变量提升. 原理:引擎在读取js代码的过程中,分为两步,专业来说代码运行是分为预处理 ...
mysql 数据操作单表查询 concat_ws() 定义显示格式
有个需求用concat以这种格式打印查询 mysql> select concat(name,':',age) from employee; +----------------------+ | ...
001-Spring的设计理念和整体架构
一.概述 1.1.Spring的各个子项目网站:https://spring.io/ 基于Spring的项目:https://spring.io/projects 文档列表:https://spri ...

ISSCC 2017论文导读 Session 14: A 28nm SoC with a 1.2GHz Prediction Sparse Deep-Neural-Network Engine

ISSCC 2017论文导读 Session 14: A 28nm SoC with a 1.2GHz Prediction Sparse Deep-Neural-Network Engine的更多相关文章

随机推荐

热门专题