ISSCC 2017论文导读 Session 14:ENVISION: A 0.26-to-10 TOPS/W Subword-Parallel DVAFS CNN Processor in 28nm

ENVISION: A 0.26-to-10 TOPS/W Subword-Parallel Dynamic-Voltage-Accuracy-Frequency-Scalable CNN Processor in 28nm FDSOI

单位：EAST-MICAS, KU Leuven（鲁汶大学）

本文是我觉得本次ISSCC2017 session 14中最好的一篇，给人的启示有很多，比如一款SOC可以在非常大的能效范围内调节；比如DL加速需要多少组成部件以及有几种数据复用的形式；多种bit位宽的乘法器资源复用，数据IO压缩；

嵌入式设备中的神经网络：从云端到终端的计算载体转移，对能效的要求提高。1-10TOPS/W的CNN计算能效是对始终在线的(Always-On)嵌入式设备运行NN的重要保证。不同计算压力下，计算量不同，因此能耗节省空间大[1]。

高精度调整乘法器电压+频率：DVAS->DVAFS。基于JSSC2016、VLSI2016的DVAS工作基础，对乘法器进行优化设计，增加实现频率的调整。DVAFS实现了对运行时所有可调整参数的降低：激活a，频率f，电压v。通过采用高位x高位、低位x低位，可以在16b阵列上同时计算两个8b乘法，对于后续的不同精度计算吞吐提升和资源利用提高起到极大的作用。

重点看一下本篇的架构设计：

在ENVISION中，数据重用分为三类：卷积重用（单一卷积核vs一张图的多图层）；图像重用（多个卷积核vs一张图的单图层）；卷积核重用（单一卷积核vs多张图像的多图层）。

总体架构如下：整个架构包含用于ReLU/MacPool/Mac计算的1D-SIMD，专用于MAC计算的2D-SIMD，用于数据和控制的RISC主控、DMA接口、DM、PM模块等。

下面几张图分别介绍了卷积重用（单一卷积核vs一张图的多图层）；图像重用（多个卷积核vs一张图的单图层）；卷积核重用（单一卷积核vs多张图像的多图层）的方法：

上面这些都是很基本的计算trick，但是在一款设计中要全部做到，很多以前的设计并没有做好。原因很多，比如在做多张的时候，如果复用一张的资源就需要2X的资源，但是本文结合了4-8-16复用一套计算单元的方法——就是在低bit的时候，还是一套资源。

几个其他特点：

C编程
16bit指令
IO的时候有huffman压缩
GRD SRAM——用于使能sparse计算，关闭sparse的乘法；

关闭sparse的乘法：

芯片性能及能效表现：由上到下分为1x16b/2x8b/4x4b/30~60% 4×3~4b。可以看到scale非常大，能效相差可达40x，电压域为0.61v~0.85v。性能表现在BBopt下可达10TOPS/W。

总结[1]：

1、面向多层场景的Always-on架构

2、高能效的CNN处理架构：基于2D-SIMD；采用DVAFS技术；面向稀疏计算的检测及IO级压缩

3、ENVISION是一款具有0.25~10TOPS/W@76GOPS能效表现的嵌入式CNN处理芯片。

参考资料

[1] https://reconfigdeeplearning.com/2017/02/09/isscc-2017-session-14-slides14-5/

[2] ENVISION: A 0.26-to-10 TOPS/W Subword-Parallel Dynamic-Voltage-Accuracy-Frequency-Scalable CNN Processor in 28nm FDSOI

ISSCC 2017论文导读 Session 14:ENVISION: A 0.26-to-10 TOPS/W Subword-Parallel DVAFS CNN Processor in 28nm的更多相关文章

ISSCC 2017论文导读 Session 14 Deep Learning Processors，A 2.9TOPS/W Deep Convolutional Neural Network
最近ISSCC2017大会刚刚举行,看了关于Deep Learning处理器的Session 14,有一些不错的东西,在这里记录一下. A 2.9TOPS/W Deep Convolutional N ...
ISSCC 2017论文导读 Session 14 Deep Learning Processors，A 2.9TOPS/W Deep Convolutional Neural Network SOC
最近ISSCC2017大会刚刚举行,看了关于Deep Learning处理器的Session 14,有一些不错的东西,在这里记录一下. A 2.9TOPS/W Deep Convolutional N ...
ISSCC 2017论文导读 Session 14 Deep Learning Processors，DNPU: An 8.1TOPS/W Reconfigurable CNN-RNN
转载请注明,本文出自Bin的专栏http://blog.csdn.net/xbinworld,谢谢! DNPU: An 8.1TOPS/W Reconfigurable CNN-RNN Process ...
ISSCC 2017论文导读 Session 14:A 0.62mW Ultra-Low-Power Convolutional-Neural-Network Face-Recognition Pro
A 0.62mW Ultra-Low-Power Convolutional-Neural-Network Face-Recognition Processor and a CIS Integrate ...
ISSCC 2017论文导读 Session 14: A 28nm SoC with a 1.2GHz Prediction Sparse Deep-Neural-Network Engine
A 28nm SoC with a 1.2GHz 568nJ/Prediction Sparse Deep-Neural-Network Engine with >0.1 Timing Erro ...
ISSCC 2017论文导读 Session 14:A 288μW Programmable Deep-Learning Processor with 270KB On-Chip Weight
A 288μW Programmable Deep-Learning Processor with 270KB On-Chip Weight Storage Using Non-Uniform Mem ...
安装sql server2017出现错误：Visual Studio 运行时"Microsoft visual c++2017 X64 Minimum Runtime - 14.10.25008"需要修复
安装sql server 2017 Developer Edition时,安装选择“基本”,发生如下错误: 解决方法: 1.进入控制面板→程序中,找到“Microsoft visual c++2017 ...
软考论文的六大应对策略V1.0
软考论文的六大应对策略V1.0 短短2个小时,要写3000字的文章,对习惯了用电脑敲字.办公的IT从业人员而言,难度不小.尤其,大家会提笔忘字.笔者的应试策略,就是勤学苦练,考试前的一个星期,摸清套路 ...
论文学习-系统评估卷积神经网络各项超参数设计的影响-Systematic evaluation of CNN advances on the ImageNet
博客:blog.shinelee.me | 博客园 | CSDN 写在前面论文状态:Published in CVIU Volume 161 Issue C, August 2017 论文地址:ht ...

随机推荐

Java GUI程序设计
在实际应用中,我们见到的许多应用界面都属于GUI图形型用户界面.如:我们点击QQ图标,就会弹出一个QQ登陆界面的对话框.这个QQ图标就可以被称作图形化的用户界面. 其实,用户界面的类型分为两类:Com ...
【Python】如何切换浏览器的tap页？
当点击浏览器当前页面中的某个链接后自动弹出一个新的浏览器的tap页面时,浏览器正常都会在当前操作的tap页面右1位置打开新弹出的tap页. 当前selenium还不具备自动切换页面后窗口切换功能.需要 ...
mysql transaction 事务
1.事务简介一个"最小的"不可再分的"工作单元". 一个事务通常对应了一个完整的业务.如:银行的转账功能,a转账给b,a扣钱,b加钱. 一个事务包含一条或多条 ...
OC导航栏自定义返回按钮
[iOS]让我们一次性解决导航栏的所有问题在默认情况下,导航栏返回按钮长这个样子导航栏默认返回按钮导航栏左上角的返回按钮,其文本默认为上一个ViewController的标题,如果上一个Vi ...
JS DOM节点
html代码: <body onload ="loaded12()"> <form name="form1" action="htt ...
在sublime3中docblockr插件配置apidoc接口文档注释模板
写在前面: 将进行3个步骤配置 1.在sublime3中安装插件docblockr,可以参考http://www.cnblogs.com/jiangxiaobo/p/8327709.html 2.安装 ...
C# 如何把dataTable以参数的形式传入 sql 存储过程
==================================================-- sql代码示例:CREATE TYPE dbo.Content AS TABLE( ID i ...
SV中的线程
SV中线程之间的通信可以让验证组件之间更好的传递transaction. SV对verilog建模方式的扩展:1) fork.....join 必须等到块内的所有线程都执行结束后,才能继续执行块后的语 ...
tensorflow显存管理
在运行上面的blog的Tensorflow小程序的时候程序我们会遇到一个问题,当然这个问题不影响我们实际的结果计算,但是会给同样使用这台计算机的人带来麻烦,程序会自动调用所有能调用到的资源,并且全占满 ...
教你玩转产品管理系统iClap（PC端功能篇）
之前和大家介绍了iClap的基础功能, 这一次针对PC端右侧的工具栏再做一个详细的介绍随着版本的更新迭代,陆续会有更多工具和功能推出! 导航为项目成员提供网址浏览访问导航服务,帮助项目成员快速查找 ...

ISSCC 2017论文导读 Session 14:ENVISION: A 0.26-to-10 TOPS/W Subword-Parallel DVAFS CNN Processor in 28nm

参考资料

ISSCC 2017论文导读 Session 14:ENVISION: A 0.26-to-10 TOPS/W Subword-Parallel DVAFS CNN Processor in 28nm的更多相关文章

随机推荐

热门专题