深度学习飞速发展过程中，人们发现原有的处理器无法满足神经网络这种特定的大量计算，大量的开始针对这一应用进行专用的硬件设计。谷歌的张量处理单元（Tensor Processing Unit，后文简称TPU）是完成较早，具有代表性的一类设计，基于脉动阵列设计的矩阵计算加速单元，可以很好的加速神经网络的计算。本系列文章将利用公开的TPU V1相关资料，对其进行一定的简化、推测和修改，来实际编写一个简单版本的谷歌TPU，以更确切的了解TPU的优势和局限性。

动手写一个简单版的谷歌TPU系列目录

拓展

TPU的边界（规划中）

重新审视深度神经网络中的并行（规划中）

1. 完成SimpleTPU的设计

在谷歌TPU概述和简化中给出过SimpleTPU的框图，如下图所示。

在TPU中的脉动阵列及其实现中介绍了矩阵/卷积计算中的主要计算单元——乘加阵列（上图4），完成了该部分的硬件代码并进行了简单的验证；在神经网络中的归一化和池化的硬件实现中介绍了卷积神经网络中的归一化和池化的实现方式（上图6），同时论述了浮点网络定点化的过程，并给出了Simple TPU中重量化的实现方式，完成了该部分的硬件代码并进行了验证。

在 TPU中的指令并行和数据并行中对整个处理单元的体系结构进行了分析和论述，包括指令并行和数据并行两个方面。那么，如何在TPU中的指令并行和数据并行中提到的设计思路下，将TPU中的脉动阵列及其实现和神经网络中的归一化和池化的硬件实现中提到的计算单元充分的利用，是完成Simple TPU设计的最后一部。根据SimpleTPU的框图可知，需要实现的功能包括

指令的取指和译码（上图4）
Weight的读取（上图2）
各个执行单元的控制和调度（上图1）
读取图像和写回结果（上图5）

在SimpleTPU的设计中，指令的取指和译码和Weight的读取功能都较为简单，可直接参照代码。

在对各个执行单元进行控制和调度时需要确保各个单元可以共同执行，没有相互之间的数据以来关系。

除此之外，还需要单独实现读取图像和写回结果的功能。SimpleTPU中只关注核心的计算功能，该部分功能并未进行优化，后续对实现效果进行分析时，也会将该部分运行时间排除在外。

至此，Simple TPU的设计基本完成了，代码可参见https://github.com/cea-wind/SimpleTPU。

2. SimpleTPU的特性

SimpleTPU的主要特性包括

支持INT8乘法，支持INT32的累加操作
采用VLIW进行指令并行
采用向量体系结构进行数据并行

SimpleTPU依照Google TPU V1的设计思路，可以完成神经网络推理过程中的大部分运算。依据设计，支持的运算包括（理论）

运算	说明
Conv3d	in_channels:资源受限 out_channels:资源受限 kerner_size:几乎无限制 stride:几乎无限制 padding:几乎无限制 dilation:几乎无限制 groups:极有限支持，架构限制 bias:支持
ConvTranspose3d	同上
Maxpool2d	kernel_size:几乎无限制 stride:几乎无限制 padding:几乎无限制
Avgpool2d	同上
Relu	仅支持RELU作为非线性函数
BatchNorm2d	推理中BatchNorm2d被融合到Conv或者Pool完成
Linear	资源受限
UpscalingNearest2D	多次调用pool完成
UpscalingBilinear2D	多次调用avgpool完成

其中，资源受限代表该参数的取值范围有限，主要受限于SimpleTPU的存储设计等；几乎无限制表示其取值仅受到寄存器位宽等限制。由于架构设计上的问题，SimpleTPU对groupconv支持极为有限，在不合适的参数下效率可能远低于普通卷积；类似的，Google TPU也不能很好支持groupconv，并明确告知不制止depthwise conv（极度稀疏化的group conv）。

BatchNorm2d在推理过程中实际上时进行逐点的乘法和加法，其中加法计算可以融合到下一层或者上一层的卷积计算中进行，乘法计算可以和pooling计算融合。在SimpleTPU设计，Pooling模块实际上一直在工作，即使网络中没有pooling层，SimipleTPU增加了一个1*1，stride=1的pooling层进行等价。

Upscaling操作通过pooling完成计算。这是因为在SimpleTPU中，reshape操作（支持的）是没有代价的。pooling操作可以完成双线性插值的计算，因此可以完成upscaling中的所有数值的计算。可以理解为通过pooling+reshape完成了upscaling的计算。

3. SimpleTPU的性能

Simple TPU设计了一个32×32的int8乘加阵列计算矩阵乘法和卷积，和一个1×32的int32乘法阵列进行池化和归一化的计算。根据Xilinx HLS工具的综合结果，在UltraScale+系列的FPGA器件上，工作频率可达500MHz。因此SimpleTPU的算力约为

32×32×500MHz×2 = 1Tops

作为对比，GoogleTPU V1的算力约为91Tops（int8），差异主要在SimpleTPU的规模为其1/64，同时在FPGA上的工作频率会低于ASIC的工作频率。

依据设计，SimpleTPU在适合的任务下会有很高的运行效率，TPU中的指令并行和数据并行中针对这一点又更为具体的描述。从宏观上看，SimpleTPU的各个运行单元可以流水并行的，即

而针对网络中计算量最大的全连接层和卷积层，针对性设计的乘法整列和向量计算的设计方法可以让其在每个时钟周期都完成有效的乘加计算；这意味着和CPU相比，SimpleTPU可以达到极高的效率。

Simple TPU的设计和性能评估的更多相关文章

第 9 章 MySQL数据库Schema设计的性能优化
前言: 很多人都认为性能是在通过编写代码(程序代码或者是数据库代码)的过程中优化出来的,其实这是一个非常大的误区.真正影响性能最大的部分是在设计中就已经产生了的,后期的优化很多时候所能够带来的改善都只 ...
MySQL性能调优与架构设计——第9章 MySQL数据库Schema设计的性能优化
第9章 MySQL数据库Schema设计的性能优化前言: 很多人都认为性能是在通过编写代码(程序代码或者是数据库代码)的过程中优化出来的,其实这是一个非常大的误区.真正影响性能最大的部分是在设计中就 ...
[转]网络性能评估工具Iperf详解（可测丢包率）
原文链接:安全运维之:网络性能评估工具Iperf详解:http://os.51cto.com/art/201410/454889.htm 参考博文:http://linoxide.com/monito ...
Linux网络性能评估工具iperf 、CHARIOT测试网络吞吐量
网络性能评估主要是监测网络带宽的使用率,将网络带宽利用最大化是保证网络性能的基础,但是由于网络设计不合理.网络存在安全漏洞等原因,都会导致网络带宽利用率不高.要找到网络带宽利用率不高的原因,就需要对网 ...
Linux服务器性能评估与优化--转
http://www.itlearner.com/article/4553 一.影响Linux服务器性能的因素 1. 操作系统级 Ø CPU Ø 内存 Ø 磁盘I/ ...
[转载]Linux服务器性能评估与优化
转载自:Linux服务器性能评估与优化一.影响Linux服务器性能的因素 1. 操作系统级 CPU 内存磁盘I/O带宽网络I/O带宽 2. 程序应用级二.系统性能评估标准影响性 ...
转贴---Linux服务器性能评估
http://fuliang.iteye.com/blog/1024360 http://unixhelp.ed.ac.uk/CGI/man-cgi?vmstat ------------------ ...
目标检测模型的性能评估--MAP（Mean Average Precision）
目标检测模型中性能评估的几个重要参数有精确度,精确度和召回率.本文中我们将讨论一个常用的度量指标:均值平均精度,即MAP. 在二元分类中,精确度和召回率是一个简单直观的统计量,但是在目标检测中有所不同 ...
Linux服务器性能评估
一.影响Linux服务器性能的因素 1. 操作系统级 CPU 内存磁盘I/O带宽网络I/O带宽 2. 程序应用级二.系统性能评估标准影响性能因素影响性能因素评判标准好坏糟糕 CPU ...

随机推荐

Android和IOS启动第三方地图APP
最近客户新提了需求,地址字段要能通过第三方的地图进行定位,于是对Android和IOS端进行了调整. 以下是调用地图部分的代码. android可按照包名来判断app是否存在: 方法: /* * ch ...
Webapi实现websocket实时通讯
应用场景:前端页面发起一个websocket请求与后端进行实时通讯.后端监听某端口获取数据,将监听到的数据加工处理,通过websocket发送到前端. 这里只提供后台的处理方案仅供参考. 1.后端监听 ...
hgoi#20190514
T1-Curriculum Vitae 给你一个长度为n的01序列a,删去其中的几个数,使得序列中左边是连续的0,右边是连续的1,可以没有0或1,求最多剩下几个数解法对于每个点看它左边几个0,右边 ...
Ubuntu --- Virtualbox 和宿主机文件夹共享
1.在设置里面共享文件夹 2.在Ubuntu中配置 sudo mount -t vboxsf share /var/www/html/ 无需重启即可生效 3.实现系统重启后也自动挂载在文件 /etc ...
系统学习 Java IO (十五)----字符读写 Reader/Writer 其他子类
目录:系统学习 Java IO---- 目录,概览跟踪行号的缓冲字符输入流 LineNumberReader LineNumberReader 类是一个 BufferedReader ,用于跟踪读取 ...
PATB 1018. 锤子剪刀布
时间限制 100 ms 内存限制 65536 kB 代码长度限制 8000 B 判题程序 Standard 作者 CHEN, Yue 大家应该都会玩“锤子剪刀布”的游戏:两人同时给出手势,胜负规则如图 ...
Knative 初体验：Build Hello World
作者 | 阿里云智能事业群技术专家冬岛 Build 模块提供了一套 Pipeline 机制.Pipeline 的每一个步骤都可以执行一个动作,这个动作可以是把源码编译成二进制.可以是编译镜像也可以是 ...
java中Object源码理解
java阅读笔记 1.object getClass() 返回是的此object运行时的类,返回的对象是被object锁定的对象,调用这个方法不需要进行强转 public static void ma ...
记2017青岛ICPC
2017青岛ICPC 11月4日早上很早到达了青岛,然后去报道,走了好久的校园,穿的很少冷得瑟瑟发抖.中午教练请吃大餐,吃完饭就去热身赛了. 开幕式的时候,教练作为教练代表讲话,感觉周围的队伍看过来 ...
ajax 的登录认证
在models中先创建一个表 from django.db import models # Create your models here. class UserInfo(models.Model) ...