ZED-Board从入门到精通系列（八）——Vivado HLS实现FIR滤波器

http://www.tuicool.com/articles/eQ7nEn

最终到了HLS部分。HLS是High Level Synthesis的缩写，是一种能够将高级程序设计语言C，C++。SystemC综合为RTL代码的工具。

生产力的发展推动了设计模式。在电子技术0基础阶段，人们关注的是RLC电路。通过建立微分方程求解电路响应。

门级电路是对RLC的初步封装，人们进而採用布尔代数、卡诺图进行电路设计与分析。之后随着集成电路进一步发展。门电路能够集成为寄存器、触发器、ROM等宏单元。设计工具也变得更为高度模块化。算法级别的电路设计，则一直没有特别好的工具，直到出现了HLS。

HLS能够将算法直接映射为RTL电路，实现了高层次综合。从这个层面上讲，System Generator也是一种高层次综合工具。由于它将matlab算法描写叙述综合为RTL代码。假设今后机器学习、人工智能获得重大突破，也许会出现将人类自然语言综合为RTL代码的工具，不知我们能否见证它的面世。

HLS的学习资源能够參考 http://xilinx.eetrend.com/article/5096 。本节给出较为通用的矩阵与向量相乘样例，从全串行到全并行进行了一步步优化实现。

矩阵实验室Matlab是比較经常使用的数学仿真软件。

本博主用的是R2013a版本号。为了验证矩阵向量相乘正确性。我们先用matlab生成測试矩阵和向量。并利用matlab计算结果。代码例如以下：

clear;

clc;

close all;

N = 5;

A = randi([1,100],N,N);

b = randi(100,N,1);

c = A*b;

KKK_SaveToCHeaderFile(A,'A.h');

KKK_SaveToCHeaderFile(b,'b.h');

KKK_SaveToCHeaderFile(c,'c.h');

这里给出的是A*b = c的简单样例，A为5X5矩阵。b为5X1向量，结果c为5X1向量。当中KKK_SaveToCHeaderFile()是将矩阵、向量保存为C语言数组的子函数。定义例如以下：

function [] = KKK_SaveToCHeaderFile(var,fn)

fid = fopen(fn,'w');

var = reshape(var.',1,[]);

fprintf(fid,'%d,\r\n',var);

fclose(fid);

给出測试例程中，A例如以下：

82	10	16	15	66

91	28	98	43	4

13	55	96	92	85

92	96	49	80	94

64	97	81	96	68

9800

15846

16555

23124

22939

执行matlab脚本之后，生成三个文件：A.h。b.h。c.h，这些是作为HLS程序的输入数据和參考结果。以下我们用HLS工具实现上述矩阵X向量的功能。第一步，执行Vivado HLS。

选择第一项，Create New Project，建立新projectMatrixMultiply

输入路径和project名之后，点Next。

加入顶层模块文件。这里我们Top Functions输入MatrixMultiply，然后New File...，新建一个.c文件。命名为MatrixMultiply.c（后缀不要省略！

），然后点Next

加入顶层文件測试脚本。这里New一个文件TestMatrixMultiply.c（后缀不要省略！

），然后Add前面用Matlab生成的A.h。b.h，c.h，例如以下图所看到的：

点Next，选择解决方式配置，例如以下图所看到的

其余保持默认，仅仅改动Part Selection部分，改为ZedBoard。

改完后。Finish就可以进入主界面，例如以下图所看到的

能够看出。Vivado HLS界面非常像非常像Xilinx SDK，不同的是前者负责PL部分开发。后者负责PS软件编写。定位不同决定了二者今后的路必定走向分歧。

将MatrixMultiply.c内容改为：

typedef int data_type;

#define N 5

void MatrixMultiply(data_type AA[N*N],data_type bb[N],data_type cc[N])

{

  int i,j;

  for(i = 0;i<N;i++)

  {

    data_type sum = 0;

    for(j = 0;j<N;j++)

    {

      sum += AA[i*N+j]*bb[j];

    }

    cc[i] = sum;

  }

}

将TestMatrixMultiply.c内容改为：

#include <stdio.h> typedef int data_type; #define N 5

const data_type MatrixA[] = { #include "A.h" }; const data_type Vector_b[] = { #include "b.h" }; const data_type MatlabResult_c[] = { #include "c.h" };

data_type HLS_Result_c[N] = {0}; void CheckResult(data_type * matlab_result,data_type * your_result); int main(void) { printf("Checking Results:\r\n"); MatrixMultiply(MatrixA,Vector_b,HLS_Result_c); CheckResult(MatlabResult_c,HLS_Result_c); return 0; }
void CheckResult(data_type * matlab_result,data_type * your_result) { int i; for(i = 0;i<N;i++) { printf("Idx %d: Error = %d \r\n",i,matlab_result[i]-your_result[i]); } }

首先进行C语言仿真验证，点这个button：

结果例如以下：

从C仿真输出看到，仿真结果与matlab计算结果一致，说明我们编写的C程序MatrixMultiply是正确的。

接下来进行综合。按C仿真后面那个三角形button，得到结果例如以下：

注意到，计算延迟为186个时钟周期。

这是未经过优化的版本号，记为版本号1。

为了提高FPGA并行计算性能，我们接下来对它进行优化。

打开MatrixMultiply.c，点Directives页面，能够看到我们能够优化的对象。

注意到矩阵和向量相乘是双层for循环结构。我们先展开最内层for循环，过程例如以下：

右键点击最内側循环，右键，然后Insert Directive...

弹出对话框例如以下，Directives选择UNROLL，OK就可以。后面全部都保持默认。

再次综合后，结果例如以下

可见效果很明显，延迟缩短到51个时钟周期。

用相同方法，展开外层循环。综合后结果例如以下：

计算延迟又减少了1/3。！

。

但是代价呢？细心的你可能发现占用资源情况发生了较大变化，DSP48E1由最初的4个变为8个后来又成为76个。！

！

FPGA设计中，延迟的减少，即速度提高，必定会导致面积的增大！

循环展开是优化的一个角度，还有一个角度是从资源出发进行优化。

我们打开Analysis视图。例如以下所看到的：

从分析视图能够看出各个模块的执行顺序，从而为优化提供更为明白的指引。我们发现AA_load导致了延迟，假设全部AA的值都能一次性并行取出，势必会加快计算效率！

回到Synthetic视图，为AA添加Directives：

选择Resources，再点Cores后面的方框，进入Vivado HLS core选择对话框

按上图进行选择。使用ROM是由于在计算矩阵和向量相乘时，AA为常数。确认。

仍然选择AA。添加Directives，例如以下图：

选择数组分解，mode选择全然complete，综合后结果例如以下图：

延迟进一步减少，已经降到11个时钟周期了！。！是否已经达到极限了呢？？？

答案是否定的。我们进入Analysis视图。看一下还有哪些地方能够优化的。经过对照发现bb也须要分解，于是依照上面的方法对bb进行资源优化，也用ROM-2P类型，也做全分解，再次综合，结果例如以下：

发现延迟进一步减少到8个时钟周期了。。！

老师。能不能再给力点？

能够的！！

！

。

我们进入分析视图，发现cc这个回写的步骤堵塞了总体流程，于是我们将cc也进行上述资源优化。仅仅只是资源类型要变为RAM_2P，由于它是须要写入的。

综合结果：

总体延迟已经减少到6个clk周期了！！！

再看Analysis视图：

延迟已经被压缩到极限了。

。

。。

老师。还能再给力点嘛？

答案是能够的。！

！

我们前面的全部运算都是基于整形数int，假设将数值精度减少，将大大节省资源。

注意如今DSP48E1须要100个！

看我们怎样将资源再降下来。

这就须要借助“随意精度”数据类型了。

HLS中除了C中定义的char。shrot，int。long。long long 之外。还有随意bit长度的int类型。

我们将代码开头的data_type定义改为：

#include <ap_cint.h>

typedef uint15 data_type;

因为matlab生成的随机数在1~100以内。乘积范围不会超过10000。于是取15bit就能满足要求。

首先验证下结果的正确性，用C Simulation试一下。结果例如以下：

看来结果是正确的（当然也不排除数位不够，溢出后的结果相减也是0，须要你自己决定数值位宽）

综合一下。结果例如以下：

延迟缩短了一半，DSP48E1降低到原来的1/4！！

！！！。！！！！

。！！！

。！

！

！。！。！！！。。！！！

！

！！

。。！！。！！

！！

。！

！

我和我的小伙伴们都震惊了！

！

！！

！

。！！！

。！！

。。。！

！！。！

！

。！！

！

！！

！！！！。。！

！。！。！

！！！！！

。！！。。

再看Analysis视图

能够发现我们的资源利用率已经达到极致，时序已经压缩到无以复加，实现了全并行计算。系统时钟全然能够达到100MHz。延迟仅3CLK。约30ns，相比matlab。得到约数百倍加速（matlab进行矩阵——向量相乘时採用浮点计算）。

通过本文实验，能够发现利用Vivado HLS实现从最初的C串行实现到全并行实现的步步优化。总结一下优化步骤：

（1）粗优化（循环展开、子函数内联）

（2）訪存优化（块存储分散化、多port存取）

（3）精优化（数值位宽优化、流水线优化）

（4）总线化（利用AXI4、AXI-Stream总线接口，减少总体訪存需求）

利用HLS能够将原来的C算法高速部署到FPGA上，降低直接进行硬件编程的工作量。在非常多情况下，优化手段能够和CUDA进行类比，相互借鉴。CUDA事实上更接近软件接口，而HLS更接近硬件编程接口，也许今后两者会在新的层次上融合为统一架构语言。

ZED-Board从入门到精通系列（八）——Vivado HLS实现FIR滤波器的更多相关文章

Spring Boot从入门到精通（八）日志管理实现和配置信息分析
Spring Boot对日志的处理,与平时我们处理日志的方式完全一致,它为Java Util Logging.Log4J2和Logback提供了默认配置.对于每种日志都预先配置使用控制台输出和可选的文 ...
ArcGIS10从入门到精通系列实验图文教程（附配套实验数据持续更新）
@ 目录 1. 专栏简介 2. 专栏地址 3. 专栏目录 1. 专栏简介本教程<ArcGIS从入门到精通系列实验教程>内容包括:ArcGIS平台简介.ArcGIS应用基础.空间数据的采集 ...
redis入门到精通系列（四）：Jedis--使用java操作redis详解
(一)前言如果不把数据库和后端语言联系起来,就起不到数据库应该要起到的作用.Java语言通过JDBC操作mysql,用Jedis操作redis.当然了,java操作redis的方式不止jedis一种 ...
Provisioning Services 7.6 入门到精通系列之一：PVS前期规划
1. Provisioning Services 产品概述 Provisioning Services (简称PVS)采用了一种与传统映像解决方案截然不同的方法,从根本上改变了硬件与依托硬件而运行的 ...
Jenkins pipeline 入门到精通系列文章
Jenkins2 入门到精通系列文章. Jenkins2 下载与启动jenkins2 插件安装jenkins2 hellopipelinejenkins2 pipeline介绍jenkins2 jav ...
办公软件Office PPT 2010视频教程从入门到精通系列教程(22课时)
办公软件Office PPT 2010视频教程从入门到精通系列教程(22课时) 乔布斯的成功离不开美轮美奂的幻灯片效果,一个成功的商务人士.部门经理也少不了各种各样的PPT幻灯片.绿色资源网给你提供了 ...
NHibernate从入门到精通系列
http://www.cnblogs.com/GoodHelper/archive/2011/02/17/1948744.html NHibernate从入门到精通系列(4)——持久对象的生命周期(上 ...
Selenium 入门到精通系列：六
Selenium 入门到精通系列 PS:Checkbox方法例子 HTML: <html> <head> <title>测试页面</title> &l ...
Selenium 入门到精通系列：五
Selenium 入门到精通系列 PS:显式等待.隐式等待.强制等待方法例子 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2019 ...

随机推荐

jsonp跨域实现
原理:借助script可以跨域的思想,将跨域请求放在script中,当页面解析到改script标签时,就会向该src指向的地址发出一个请求,达到跨域请求的目的. 两点:(1)主要是利用了 <sc ...
Photoshop 学习中
快捷键: f8打开信息调板,注意虽然数字最高是255,但0也是数值之一,因此共256级. f7开启图层调板 f6调出调色板,按D还原为默认颜色 ctrl + 放大,ctrl - 缩小 f 可以切换显示 ...
Struts2开发文档
struts2配置 struts2核心配置文件约束 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts ...
python爬虫(一)_爬虫原理和数据抓取
本篇将开始介绍Python原理,更多内容请参考:Python学习指南为什么要做爬虫著名的革命家.思想家.政治家.战略家.社会改革的主要领导人物马云曾经在2015年提到由IT转到DT,何谓DT,DT ...
文本域、bootstrap-table显示以及MySQL三者间的换行符问题
首先,今天在做项目的时候遇到的一个问题,如何实现文本输入换行以及在前台Bootstrap-table中显示也能够换行. 也许你马上就会想到说,用富文本编辑器,然而我们需要实现的只是文本输入以及换行功能 ...
ASP.NET Core 依赖注入（DI）简介
ASP.NET Core是从根本上设计来支持和利用依赖注入. ASP.NET Core应用程序可以通过将其注入到Startup类中的方法中来利用内置的框架服务,并且应用程序服务也可以配置为注入. AS ...
C#实现中国身份证验证问题
C#中国身份证验证,包括省份验证和校验码验证,符合GB11643-1999标准... 今天写的 C#中国身份证验证,包括省份验证和校验码验证,符合GB11643-1999标准... 理论部分: 1 ...
Transact-SQL知识点梳理
Transact-SQL基础语言运行环境:SQL Server 语法约定: 语法约定用途说明大写字母 Transact-SQL关键字斜体用户提供的Transact-SQL语法参数粗体数据 ...
MySQL运维相关工具汇总（待补充）
1.orztop查看show full processlist http://hidba.org/?p=841 2.orzdba查看系统状态信息 http://code.taobao.org/p/or ...
Maven依赖分析
背景昨天帮一位同事排查了一个依赖冲突的问题.问题的现象就是在IntelliJ IDEA运行项目正常,但是打包(Maven assembly jar)之后传到服务器运行失败,报错:Caused by: ...

ZED-Board从入门到精通系列（八）——Vivado HLS实现FIR滤波器

ZED-Board从入门到精通系列（八）——Vivado HLS实现FIR滤波器的更多相关文章

随机推荐

热门专题