原创By DeeZeng [ Intel FPGA笔记 ]

在用Nios II测试 DDR3时候发现一个现象 (测试为:写全片,读全片+比对)

  1. 用单独的PLL产生时钟(200MHz)驱动 Nios II,  测试DDR3时间为87s
  2. 用 DDR3 IP的 afi_clk(200MHz) 驱动 Nios II,  测试DDR3时间为67s

只是换了个时钟为什么影响这么大?相差近 20s

分析发现

  1. PLL 产生的时钟 和 DDR3 的afi_clk 是两个时钟域
  2. Qsys interconnect 会在 Avalon MM 不同时钟域 自动插入 Clock Crossing Adapter
  3. Nios II的读写 和 Clock Crossing Adapter 特性造成传输效率低下

接下来将具体分析一下,为什么测试时间会相差那么大:

一、跨时钟域 Qsys自动插入 Clock Crossing Adapter

1. 当Avalon MM Master  和 Avalon MM Slave 的时钟为不同时钟的时候  (类似Nios II 用pll 200MHz , DDR3 都用了 afi_clk 200MHz)

我们将鼠标悬浮在 黑圆点那 可以看到连接信息,并且 红点提示:A Clock Crossing adapter will be inserted

2. 当Avalon MM Master  和 Avalon MM Slave 的时钟为同一个的时候  (类似Nios II 和 DDR3 都用了 afi_clk)

我们将鼠标悬浮在 黑圆点那 可以看到连接信息, 然后不会有Clock Crossing Bridge提示

二、 Clock Crossing Adapter 将增加 多个周期 的 latency

如上两图,可以看出Clock Crossing Adapter的架构 将导致增加几个周期的 latency

三、增加的Latency 对传输效率有什么影响?

1. 低效率的读写操作,雪上加霜

如果本身传输协议就是如上图这种低效的。 动作半天,只读了一个word。 那增加几个latency后效率变得更低下

举例:

如果原来4个周期出一个Word, 那效率是 25%

而加上5个周期 latency后,变为9个周期出一个Word,效率降低为 11%

2. 高效率的读写操作,影响不大

如果本身传输协议就是如上图这种高效的。 burst传输,只是延迟几个周期

举例:

如果原来4个周期出delay,一次传输100个word 耗时 104 ,效率为 96%

而加上5个周期 latency后,变为109个周期出100 Word,效率降低为 92%

、Nios II 的读写是什么情况呢?

从上面 一 二 三 点分析,我们已经知道测试时间增长的原因:增加的 Timing Crossing Adapter造成传输效率变低了

经查手册,找到一个 Nios II 的 操作时序图(并非Nios II 操作DDR3的) ,操作 latency4个周期 一次操作8个

举例:

如果原来4个周期出delay,一次传输8个word 耗时 12,效率为 66%

插入Timing Adapter 假设增加了5个周期 latency后,变为17个周期出8Word,效率降低为 47%

(这里只是举例, Nios II操作DDR3实际并非这种时序。 DDR3 -> DDR -> Quarter Bridge ->,

DDR3的read latency也会随着这些bridge变换。bus变换过程中也增加了Width Adapter等,所以只是简单判断原因 )

所以 测试DDR3为:写全片,读全片+比对。比对耗时一致。读写变慢导致时间差异


这篇博文的目的:

1. 关注带宽和吞吐量的应用,注意一下这些 Clock Crossing Adapter  和 Pipe Bridge 的添加  (注意到 Bridge有可能降低传输效率这回事)

分析 bridge带来 fmax 的提升,和效率降低的权衡。 (其实关键就是尽量burst 提升传输效率)

2. 这篇分析 并不是不建议用 Timing Clock Crossing Adapter (注意到 Bridges 还有很多其他作用)

它还有很多的作用 如

1. 提升fmax

2.调节架构(多个master,多个slave)节省逻辑资源

3. ...

详细资料请参考:https://www.intel.com/content/dam/www/programmable/us/en/pdfs/literature/ug/ug-qps-platform-designer.pdf

Clock Crossing Adapter传输效率分析 (Latency增加,传输效率降低)的更多相关文章

  1. 用wireshark抓包分析TCP三次握手、四次挥手以及TCP实现可靠传输的机制

    关于TCP三次握手和四次挥手大家都在<计算机网络>课程里学过,还记得当时高超老师耐心地讲解.大学里我遇到的最好的老师大概就是这位了,虽然他只给我讲过<java程序设计>和< ...

  2. Linux内核NAPI机制分析

    转自:http://blog.chinaunix.net/uid-17150-id-2824051.html 简介:NAPI 是 Linux 上采用的一种提高网络处理效率的技术,它的核心概念就是不采用 ...

  3. Android程序员必知必会的网络通信传输层协议——UDP和TCP

    1.点评 互联网发展至今已经高度发达,而对于互联网应用(尤其即时通讯技术这一块)的开发者来说,网络编程是基础中的基础,只有更好地理解相关基础知识,对于应用层的开发才能做到游刃有余. 对于Android ...

  4. java 网络通信传输层协议——UDP和TCP

    本文原文由作者“zskingking”发表于:jianshu.com/p/271b1c57bb0b,本次收录有改动. 1.点评 互联网发展至今已经高度发达,而对于互联网应用(尤其即时通讯网专注的即时通 ...

  5. WebRTC 源码分析(五):安卓 P2P 连接过程和 DataChannel 使用

    从本篇起,我们将迈入新的领域:网络传输.首先我们看看 P2P 连接的建立过程,以及 DataChannel 的使用,最终我们会利用 DataChannel 实现一个 P2P 的文字聊天功能. P2P ...

  6. 网络流量分析——NPMD关注IT运维、识别宕机和运行不佳进行性能优化。智能化分析是关键-主动发现业务运行异常。科来做APT相关的安全分析

    科来 做流量分析,同时也做了一些安全分析(偏APT)——参考其官网:http://www.colasoft.com.cn/cases-and-application/network-security- ...

  7. 无线网络中的MIMO与OFDM技术原理分析

    无线网络中的MIMO与OFDM技术原理分析CNET中国·ZOL 07年08月14日 [原创] 作者: 中关村在线 张伟 从最早的红外线技术到目前被寄予重望的WIFI,无线技术的进步推动我们的网络一步步 ...

  8. FPGA中的delay与latency

    delay和latency都有延迟的意义,在FPGA中二者又有具体的区别. latency出现在时序逻辑电路中,表示数据从输入到输出有效经过的时间,通常以时钟周期为单位. delay出现在组合逻辑电路 ...

  9. java容器类分析:Collection,List,ArrayList

    1. Iterable 与 Iterator Iterable 是个接口,实现此接口使集合对象可以通过迭代器遍历自身元素. public interface Iterable<T> 修饰符 ...

随机推荐

  1. 从零开始的Wordpress个人博客搭建

    0x00前言 在博客园写了有一年的博客了,也想换换新口味,wordpress的众多的主题和个性化设置非常符合我的喜好,所以捣鼓了一天也算是把它搭好了. 直接在服务器上搭建wordpress还需要配置m ...

  2. excel表格处理

    xlrd模块 ​ 是python中一个第三方的用于读取excle表格的模块,很多企业在没有使用计算机管理前大多使用表格来管理数据,所以导入表格还是非常常用的! exlce结构分析 ​ 一个excle表 ...

  3. Markdown教程<3> 数学公式(1)

    # Markdown教程<3> 数学公式(1) 1.如何在markdown中使用公式 公式分为行内公式与行间公式,其中: 行内公式使用$ 数学公式 $ 行间公式使用$$ 数学公式 $$ 2 ...

  4. 推荐一个Redis管理工具

    Redis是一个开源(BSD许可),内存存储的数据结构服务器,可用作数据库,高速缓存和消息队列代理.它支持字符串.哈希表.列表.集合.有序集合,位图,hyperloglogs等数据类型.内置复制.Lu ...

  5. 音视频技术“塔尖”之争,网易云信如何C位出道?

    音视频技术“塔尖”之争,网易云信如何C位出道? 社交+美颜.抖音短视频.在线狼人杀.直播竞答.子弹短信……,过往两三年间,互联网新产品和新玩法层出不穷,风口不断切换.这些爆红的网络应用背后,都有一些共 ...

  6. VUE、微信for动态变量取值(拼接取值)

    item.value是其它循的值如value=[1,2,3] {{'images[arrAy' + item.value+']'}} 那么拼接结果是 {{images[arrAy1]}}, {{ima ...

  7. Smobiler实现手机弹窗

    前言 在实际项目中有很多场景需要用到弹窗,如图1 那么这些弹窗在Smobiler中如何实现呢? 正文 Smobiler实现弹窗有两种方式:1.MessageBox.Show 2.ShowDialog和 ...

  8. 如何让apache支持.htaccess 解决Internal Server Error The server …错误

    如何让apache支持.htaccess 解决Internal Server Error The server …错误 文章来源:小灰博客| 时间:2013-12-25 12:17:08| 作者:Le ...

  9. Codeforces Gym101170J:Jupiter Orbiter(最大流)

    题目链接 题意 有n次事件,q个队列,s个传感器.每个传感器接到一个队列,每个队列有一个容量. 接下来执行n次事件,每次事件都会有一个最大发送数据量d.和s个数据a,代表这次给每个s填入a的数据量. ...

  10. Codeforces 755E:PolandBall and White-Red graph(构造+思维)

    http://codeforces.com/contest/755/problem/E 题意:给出n个点和一个距离d,让你在这个n个点的图里面构造一个子图,使得这个子图的直径和补图的直径的较小值为d, ...