GPU max power distribution

  • internal power and switch power - 动态功耗(时钟翻转)
  • Leakage power - 漏电功耗(静态功耗,mos管导通的特性)
  • clock_network - 时钟树的功耗,系统中有很多寄存器,但是时钟到达寄存器的时间是不同的,需要插入一些buffer,形成时钟网络,会有功耗
  • combination - 组合逻辑功耗
  • sequential - 时许逻辑
  • memory - 存储功耗,系统中的memory比较多,功耗比较高

    时钟树上的功耗是不能被忽略的,需要优化时钟树上的功耗

Clock Gating for Conventional RTL

  • 在写寄存器的时候,需要设置使能信号,在使能信号的作用下,才能将D段的数据同步到Q端
  • 添加CG就是一个与的逻辑,将clock与enable信号进行与操作,enable = 0,时钟不反转;enable = 1,输入就是时钟,时钟翻转
  • ICG - 综合工具会自动进行插入,不需要手动进行例化,但是代码风格需要注意,给寄存器添加使能型信号

Clock Gating across - Module Boundartes

Clock Gating for Implicit Enable



  • 工具会尽可能添加ICG,最好写代码的时候添加enable信号

Automated Common Enable Extraction

always @ (posedge clk)begin
if(en0 && en1)
a_r <= a_nxt;
end reg [1:0] b_r;
always @ (posedge clk)begin
if(en1 && en2)
b_r <= b_nxt;
end
  • 寄存器数据位宽小于4bit,工具是不会插入ICG的,因为插入ICG会有一些面积的产生
  • a_r和b_r有共同的使能en1,工具会提取公共的使能端,生成ICG

Multi-Stage Clock-Gating When CE is Specified

  • ICG生成的时钟可以驱动其他的寄存器
  • 时钟路径比较长,导线和buffer上时钟翻转也会产生功耗,几个寄存器前一级有公共的使能端,可以在前一级设置一个ICG,能供降低导线和buffer上的时钟翻转,降低功耗

Multi-Stage Clock—Gating

Consolidating Multi-Stage Clock Gating

"Decloning" Local Clock Gating

Clock Gating Design的更多相关文章

  1. clock gating and PLL

    一个gating的clock是指:clock network除了包含inverter和buffer外,还有其他logic. PrimeTime会自动的对gating input进行setup和hold ...

  2. clock gating check

    在 sta 分析时,经常会碰到 clock gating cell (一般是 ICG cell 或者 latch)引起的 violation,这种 violation 很常见,而且往往很难修. 为什么 ...

  3. clock时钟

    ①时钟的偏移(skew):时钟分支信号在到达寄存器的时钟端口过程中,都存在有线网等延时,由于延时,到达寄存器时钟端口的时钟信号存在有相位差,也就是不能保证每一个沿都对齐,这种差异称为时钟偏移(cloc ...

  4. [ZZ] GTX 280 GPU architecture

    http://anandtech.com/show/2549 Now that NVIDIA’s has announced its newest GPU architecture (the GeFo ...

  5. lower power的IP设计

    在IP的实现过程中,考虑lower power部分进行设计: 1)Partition the design来满足lower power的一些strategies,尤其是power gating和clo ...

  6. 数字IC设计入门书单

    首发于观芯志 写文章     数字IC设计入门书单 Forever snow   1 年前 作者:Forever snow链接:你所在领域的入门书单? - 知乎用户的回答来源:知乎著作权归作者所有,转 ...

  7. 推荐 的FPGA设计经验(2)-时钟策略优化

    Optimizing Clocking Schemes Avoid using internally generated clocks (other than PLLs) wherever possi ...

  8. NVIDIA---CUDA

    http://en.wikipedia.org/wiki/CUDA CUDA From Wikipedia, the free encyclopedia     CUDA Developer(s) N ...

  9. 最新内核3.4)Linux 设备树加载I2C client adapter 的流程(内核3.4 高通)【转】

    转自:https://blog.csdn.net/lsn946803746/article/details/52515225 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转 ...

  10. DFT测试-OCC电路介绍

    https://www.jianshu.com/p/f7a2bcaefb2e SCAN技术,也就是ATPG技术-- 测试std-logic, 主要实现工具是: 产生ATPG使用Mentor的 Test ...

随机推荐

  1. 使用Mybatis自定义插件实现不侵入业务的公共参数自动追加

    背景 后台业务开发的过程中,往往会遇到这种场景:需要记录每条记录产生时间.修改时间.修改人及添加人,在查询时查询出来. 以往的做法通常是手动在每个业务逻辑里耦合上这么一块代码,也有更优雅一点的做法是写 ...

  2. 神经网络优化篇:详解梯度消失/梯度爆炸(Vanishing / Exploding gradients)

    梯度消失/梯度爆炸 训练神经网络,尤其是深度神经所面临的一个问题就是梯度消失或梯度爆炸,也就是训练神经网络的时候,导数或坡度有时会变得非常大,或者非常小,甚至于以指数方式变小,这加大了训练的难度. 接 ...

  3. [CD随身听] 1984年~2005年索尼全系列Discman+CD_WALKMAN珍贵资料

    文章转载自:家电论坛https://jdbbs.com(由网友xieminjie整理提供) https://jdbbs.com/forum.php?mod=viewthread&tid=295 ...

  4. MySQL|主从延迟问题排查(二)

    二.案例分享二 2.1 问题描述 主库执行insert  select 批量写入操作,主从复制通过row模式下转换为批量的insert大事务操作,导致只读实例CPU资源以及延迟上涨 16:55-17: ...

  5. 【scikit-learn基础】--『监督学习』之 随机森林分类

    随机森林分类算法是一种基于集成学习(ensemble learning)的机器学习算法,它的基本原理是通过对多个决策树的预测结果进行平均或投票,以产生最终的分类结果. 随机森林算法可用于回归和分类问题 ...

  6. 谈谈muduo库的销毁连接对象——C++程序内存管理和线程安全的极致体现

    前言 网络编程的连接断开一向比连接建立复杂的多,这一点在陈硕写的muduo库中体现的淋漓尽致,同时也充分体现了C++程序在对象生命周期管理上的复杂性,稍有不慎,满盘皆输. 为了纪念自己啃下muduo库 ...

  7. POJ 2609 DP 双队列DP

    POJ 2609 DP 双队列DP 题意 给出队列容量与一组数,并且我们有两个这样容量的空队列,要求我们按照次序把数装进两个队列中,输出最多能装多少以及每个数装进哪个队列. 思路 由于按照次序来装,不 ...

  8. 神经网络入门篇:深度学习和大脑的关联性(What does this have to do with the brain?)

    深度学习和大脑的关联性 开始讲故事(手动狗头) 深度学习和大脑有什么关联性吗? 关联不大. 那么为什么会说深度学习和大脑相关呢? 当你在实现一个神经网络的时候,那些公式是你在做的东西,你会做前向传播. ...

  9. 一文掌握Ascend C孪生调试

    本文分享自华为云社区<一文掌握Ascend C孪生调试>,作者:昇腾CANN. 1 What,什么是孪生调试 Ascend C提供孪生调试方法,即CPU域模拟NPU域的行为,相同的算子代码 ...

  10. 1024 | 9位开发者分享生涯“最”时刻,文武状元大PK等你来

    本文分享自华为云社区<1024程序员节,和华为云一起做不被定义的开发者>,作者:华为云社区精选 . 1024,祝所有开发者们节日快乐 "代码有注释,程序无bug, 需求不改动,永 ...