[转帖]“高密度核心”的角逐 —— AMD Bergamo SoC & Zen 4c 前瞻
https://zhuanlan.zhihu.com/p/585469720
最近这段时间一直在关注Bergamo和Zen 4c,但遗憾的是Genoa的发布会并没有提到太多的Bergamo细节。不过这并不妨碍我们借助已发布的硬件偷瞄它到底有几斤几两,提前解馋。
Bergamo SoC为何物
从目前各类官方/非官方的信息来看,Bergamo是AMD SP5平台的8CCD服务器SoC。
- TSMC 4nm工艺的CCD
- 128核256线程,总共256M的缓存,即每核心的L3缓存为常规Zen 4的一半
- 每CCD 16核心,总共8CCD
- 320-400W cTDP,与已发布的高端Genoa相同。

VideoCardz总结Yuuki_AnS提供的SKU信息
为什么要做Bergamo
观察Zen 4的die shot可以发现,CCX区域有56%的面积是L2/L3的SRAM和相关控制结构,15%左右是巨大的FPU,其余核心面积只占不到30%。

Zen 4 CCD 官方图
这意味着在保留完整“Zen 4”微架构的前提下,将每个CCX的L3缓存砍半,并且CPU核心区域采用更高密度的物理设计(官方说法是核心区域也约为一半面积)即可在接近或略大于一个Zen 4 CCX的面积里塞下两倍的CPU核心数,用8个“大核”换取16个“小核”。
可以推测,Bergamo SoC的成本与售价远低于12 CCD的96核Genoa,只是略高于8 CCD的Genoa,但能在相似的面积内提供两倍的CPU核心数。对于一次购买成千上万片服务器SoC的互联网大厂、云厂而言,相近的成本下能获得如此多的核心数提升,显然是非常具有吸引力的。
那么问题就只剩下一个:核心数是翻倍了,但是性能究竟能提升几成呢?
测试方法
服务器CPU核心数量较多时,DRAM带宽、缓存以及功耗都会成为非常宝贵的资源,每个核心能分配到的并不多。所以如果想要准确地模拟Genoa/Bergamo的环境进行多核性能评估,需要在控制功耗的同时严格控制缓存容量和内存带宽等变量才能较为准确做到,尤其是对于SPECint2017这类对缓存、内存较为敏感的测试。
幸运的是,AMD在桌面处理器里也实现了L3 QoS(或者说,忘记砍掉了?),因此我们现在就能通过调整QoS以及内存配置,通过7950X的16个核心大致模拟一个Zen 4c CCD出来。
- 安装单条DDR5-5600B JEDEC时序的内存(运行于5200B),提供约40 GB/s 的内存带宽
- 配置处理器L3 QoS,将每个CCX的缓存各限制为16 MB
- BIOS配置PPT=65W
- 线程数的大幅度增加带来DRAM容量需求的提升,因此不使用SMT (copies = 16) ,以更真实地模拟Bergamo的应用场景
经过这些配置,运行多核测试时CPU核心实际大约能分配到35-40W左右的功耗(取决于内存/IO负载高低),可以近似认为这样一个“模拟Zen 4c CCD”分配到的功耗与320-400W左右的8CCD服务器SoC上的一个CCD相同。内存带宽、缓存容量也大约相当于Bergamo 128核处理器满载时一个16核心CCD能分配到的资源。
对照组是同样PPT=65W的完整1CCD 8核心配置(32M L3缓存),开启SMT (8C16T)、单通道DDR5-5200B,用于模拟8CCD的64核Genoa处理器满载时单个CCD的性能。
同时加入13900K的8P16T/16E16T PL1=65W的测试作为对比。由于Intel桌面平台没有L3 QoS所以没有办法精确控制缓存容量,只能通过调整内存配置的方式尽量模拟相同的环境。再加上两个平台的uncore功耗特性也大不相同(13900K实际65W PL下核心大约能分到>50W功耗),Intel也没有打算拿胶水粘几个13900K去给服务器用,所以这一组对比仅供娱乐。
测试结果

SPECint2017 rate-N
可以看出,在功耗与内存带宽受限的情况下,16核心“模拟Zen 4c”相比8核16线程的“常规Zen 4”可以获得大约23%的性能提升。这个提升幅度甚至略大于同样65W功耗下16线程Gracemont相比Golden Cove的性能提升(19%),那么Bergamo的意义就不言而喻了。

在Genoa的官方PPT里,96核EPYC 9654的SPECint2017 rate-N性能刚好比64核EPYC 9554高23%左右,所以可以认为Bergamo只用了略高于8CCD的成本和更少的128线程,即可达成接近12CCD 192线程Genoa的性能。
总结与展望
毫无疑问,考虑到桌面与服务器SoC的体质、总线拓扑以及缓存、内存延迟差异等多方面因素,以及Zen 4c不同工艺、不同物理设计带来的不同V/f曲线,这样一个“模拟实验”注定是不能做到100%精确的。不过AMD多次公开强调Zen 4/4c在ISA、微架构层面的相似性,因此针对SPECint2017这类测试,我们使用控制缓存和内存的手段依然能获得不少有用的信息,推测出大致的性能相对关系。
与Intel的Core/Atom双微架构并行不同的是,AMD选择了一条单一微架构,多个细分设计的道路。这不禁让我想起早些年高通855/865的"prime core"设计——针对不同的应用场景做出不同密度的物理设计,使用单一微架构达到一石二鸟的目的。事实证明,855与865都是高通相当成功的产品。AMD未来会不会也在某些产品里应用相似的设计思路呢?
目光回到数据中心,我们可以看到Bergamo很显然将会成为2023年非常有竞争力的细分领域数据中心处理器。但如今不仅AMD在尝试做出更高密度的数据中心SoC,Intel的Sierra Forest系列也即将到来,众多ARM SoC这些年来也一直在虎视眈眈。未来几年内,数据中心高密度SoC的竞争必然会愈演愈烈。胜负尚未揭晓,让我们拭目以待。
[转帖]“高密度核心”的角逐 —— AMD Bergamo SoC & Zen 4c 前瞻的更多相关文章
- 高密度Java应用部署的一些实践
传统的Java应用部署模式,一般遵循“硬件->操作系统->JVM->Java应用”这种自底向上的部署结构,其中JEE应用可以细化为“硬件->操作系统->JVM->J ...
- MCP|XHK|High-density peptide arrays help to identify linear immunogenic B cell epitopes in individuals naturally exposed to malaria infection(高密度肽段阵列有助于在自然暴露于疟疾感染的个体中识别线性免疫原性B细胞表位)
文献名:High-density peptide arrays help to identify linear immunogenic B cell epitopes in individuals n ...
- 目标检测之人头检测(HaarLike Adaboost)---高密度环境下行人检测和统计
实验程序视频 下载 1 问题描述 高密度环境下的行人统计一直没有得到很好的解决,主要原因是对高密度人群中的行人检测和跟踪是一个很难的问题,如下图所示环境,存在的困难包括: 检测方面: 由于人群整体处于 ...
- 满足高密度设备存储需求 一颗ICMAXLPDDR4X 8GB就行
通讯技术在当代无疑更新越来越快速,随着5G时代即将到来,对通讯的设备的要求也将提出更高的要求.具备AI功能的硬件设备将普及化,其智能化程度也将越来越高,同时对手机等智能移动设备的内存容量和带宽也提出了 ...
- java高并发核心要点|系列文章
java高并发核心要点|系列1|开篇 java高并发核心要点|系列2|锁的底层实现原理 java高并发核心要点|系列3|锁的底层实现原理|ABA问题 java高并发核心要点|系列4|CPU内存指令重排 ...
- SpringCloud、Nginx高并发核心编程 【2020年11月新书 】
文章太长,建议收藏起来,慢慢读! 疯狂创客圈为小伙伴奉上以下珍贵的学习资源: 疯狂创客圈 经典极品 : 三大本< Java 高并发 三部曲 > 面试 + 大厂 + 涨薪必备 疯狂创客圈 经 ...
- 从菜鸟到大神:Java高并发核心编程(连载视频)
任何事情是有套路的,学习是如此, Java的学习,更是如此. 本文,为大家揭示 Java学习的套路 背景 Java高并发.分布式的中间件非常多,网上也有很多组件的源码视频.原理视频,汗牛塞屋了. 作为 ...
- [转帖]高通推出八核笔电处理器骁龙8cx 能超英特尔吗?
高通推出八核笔电处理器骁龙8cx 能超英特尔吗? https://baijiahao.baidu.com/s?id=1619154699684981202&wfr=spider&for ...
- [转帖]java注解核心知识总结
java注解核心知识总结 2019-11-01 20:39:50 从事Java 阅读数 2 收藏 文章标签: java注解总结程序员 更多 分类专栏: java 注解 版权声明:本文为博主原创文 ...
- java高并发核心要点|系列5|CPU内存伪共享
上节提到的:伪共享,今天我们来说说. 那什么是伪共享呢? 这得从CPU的缓存结构说起.以下如图,CPU一般来说是有三级缓存,1 级,2级,3级,越上面的,越靠近CPU的,速度越快,成本也越高.也就是说 ...
随机推荐
- Web 全栈开发利器: 强大的在线 Cloud IDE
摘要:近年来,敏捷.DevOps的理念已逐步成为主流.基于云计算的开发环境也正获得越来越多开发者的青睐.不难想象,云端IDE已成未来的趋势. 学了Web全栈开发,就得动手实践,要动手,得先有开发环境. ...
- 数据库技术丨GaussDB(DWS)数据同步状态查看方法
摘要:针对数据同步状态查看方法,GaussDB(DWS)提供了丰富的系统函数.视图.工具等可以直观地对同步进度进行跟踪,尤其是为方便定位人员使用,gs_ctl工具已集合了大部分相关系统函数的调用,可做 ...
- 华为云MVP付健权:从机械工程师到AI开发者的华丽转身
摘要:谁说AI开发难,看一个机械工程师是如何转型成为AI工程师的. 付健权,华为云MVP,企业上云导师.软通动力,售前解决方案经理,为制造业讲解华为云产品,为客户提供上云和云上解决方案.为企业提供大数 ...
- SEAL 0.3 正式发布:国内首个全链路软件供应链安全管理平台
12月1日,软件供应链安全管理平台 SEAL 0.3 正式发布(以下简称"SEAL"),这是国内首个以全链路视角保护软件供应链的安全管理平台.两个月前 SEAL 0.2 发布,该版 ...
- JS 判断域名并跳转到指定页面
判断访问指定域名,进行页面跳转 <!DOCTYPE html> <html> <head> <title>正在玩命加载中--</title> ...
- 锁定/解锁账户BAPI
一.锁定/解锁账户 锁定账户后,该账户不能在SAP系统登录,但是已经登录的用户,仍然可以继续使用 解锁账户后,该账户就可以正常登录使用 "-------------------------- ...
- C# .NET Socket SocketHelper 高性能 5000客户端 异步接收数据
网上有很多Socket框架,但是我想,C#既然有Socket类,难道不是给人用的吗? 写了一个SocketServerHelper和SocketClientHelper,分别只有5.6百行代码,比不上 ...
- Codeforce:4C. Registration system (映射)
A new e-mail service "Berlandesk" is going to be opened in Berland in the near future. The ...
- [NOI2015]荷马史诗 - Huffman树
题目描述 追逐影子的人,自己就是影子. --荷马 llison 最近迷上了文学.她喜欢在一个慵懒的午后,细细地品上一杯卡布奇诺,静静地阅读她爱不释手的<荷马史诗>.但是由<奥德赛&g ...
- Serverless 架构开发手册 — “人人都是 Serverless 架构师”先导篇
摘要:本篇实战将介绍如何以超低成本构建动态的 Web 站点,并且实现灵活扩展,限流等效果,最后再跟大家聊一聊"现代应用"的相关概念. 相信很多同学都有过想要拥有自己的 Web 站点 ...