[转帖]“高密度核心”的角逐 —— AMD Bergamo SoC & Zen 4c 前瞻
https://zhuanlan.zhihu.com/p/585469720
最近这段时间一直在关注Bergamo和Zen 4c,但遗憾的是Genoa的发布会并没有提到太多的Bergamo细节。不过这并不妨碍我们借助已发布的硬件偷瞄它到底有几斤几两,提前解馋。
Bergamo SoC为何物
从目前各类官方/非官方的信息来看,Bergamo是AMD SP5平台的8CCD服务器SoC。
- TSMC 4nm工艺的CCD
- 128核256线程,总共256M的缓存,即每核心的L3缓存为常规Zen 4的一半
- 每CCD 16核心,总共8CCD
- 320-400W cTDP,与已发布的高端Genoa相同。

VideoCardz总结Yuuki_AnS提供的SKU信息
为什么要做Bergamo
观察Zen 4的die shot可以发现,CCX区域有56%的面积是L2/L3的SRAM和相关控制结构,15%左右是巨大的FPU,其余核心面积只占不到30%。

Zen 4 CCD 官方图
这意味着在保留完整“Zen 4”微架构的前提下,将每个CCX的L3缓存砍半,并且CPU核心区域采用更高密度的物理设计(官方说法是核心区域也约为一半面积)即可在接近或略大于一个Zen 4 CCX的面积里塞下两倍的CPU核心数,用8个“大核”换取16个“小核”。
可以推测,Bergamo SoC的成本与售价远低于12 CCD的96核Genoa,只是略高于8 CCD的Genoa,但能在相似的面积内提供两倍的CPU核心数。对于一次购买成千上万片服务器SoC的互联网大厂、云厂而言,相近的成本下能获得如此多的核心数提升,显然是非常具有吸引力的。
那么问题就只剩下一个:核心数是翻倍了,但是性能究竟能提升几成呢?
测试方法
服务器CPU核心数量较多时,DRAM带宽、缓存以及功耗都会成为非常宝贵的资源,每个核心能分配到的并不多。所以如果想要准确地模拟Genoa/Bergamo的环境进行多核性能评估,需要在控制功耗的同时严格控制缓存容量和内存带宽等变量才能较为准确做到,尤其是对于SPECint2017这类对缓存、内存较为敏感的测试。
幸运的是,AMD在桌面处理器里也实现了L3 QoS(或者说,忘记砍掉了?),因此我们现在就能通过调整QoS以及内存配置,通过7950X的16个核心大致模拟一个Zen 4c CCD出来。
- 安装单条DDR5-5600B JEDEC时序的内存(运行于5200B),提供约40 GB/s 的内存带宽
- 配置处理器L3 QoS,将每个CCX的缓存各限制为16 MB
- BIOS配置PPT=65W
- 线程数的大幅度增加带来DRAM容量需求的提升,因此不使用SMT (copies = 16) ,以更真实地模拟Bergamo的应用场景
经过这些配置,运行多核测试时CPU核心实际大约能分配到35-40W左右的功耗(取决于内存/IO负载高低),可以近似认为这样一个“模拟Zen 4c CCD”分配到的功耗与320-400W左右的8CCD服务器SoC上的一个CCD相同。内存带宽、缓存容量也大约相当于Bergamo 128核处理器满载时一个16核心CCD能分配到的资源。
对照组是同样PPT=65W的完整1CCD 8核心配置(32M L3缓存),开启SMT (8C16T)、单通道DDR5-5200B,用于模拟8CCD的64核Genoa处理器满载时单个CCD的性能。
同时加入13900K的8P16T/16E16T PL1=65W的测试作为对比。由于Intel桌面平台没有L3 QoS所以没有办法精确控制缓存容量,只能通过调整内存配置的方式尽量模拟相同的环境。再加上两个平台的uncore功耗特性也大不相同(13900K实际65W PL下核心大约能分到>50W功耗),Intel也没有打算拿胶水粘几个13900K去给服务器用,所以这一组对比仅供娱乐。
测试结果

SPECint2017 rate-N
可以看出,在功耗与内存带宽受限的情况下,16核心“模拟Zen 4c”相比8核16线程的“常规Zen 4”可以获得大约23%的性能提升。这个提升幅度甚至略大于同样65W功耗下16线程Gracemont相比Golden Cove的性能提升(19%),那么Bergamo的意义就不言而喻了。

在Genoa的官方PPT里,96核EPYC 9654的SPECint2017 rate-N性能刚好比64核EPYC 9554高23%左右,所以可以认为Bergamo只用了略高于8CCD的成本和更少的128线程,即可达成接近12CCD 192线程Genoa的性能。
总结与展望
毫无疑问,考虑到桌面与服务器SoC的体质、总线拓扑以及缓存、内存延迟差异等多方面因素,以及Zen 4c不同工艺、不同物理设计带来的不同V/f曲线,这样一个“模拟实验”注定是不能做到100%精确的。不过AMD多次公开强调Zen 4/4c在ISA、微架构层面的相似性,因此针对SPECint2017这类测试,我们使用控制缓存和内存的手段依然能获得不少有用的信息,推测出大致的性能相对关系。
与Intel的Core/Atom双微架构并行不同的是,AMD选择了一条单一微架构,多个细分设计的道路。这不禁让我想起早些年高通855/865的"prime core"设计——针对不同的应用场景做出不同密度的物理设计,使用单一微架构达到一石二鸟的目的。事实证明,855与865都是高通相当成功的产品。AMD未来会不会也在某些产品里应用相似的设计思路呢?
目光回到数据中心,我们可以看到Bergamo很显然将会成为2023年非常有竞争力的细分领域数据中心处理器。但如今不仅AMD在尝试做出更高密度的数据中心SoC,Intel的Sierra Forest系列也即将到来,众多ARM SoC这些年来也一直在虎视眈眈。未来几年内,数据中心高密度SoC的竞争必然会愈演愈烈。胜负尚未揭晓,让我们拭目以待。
[转帖]“高密度核心”的角逐 —— AMD Bergamo SoC & Zen 4c 前瞻的更多相关文章
- 高密度Java应用部署的一些实践
传统的Java应用部署模式,一般遵循“硬件->操作系统->JVM->Java应用”这种自底向上的部署结构,其中JEE应用可以细化为“硬件->操作系统->JVM->J ...
- MCP|XHK|High-density peptide arrays help to identify linear immunogenic B cell epitopes in individuals naturally exposed to malaria infection(高密度肽段阵列有助于在自然暴露于疟疾感染的个体中识别线性免疫原性B细胞表位)
文献名:High-density peptide arrays help to identify linear immunogenic B cell epitopes in individuals n ...
- 目标检测之人头检测(HaarLike Adaboost)---高密度环境下行人检测和统计
实验程序视频 下载 1 问题描述 高密度环境下的行人统计一直没有得到很好的解决,主要原因是对高密度人群中的行人检测和跟踪是一个很难的问题,如下图所示环境,存在的困难包括: 检测方面: 由于人群整体处于 ...
- 满足高密度设备存储需求 一颗ICMAXLPDDR4X 8GB就行
通讯技术在当代无疑更新越来越快速,随着5G时代即将到来,对通讯的设备的要求也将提出更高的要求.具备AI功能的硬件设备将普及化,其智能化程度也将越来越高,同时对手机等智能移动设备的内存容量和带宽也提出了 ...
- java高并发核心要点|系列文章
java高并发核心要点|系列1|开篇 java高并发核心要点|系列2|锁的底层实现原理 java高并发核心要点|系列3|锁的底层实现原理|ABA问题 java高并发核心要点|系列4|CPU内存指令重排 ...
- SpringCloud、Nginx高并发核心编程 【2020年11月新书 】
文章太长,建议收藏起来,慢慢读! 疯狂创客圈为小伙伴奉上以下珍贵的学习资源: 疯狂创客圈 经典极品 : 三大本< Java 高并发 三部曲 > 面试 + 大厂 + 涨薪必备 疯狂创客圈 经 ...
- 从菜鸟到大神:Java高并发核心编程(连载视频)
任何事情是有套路的,学习是如此, Java的学习,更是如此. 本文,为大家揭示 Java学习的套路 背景 Java高并发.分布式的中间件非常多,网上也有很多组件的源码视频.原理视频,汗牛塞屋了. 作为 ...
- [转帖]高通推出八核笔电处理器骁龙8cx 能超英特尔吗?
高通推出八核笔电处理器骁龙8cx 能超英特尔吗? https://baijiahao.baidu.com/s?id=1619154699684981202&wfr=spider&for ...
- [转帖]java注解核心知识总结
java注解核心知识总结 2019-11-01 20:39:50 从事Java 阅读数 2 收藏 文章标签: java注解总结程序员 更多 分类专栏: java 注解 版权声明:本文为博主原创文 ...
- java高并发核心要点|系列5|CPU内存伪共享
上节提到的:伪共享,今天我们来说说. 那什么是伪共享呢? 这得从CPU的缓存结构说起.以下如图,CPU一般来说是有三级缓存,1 级,2级,3级,越上面的,越靠近CPU的,速度越快,成本也越高.也就是说 ...
随机推荐
- C# 查找PDF页面指定区域中的文本并替换和高亮
对PDF文档中的内容进行查找时,可针对文档全篇内容获取查找结果,也可在PDF指定页面中的特定范围内(矩形框区域)进行查找,对获取的查找结果可执行文本高亮或替换等操作,本文将对此作相关介绍(附VB.NE ...
- 如何使用 Node.js Stream API 减少服务器端内存消耗?
摘要:让我们看一个示例,展示在内存消耗方面,采用流的编程思路带来的巨大优越性. 本文分享自华为云社区<使用 Node.js Stream API 减少服务器端内存消耗的一个具体例子>,作者 ...
- linux centos8 安装php nginx mysql 运行phpcms网站
重新换vps,用centos8,重新配置系统环境,记下笔记: 安装nginx与php 首先安装nginx php ,安装默认版本的nginx,php默认安装7 yum install nginx ph ...
- 音乐 APP 用户争夺战,火山引擎 VeDI 助力用户体验升级!
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群 国内数字音乐市场正在保持稳定增长. 根据华经产业研究院数据报告显示,2020 年数字音乐市场规模为 357.3 亿元,到 ...
- 【计算机网络】身份认证Oauth2
身份认证Oauth2 https://www.bilibili.com/video/BV1FL411h7es/?spm_id_from=333.999.0.0&vd_source=d11276 ...
- Codeforce 515C. Drazil and Factorial(字符串思维题)
[CodeForces]C. Drazil and Factorial 题目链接:Click Here 题意:找一个最大的数,使得每个位的阶乘的乘积与给定数相同. 首先將 2~9 轉成這樣(0,1為空 ...
- 【每日一题】10.树(DFS 序)
补题链接:Here DFS序列 (非树形DP),这道题成功被骗... 贴一下学姐讲解: 这个题表面上看起来像是个 树上dp,但是你会发现,当xy同色的时候要求x到y的路径上所有点颜色一样这个事情非常难 ...
- SQL常用日期格式化转换与百分数转换
目录 SQL将小数转为保留两位的百分数 常用的日期格式化 补充: 秒/毫秒转为持续时间 常用拼接方式: 本篇开启数据库在工作中常用到的格式转换与工具,欢迎大家评论留言 SQL将小数转为保留两位的百分数 ...
- 洛谷 P9916 「RiOI-03」Just a Q. (Easy ver.) 题解
前言 Div.2 Rank \(13\) 获奖了,题目也好评. 解法 题目链接:\(\color{Purple}\texttt{P9916「RiOI-03」Just a Q. (Easy ver.)} ...
- Go socket 编程源码解析(下)
在上一节中介绍了 socket 的 Listen 方法,这里进一步介绍 Accept 和 Read,Write 方法. 1. Accept Accept 的核心逻辑在于: func (ln *TCPL ...