https://zhuanlan.zhihu.com/p/585469720

  

最近这段时间一直在关注Bergamo和Zen 4c,但遗憾的是Genoa的发布会并没有提到太多的Bergamo细节。不过这并不妨碍我们借助已发布的硬件偷瞄它到底有几斤几两,提前解馋。

Bergamo SoC为何物

从目前各类官方/非官方的信息来看,Bergamo是AMD SP5平台的8CCD服务器SoC。

  • TSMC 4nm工艺的CCD
  • 128核256线程,总共256M的缓存,即每核心的L3缓存为常规Zen 4的一半
  • 每CCD 16核心,总共8CCD
  • 320-400W cTDP,与已发布的高端Genoa相同。

VideoCardz总结Yuuki_AnS提供的SKU信息

为什么要做Bergamo

观察Zen 4的die shot可以发现,CCX区域有56%的面积是L2/L3的SRAM和相关控制结构,15%左右是巨大的FPU,其余核心面积只占不到30%。

Zen 4 CCD 官方图

这意味着在保留完整“Zen 4”微架构的前提下,将每个CCX的L3缓存砍半,并且CPU核心区域采用更高密度的物理设计(官方说法是核心区域也约为一半面积)即可在接近或略大于一个Zen 4 CCX的面积里塞下两倍的CPU核心数,用8个“大核”换取16个“小核”。

可以推测,Bergamo SoC的成本与售价远低于12 CCD的96核Genoa,只是略高于8 CCD的Genoa,但能在相似的面积内提供两倍的CPU核心数。对于一次购买成千上万片服务器SoC的互联网大厂、云厂而言,相近的成本下能获得如此多的核心数提升,显然是非常具有吸引力的。

那么问题就只剩下一个:核心数是翻倍了,但是性能究竟能提升几成呢?

测试方法

服务器CPU核心数量较多时,DRAM带宽、缓存以及功耗都会成为非常宝贵的资源,每个核心能分配到的并不多。所以如果想要准确地模拟Genoa/Bergamo的环境进行多核性能评估,需要在控制功耗的同时严格控制缓存容量和内存带宽等变量才能较为准确做到,尤其是对于SPECint2017这类对缓存、内存较为敏感的测试。

幸运的是,AMD在桌面处理器里也实现了L3 QoS(或者说,忘记砍掉了?),因此我们现在就能通过调整QoS以及内存配置,通过7950X的16个核心大致模拟一个Zen 4c CCD出来。

  • 安装单条DDR5-5600B JEDEC时序的内存(运行于5200B),提供约40 GB/s 的内存带宽
  • 配置处理器L3 QoS,将每个CCX的缓存各限制为16 MB
  • BIOS配置PPT=65W
  • 线程数的大幅度增加带来DRAM容量需求的提升,因此不使用SMT (copies = 16) ,以更真实地模拟Bergamo的应用场景

经过这些配置,运行多核测试时CPU核心实际大约能分配到35-40W左右的功耗(取决于内存/IO负载高低),可以近似认为这样一个“模拟Zen 4c CCD”分配到的功耗与320-400W左右的8CCD服务器SoC上的一个CCD相同。内存带宽、缓存容量也大约相当于Bergamo 128核处理器满载时一个16核心CCD能分配到的资源。

对照组是同样PPT=65W的完整1CCD 8核心配置(32M L3缓存),开启SMT (8C16T)、单通道DDR5-5200B,用于模拟8CCD的64核Genoa处理器满载时单个CCD的性能。

同时加入13900K的8P16T/16E16T PL1=65W的测试作为对比。由于Intel桌面平台没有L3 QoS所以没有办法精确控制缓存容量,只能通过调整内存配置的方式尽量模拟相同的环境。再加上两个平台的uncore功耗特性也大不相同(13900K实际65W PL下核心大约能分到>50W功耗),Intel也没有打算拿胶水粘几个13900K去给服务器用,所以这一组对比仅供娱乐

测试结果

SPECint2017 rate-N

可以看出,在功耗与内存带宽受限的情况下,16核心“模拟Zen 4c”相比8核16线程的“常规Zen 4”可以获得大约23%的性能提升。这个提升幅度甚至略大于同样65W功耗下16线程Gracemont相比Golden Cove的性能提升(19%),那么Bergamo的意义就不言而喻了。

在Genoa的官方PPT里,96核EPYC 9654的SPECint2017 rate-N性能刚好比64核EPYC 9554高23%左右,所以可以认为Bergamo只用了略高于8CCD的成本和更少的128线程,即可达成接近12CCD 192线程Genoa的性能。

总结与展望

毫无疑问,考虑到桌面与服务器SoC的体质、总线拓扑以及缓存、内存延迟差异等多方面因素,以及Zen 4c不同工艺、不同物理设计带来的不同V/f曲线,这样一个“模拟实验”注定是不能做到100%精确的。不过AMD多次公开强调Zen 4/4c在ISA、微架构层面的相似性,因此针对SPECint2017这类测试,我们使用控制缓存和内存的手段依然能获得不少有用的信息,推测出大致的性能相对关系。

与Intel的Core/Atom双微架构并行不同的是,AMD选择了一条单一微架构,多个细分设计的道路。这不禁让我想起早些年高通855/865的"prime core"设计——针对不同的应用场景做出不同密度的物理设计,使用单一微架构达到一石二鸟的目的。事实证明,855与865都是高通相当成功的产品。AMD未来会不会也在某些产品里应用相似的设计思路呢?

目光回到数据中心,我们可以看到Bergamo很显然将会成为2023年非常有竞争力的细分领域数据中心处理器。但如今不仅AMD在尝试做出更高密度的数据中心SoC,Intel的Sierra Forest系列也即将到来,众多ARM SoC这些年来也一直在虎视眈眈。未来几年内,数据中心高密度SoC的竞争必然会愈演愈烈。胜负尚未揭晓,让我们拭目以待。

[转帖]“高密度核心”的角逐 —— AMD Bergamo SoC & Zen 4c 前瞻的更多相关文章

  1. 高密度Java应用部署的一些实践

    传统的Java应用部署模式,一般遵循“硬件->操作系统->JVM->Java应用”这种自底向上的部署结构,其中JEE应用可以细化为“硬件->操作系统->JVM->J ...

  2. MCP|XHK|High-density peptide arrays help to identify linear immunogenic B cell epitopes in individuals naturally exposed to malaria infection(高密度肽段阵列有助于在自然暴露于疟疾感染的个体中识别线性免疫原性B细胞表位)

    文献名:High-density peptide arrays help to identify linear immunogenic B cell epitopes in individuals n ...

  3. 目标检测之人头检测(HaarLike Adaboost)---高密度环境下行人检测和统计

    实验程序视频 下载 1 问题描述 高密度环境下的行人统计一直没有得到很好的解决,主要原因是对高密度人群中的行人检测和跟踪是一个很难的问题,如下图所示环境,存在的困难包括: 检测方面: 由于人群整体处于 ...

  4. 满足高密度设备存储需求 一颗ICMAXLPDDR4X 8GB就行

    通讯技术在当代无疑更新越来越快速,随着5G时代即将到来,对通讯的设备的要求也将提出更高的要求.具备AI功能的硬件设备将普及化,其智能化程度也将越来越高,同时对手机等智能移动设备的内存容量和带宽也提出了 ...

  5. java高并发核心要点|系列文章

    java高并发核心要点|系列1|开篇 java高并发核心要点|系列2|锁的底层实现原理 java高并发核心要点|系列3|锁的底层实现原理|ABA问题 java高并发核心要点|系列4|CPU内存指令重排 ...

  6. SpringCloud、Nginx高并发核心编程 【2020年11月新书 】

    文章太长,建议收藏起来,慢慢读! 疯狂创客圈为小伙伴奉上以下珍贵的学习资源: 疯狂创客圈 经典极品 : 三大本< Java 高并发 三部曲 > 面试 + 大厂 + 涨薪必备 疯狂创客圈 经 ...

  7. 从菜鸟到大神:Java高并发核心编程(连载视频)

    任何事情是有套路的,学习是如此, Java的学习,更是如此. 本文,为大家揭示 Java学习的套路 背景 Java高并发.分布式的中间件非常多,网上也有很多组件的源码视频.原理视频,汗牛塞屋了. 作为 ...

  8. [转帖]高通推出八核笔电处理器骁龙8cx 能超英特尔吗?

    高通推出八核笔电处理器骁龙8cx 能超英特尔吗? https://baijiahao.baidu.com/s?id=1619154699684981202&wfr=spider&for ...

  9. [转帖]java注解核心知识总结

    java注解核心知识总结 2019-11-01 20:39:50 从事Java 阅读数 2  收藏 文章标签: java注解总结程序员 更多 分类专栏: java 注解   版权声明:本文为博主原创文 ...

  10. java高并发核心要点|系列5|CPU内存伪共享

    上节提到的:伪共享,今天我们来说说. 那什么是伪共享呢? 这得从CPU的缓存结构说起.以下如图,CPU一般来说是有三级缓存,1 级,2级,3级,越上面的,越靠近CPU的,速度越快,成本也越高.也就是说 ...

随机推荐

  1. 斗罗大陆真3D手游实力上线,带你感受魂兽猎杀的超燃时刻

    摘要:在华为云数据库支撑该游戏的仅两个月内就完成了游戏内测至上线的全流程,业务上线流程缩短50%,并支撑海量游戏用户同时在线,达到了200万的用户预约量,上线首日流水破1000万. "没有废 ...

  2. Solon 问答:项目如何直接添加 https 支持?

    app.yml 添加两行配置即可: #设定SSL证书(支持:solon.boot.jdkhttp 或 solon.boot.jlhttp 或 solon.boot.jetty 或 solon.boot ...

  3. PPT 毕业答辩PPT应该怎么样改

    PPT 毕业答辩PPT应该怎么样改

  4. Hugging News 年度特刊: Transformers & Gradio 年终大事件总结

    Transformers 年终大事件总结 对于 Transformers 来说,这是激动人心的一年.2022 年,我们的每周活跃用户数量增加了两倍,最近的一周用户超过 100 万,平均每日 pip 安 ...

  5. Web 3.0 会是互联网的下一个时代吗?

    2000 年初,只读互联网 Web 1.0 被 Web 2.0 所取代.在 Web 2.0 时代,用户摆脱了只读的困扰,可以在平台上进行互动并创作内容.而 Web 3.0 的到来,除了加密货币和区块链 ...

  6. Java 时间戳和时间相互转换 日期时间和字符串相互转换 日期时间相减差值 日期时间增加指定天数

    Java 时间戳和时间相互转换 日期时间和字符串相互转换 日期时间相减差值 日期时间增加指定天数 代码: package com.sux.demo; import java.text.ParseExc ...

  7. 蓝桥杯历年省赛试题汇总 C/C++ B组

    B组 省赛 部分 A组的题目可以在这里查看 → 刷题笔记: 蓝桥杯 题目提交网站:Here 2012 第三届 微生物增殖 古堡算式 海盗比酒量 奇怪的比赛 方阵旋转 大数乘法 放旗子 密码发生器 夺冠 ...

  8. ACM | 动态规划-数塔问题变种题型

    前言 数塔问题,又称数字三角形.数字金字塔问题.数塔问题是多维动态规划问题中一类常见且重要的题型,其变种众多,难度遍布从低到高,掌握该类型题目的算法思维,对于攻克许多多维动态规划的问题有很大帮助. 当 ...

  9. 打造绿色城市,数字孪生天然气站 3D 可视化

    前言 天然气作为常见的燃料,与我们的生活息息相关,而对于这种燃料的存储与传输,对于天然气供应站有着严格的要求.燃气企业一般都会将点供站设计为无人值守站,而往往在运营管理过程中,对点供站的安全管理尤为重 ...

  10. 【驱动】串口驱动分析(三)-serial driver

    简介 前两节我们介绍串口驱动的框架和tty core部分.这节我们介绍和硬件紧密相关的串口驱动部分. UART驱动部分依赖于硬件平台,而TTY驱动和具体的平台无关.虽然UART部分依赖于平台,但是不管 ...