https://zhuanlan.zhihu.com/p/585469720

  

最近这段时间一直在关注Bergamo和Zen 4c,但遗憾的是Genoa的发布会并没有提到太多的Bergamo细节。不过这并不妨碍我们借助已发布的硬件偷瞄它到底有几斤几两,提前解馋。

Bergamo SoC为何物

从目前各类官方/非官方的信息来看,Bergamo是AMD SP5平台的8CCD服务器SoC。

  • TSMC 4nm工艺的CCD
  • 128核256线程,总共256M的缓存,即每核心的L3缓存为常规Zen 4的一半
  • 每CCD 16核心,总共8CCD
  • 320-400W cTDP,与已发布的高端Genoa相同。

VideoCardz总结Yuuki_AnS提供的SKU信息

为什么要做Bergamo

观察Zen 4的die shot可以发现,CCX区域有56%的面积是L2/L3的SRAM和相关控制结构,15%左右是巨大的FPU,其余核心面积只占不到30%。

Zen 4 CCD 官方图

这意味着在保留完整“Zen 4”微架构的前提下,将每个CCX的L3缓存砍半,并且CPU核心区域采用更高密度的物理设计(官方说法是核心区域也约为一半面积)即可在接近或略大于一个Zen 4 CCX的面积里塞下两倍的CPU核心数,用8个“大核”换取16个“小核”。

可以推测,Bergamo SoC的成本与售价远低于12 CCD的96核Genoa,只是略高于8 CCD的Genoa,但能在相似的面积内提供两倍的CPU核心数。对于一次购买成千上万片服务器SoC的互联网大厂、云厂而言,相近的成本下能获得如此多的核心数提升,显然是非常具有吸引力的。

那么问题就只剩下一个:核心数是翻倍了,但是性能究竟能提升几成呢?

测试方法

服务器CPU核心数量较多时,DRAM带宽、缓存以及功耗都会成为非常宝贵的资源,每个核心能分配到的并不多。所以如果想要准确地模拟Genoa/Bergamo的环境进行多核性能评估,需要在控制功耗的同时严格控制缓存容量和内存带宽等变量才能较为准确做到,尤其是对于SPECint2017这类对缓存、内存较为敏感的测试。

幸运的是,AMD在桌面处理器里也实现了L3 QoS(或者说,忘记砍掉了?),因此我们现在就能通过调整QoS以及内存配置,通过7950X的16个核心大致模拟一个Zen 4c CCD出来。

  • 安装单条DDR5-5600B JEDEC时序的内存(运行于5200B),提供约40 GB/s 的内存带宽
  • 配置处理器L3 QoS,将每个CCX的缓存各限制为16 MB
  • BIOS配置PPT=65W
  • 线程数的大幅度增加带来DRAM容量需求的提升,因此不使用SMT (copies = 16) ,以更真实地模拟Bergamo的应用场景

经过这些配置,运行多核测试时CPU核心实际大约能分配到35-40W左右的功耗(取决于内存/IO负载高低),可以近似认为这样一个“模拟Zen 4c CCD”分配到的功耗与320-400W左右的8CCD服务器SoC上的一个CCD相同。内存带宽、缓存容量也大约相当于Bergamo 128核处理器满载时一个16核心CCD能分配到的资源。

对照组是同样PPT=65W的完整1CCD 8核心配置(32M L3缓存),开启SMT (8C16T)、单通道DDR5-5200B,用于模拟8CCD的64核Genoa处理器满载时单个CCD的性能。

同时加入13900K的8P16T/16E16T PL1=65W的测试作为对比。由于Intel桌面平台没有L3 QoS所以没有办法精确控制缓存容量,只能通过调整内存配置的方式尽量模拟相同的环境。再加上两个平台的uncore功耗特性也大不相同(13900K实际65W PL下核心大约能分到>50W功耗),Intel也没有打算拿胶水粘几个13900K去给服务器用,所以这一组对比仅供娱乐

测试结果

SPECint2017 rate-N

可以看出,在功耗与内存带宽受限的情况下,16核心“模拟Zen 4c”相比8核16线程的“常规Zen 4”可以获得大约23%的性能提升。这个提升幅度甚至略大于同样65W功耗下16线程Gracemont相比Golden Cove的性能提升(19%),那么Bergamo的意义就不言而喻了。

在Genoa的官方PPT里,96核EPYC 9654的SPECint2017 rate-N性能刚好比64核EPYC 9554高23%左右,所以可以认为Bergamo只用了略高于8CCD的成本和更少的128线程,即可达成接近12CCD 192线程Genoa的性能。

总结与展望

毫无疑问,考虑到桌面与服务器SoC的体质、总线拓扑以及缓存、内存延迟差异等多方面因素,以及Zen 4c不同工艺、不同物理设计带来的不同V/f曲线,这样一个“模拟实验”注定是不能做到100%精确的。不过AMD多次公开强调Zen 4/4c在ISA、微架构层面的相似性,因此针对SPECint2017这类测试,我们使用控制缓存和内存的手段依然能获得不少有用的信息,推测出大致的性能相对关系。

与Intel的Core/Atom双微架构并行不同的是,AMD选择了一条单一微架构,多个细分设计的道路。这不禁让我想起早些年高通855/865的"prime core"设计——针对不同的应用场景做出不同密度的物理设计,使用单一微架构达到一石二鸟的目的。事实证明,855与865都是高通相当成功的产品。AMD未来会不会也在某些产品里应用相似的设计思路呢?

目光回到数据中心,我们可以看到Bergamo很显然将会成为2023年非常有竞争力的细分领域数据中心处理器。但如今不仅AMD在尝试做出更高密度的数据中心SoC,Intel的Sierra Forest系列也即将到来,众多ARM SoC这些年来也一直在虎视眈眈。未来几年内,数据中心高密度SoC的竞争必然会愈演愈烈。胜负尚未揭晓,让我们拭目以待。

[转帖]“高密度核心”的角逐 —— AMD Bergamo SoC & Zen 4c 前瞻的更多相关文章

  1. 高密度Java应用部署的一些实践

    传统的Java应用部署模式,一般遵循“硬件->操作系统->JVM->Java应用”这种自底向上的部署结构,其中JEE应用可以细化为“硬件->操作系统->JVM->J ...

  2. MCP|XHK|High-density peptide arrays help to identify linear immunogenic B cell epitopes in individuals naturally exposed to malaria infection(高密度肽段阵列有助于在自然暴露于疟疾感染的个体中识别线性免疫原性B细胞表位)

    文献名:High-density peptide arrays help to identify linear immunogenic B cell epitopes in individuals n ...

  3. 目标检测之人头检测(HaarLike Adaboost)---高密度环境下行人检测和统计

    实验程序视频 下载 1 问题描述 高密度环境下的行人统计一直没有得到很好的解决,主要原因是对高密度人群中的行人检测和跟踪是一个很难的问题,如下图所示环境,存在的困难包括: 检测方面: 由于人群整体处于 ...

  4. 满足高密度设备存储需求 一颗ICMAXLPDDR4X 8GB就行

    通讯技术在当代无疑更新越来越快速,随着5G时代即将到来,对通讯的设备的要求也将提出更高的要求.具备AI功能的硬件设备将普及化,其智能化程度也将越来越高,同时对手机等智能移动设备的内存容量和带宽也提出了 ...

  5. java高并发核心要点|系列文章

    java高并发核心要点|系列1|开篇 java高并发核心要点|系列2|锁的底层实现原理 java高并发核心要点|系列3|锁的底层实现原理|ABA问题 java高并发核心要点|系列4|CPU内存指令重排 ...

  6. SpringCloud、Nginx高并发核心编程 【2020年11月新书 】

    文章太长,建议收藏起来,慢慢读! 疯狂创客圈为小伙伴奉上以下珍贵的学习资源: 疯狂创客圈 经典极品 : 三大本< Java 高并发 三部曲 > 面试 + 大厂 + 涨薪必备 疯狂创客圈 经 ...

  7. 从菜鸟到大神:Java高并发核心编程(连载视频)

    任何事情是有套路的,学习是如此, Java的学习,更是如此. 本文,为大家揭示 Java学习的套路 背景 Java高并发.分布式的中间件非常多,网上也有很多组件的源码视频.原理视频,汗牛塞屋了. 作为 ...

  8. [转帖]高通推出八核笔电处理器骁龙8cx 能超英特尔吗?

    高通推出八核笔电处理器骁龙8cx 能超英特尔吗? https://baijiahao.baidu.com/s?id=1619154699684981202&wfr=spider&for ...

  9. [转帖]java注解核心知识总结

    java注解核心知识总结 2019-11-01 20:39:50 从事Java 阅读数 2  收藏 文章标签: java注解总结程序员 更多 分类专栏: java 注解   版权声明:本文为博主原创文 ...

  10. java高并发核心要点|系列5|CPU内存伪共享

    上节提到的:伪共享,今天我们来说说. 那什么是伪共享呢? 这得从CPU的缓存结构说起.以下如图,CPU一般来说是有三级缓存,1 级,2级,3级,越上面的,越靠近CPU的,速度越快,成本也越高.也就是说 ...

随机推荐

  1. 全域Serverless+AI,华为云加速大模型应用开发

    日前,华为全联接大会2023在上海召开.华为云CTO张宇昕在大会上发布了基于Serverless技术的大模型应用开发框架,框架以面向AI领域全新升级的FunctionGraph 3.0为核心,将Baa ...

  2. CANN开发实践:4个DVPP内存问题的典型案例解读

    摘要:由于DVPP媒体数据处理功能对存放输入.输出数据的内存有更高的要求(例如,内存首地址128字节对齐),因此需调用专用的内存申请接口,那么本期就分享几个关于DVPP内存问题的典型案例,并给出原因分 ...

  3. 释放千行百业数据价值,华为云DAYU有一套

    摘要:结合数字化转型中行业面临的挑战及产品解决方案解读数据使能服务DAYU. 大禹(DAYU)治水是一个有美好寓意的故事,大禹汲取了父亲治水的经验教训,总结出一套行之有效的治水方法,对洪水进行治理疏导 ...

  4. 用GaussDB(for Redis)存画像,推荐业务轻松降本60%

    摘要:用户画像存储是推荐业务核心,但开源Redis无法胜任.华为云高斯Redis是最佳存储选型,轻松降本60%,同时获得企业级高稳定性. 本文分享自华为云社区<华为云GaussDB(for Re ...

  5. Git hooks与自动化部署

    好的 commit message 是至关重要的,如果随意编写 log,带来的后果可小可大,但是无论大小都影响了开发的效率和回朔的难度,所以有必要进行 log 规范化检查. 通过自定义的commit ...

  6. Solon2 之基础:三、启动参数说明

    启动参数,在应用启动后会被静态化(为了内部更高效的利用).比如,想通过体外扩展加载配置,是不能改掉它们的. 1.启动参数 启动参数 对应的应用配置 描述 --env solon.env 环境(可用于内 ...

  7. Linux 堡垒机命令行中如何上传下载文件(SecureCRT - SFTP)

    通过堡垒机进入的 Linux 操作系统,无法直接使用 WinSCP 等工具进行文件的上传下载. 可使用 SecureCRT 先进入命令行模式 配置 配置 Linux 堡垒机的连接方式 连接 选择要进入 ...

  8. #2028:Lowest Common Multiple Plus(n个数的最小公倍数)

    Problem Description 求n个数的最小公倍数. Input 输入包含多个测试实例,每个测试实例的开始是一个正整数n,然后是n个正整数. Output 为每组测试数据输出它们的最小公倍数 ...

  9. win32com报错:无效的类字符串(Invalid Class String)

    异常:无效的类字符串 (Invalid Class String) . 使用python操作COM组件的朋友应该都碰到过,这个报错来自于python标准库pythoncom.win32com也是建立在 ...

  10. freeswitch的2833和inband对接方案

    概述 freeswitch支持三种模式的DTMF传输方式,分别时inband.INFO.2833. 在传统的PSTN网络中,所有的DTMF码都是inband模式,所以VOIP网络和PSTN网络对接中, ...