https://zhuanlan.zhihu.com/p/99921594

2019年年末,龙芯、飞腾两大国产CPU巨头更是相继组织了规模宏大的年会,发布了新型桌面芯片及其整机产品,顿时硝烟四起。各大媒体也都很嗨,zyt、xhs、rmrb都对两个盛会做了报道,环球更是发表了第三方文章,把龙芯吹捧了一把,把其他家狠狠打压了一番。在芯片行业遭遇国际严峻形势的情况下,秀秀肌肉提振一下信心很有必要,笔者也很振奋于国产CPU的整体氛围已经起来了,中国芯片的发展大势已经不可抵挡。但我们仍应认清我们的差距,切不可盲目乐观,号称“补课”已经完成,不要被一些发明出来的metric晃晕了头脑,否则你吃得起小龙虾,你就买得起奥迪。

一周时间过去了,情绪的高潮也应该差不多了,是时候理性出场、数据说话了。这两款芯片性能到底如何?公布的性能水分有多大?笔者在两家产品的样机上进行了一番摸底测试。

整机配置:

1、龙芯整机:3A4000四核,1.8GHz,内存8G,SATA机械硬盘

2、飞腾整机:FT2000四核,2.6GHz,内存8G,SATA机械硬盘

下面放数据,事先声明,用的编译开关是通用的,不排除两家还各自有神操作,能够提升各自性能,也欢迎各自提供测试数据。

一、SPEC2006(分数越高越好)

龙芯vs 飞腾spec2006测试结果对比:

龙芯3A4000四核测试结果:

图:3A4000单核整型spec2006测试结果

图:3A4000四核整型spec2006测试结果

图:3A4000单核浮点型spec2006测试结果

图:3A4000四核浮点型spec2006测试结果

飞腾FT2000四核测试结果:

图:飞腾2000单核整型spec2006测试结果

图:飞腾2000四核整型spec2006测试结果

图:飞腾2000单核浮点型spec2006测试结果

图:飞腾2000四核浮点型spec2006测试结果

二、LmBench访存延迟(延迟越低越好)

龙芯vs 飞腾LmBench测试结果对比:

龙芯测试结果:

飞腾测试结果:

三、系统综合性能Unixbench(分值越高越好)

龙芯vs 飞腾Unixbench测试结果对比:

龙芯测试结果

单核测试结果:

多核测试结果:

飞腾测试结果:

单核测试结果:

多核测试结果:

四、stream访存带宽(带宽越高越好)

龙芯vs 飞腾stream测试结果对比:

龙芯测试方法及过程日志

-------------------------------------------------------------

STREAM version $Revision: 5.10 $

-------------------------------------------------------------

This system uses 8 bytes per array element.

-------------------------------------------------------------

Array size = 10000000 (elements), Offset = 0 (elements)

Memory per array = 76.3 MiB (= 0.1 GiB).

Total memory required = 228.9 MiB (= 0.2 GiB).

Each kernel will be executed 10 times.

The *best* time for each kernel (excluding the first iteration)

will be used to compute the reported bandwidth.

-------------------------------------------------------------

Number of Threads requested = 4

Number of Threads counted = 4

-------------------------------------------------------------

Your clock granularity/precision appears to be 1 microseconds.

Each test below will take on the order of 23420 microseconds.

(= 23420 clock ticks)

Increase the size of the arrays if this shows that

you are not getting at least 20 clock ticks per test.

-------------------------------------------------------------

WARNING -- The above is only a rough guideline.

For best results, please be sure you know the

precision of your system timer.

-------------------------------------------------------------

Function Best Rate MB/s Avg time Min time Max time

Copy: 7991.1 0.020137 0.020022 0.020330

Scale: 7898.5 0.020402 0.020257 0.020543

Add: 8019.5 0.030083 0.029927 0.030517

Triad: 8063.4 0.030026 0.029764 0.031464

飞腾测试方法及过程日志:

-------------------------------------------------------------

STREAM version $Revision: 5.10 $

-------------------------------------------------------------

This system uses 8 bytes per array element.

-------------------------------------------------------------

Array size = 178900000 (elements), Offset = 0 (elements)

Memory per array = 1364.9 MiB (= 1.3 GiB).

Total memory required = 4094.7 MiB (= 4.0 GiB).

Each kernel will be executed 10 times.

The *best* time for each kernel (excluding the first iteration)

will be used to compute the reported bandwidth.

-------------------------------------------------------------

Number of Threads requested = 4

Number of Threads counted = 4

-------------------------------------------------------------

Your clock granularity/precision appears to be 1 microseconds.

Each test below will take on the order of 328026 microseconds.

(= 328026 clock ticks)

Increase the size of the arrays if this shows that

you are not getting at least 20 clock ticks per test.

-------------------------------------------------------------

WARNING -- The above is only a rough guideline.

For best results, please be sure you know the

precision of your system timer.

-------------------------------------------------------------

Function Best Rate MB/s Avg time Min time Max time

Copy: 10705.9 0.270737 0.267367 0.274043

Scale: 10647.1 0.271205 0.268843 0.273011

Add: 10851.3 0.399085 0.395677 0.403818

Triad: 10763.5 0.402215 0.398904 0.406974

--------------------------------------------------------------

五、浏览器性能Octane(分数越高越好)

龙芯vs 飞腾Octane测试结果对比:

六、SpecJVM2008(分数越高越好)

龙芯vs 飞腾SpecJVM2008测试结果对比:

七、小结

单以spec2006测试来看,飞腾和龙芯的单核性能并未像宣传的那样都达到20分水平,可能是因为他们自己内部测试有更高主频、更好配置,进行了某些他们自己特有的优化,希望他们能够公布出来,让我们好好学习。另外,龙芯未公布全芯片的性能,强调单核提升较多,但芯片设计是个系统工程,不止是单核能力,还涉及到互连、存储、IO等设计,实测的全芯片性能和单核性能综合起来才能代表芯片设计水平。飞腾单核到多核的扩展性尚可,但单核性能也不出彩,即便扩展到3.0GHz,在这个配置下也难以达到20分,更何况核的频率提升带来的性能提升并非线性的,除非外围存储和互连也同步提升。现在市面上的intel、AMD的桌面CPU的spec2006单核性能基本都在30分以上,最高的可以到70、80分。因此,国产CPU相比国际主流来讲还有不小差距,难说达到完成了“补课”的状态,还有很长的路要走。

根据龙芯总裁胡伟武研究员2019年12月24日发布的演讲来看,龙芯3A4000四核在DDR4和功耗方面确实存在一些问题,导致性能与上一代比较提升不明显,希望3A5000能够有所改善。从龙芯在推出3A4000不到半年就要推出3A5000计划来看,确实是非常急迫地想要进行改进,3A4000是一个比较尴尬的中间产品。但龙芯有个亮点,这个DDR4接口是自研的,虽然只是28nm,频率也不高,好歹解决了有无问题。如果不涉及知识产权问题,这个IP可以外售赚钱了。不过没有PCIE是个缺憾,现在还用AMD的HT接口实在是太老的。

总之,还是那句话,国产的大幕已经拉开,谁也无法阻挡。但大家应多些理性、多些客观,对刚刚起步的这项事业只有好处没有坏处。

[转帖]龙芯 vs 飞腾:各种测试数据看国产CPU水平的更多相关文章

  1. [转帖]龙芯下一代处理器微结构GS464E细节曝光

    龙芯下一代处理器微结构GS464E细节曝光 [日期:2015-05-26] 来源:Linux公社  作者:Linux [字体:大 中 小] http://www.linuxidc.com/Linux/ ...

  2. [转帖]龙芯3A4000处理器实测:28nm工艺不变 性能仍可提升100%以上

    龙芯3A4000处理器实测:28nm工艺不变 性能仍可提升100%以上 http://news.mydrivers.com/1/663/663122.htm 龙芯是中科院下属的计算机所研发的自主产权国 ...

  3. [转帖]龙芯3A/3B3000通用处理器出货超30万 获得“中国芯”大奖

    龙芯3A/3B3000通用处理器出货超30万 获得“中国芯”大奖 http://www.eetop.cn/cpu_soc/6946247.html 2019.10 的新闻 出后量 30万 我们贡献了 ...

  4. [转帖]龙芯服务器部署WEB服务的体验和详细步骤

    龙芯服务器部署WEB服务的体验和详细步骤 2019年01月02日 18:40:34 weixin_40065369 阅读数 1733   版权声明:本文为博主原创文章,遵循CC 4.0 by-sa版权 ...

  5. [转帖] 龙芯 中标麒麟的 源 以及K8S

    龙芯Mips64el平台上部署K8s https://ysicing.me/posts/mips64el-loongson-k8s/ YSICING May 29 2019   kubernetes ...

  6. [转帖]龙芯:Docker 配置与实践清单

    Docker 配置与实践清单 http://www.sohu.com/a/254904706_198222 文章对来官方文档及 Docker Links[1] 中链接内容进行归档整理,包含了日常工作中 ...

  7. 【转帖】龙芯将两款 CPU 核开源,这意味着什么?

    龙芯将两款 CPU 核开源,这意味着什么? https://www.oschina.net/news/78316/loongson-open-source-two-cpu-core 文章挺不错的 也讲 ...

  8. [百度贴吧]飞腾1500a .VS. 龙芯3a3000: 同频实用性能对比

    贴吧关于 龙芯与飞腾的简单对比. https://tieba.baidu.com/p/5682824804?red_tag=0221728732 龙芯3a3000实用性能 ,还不如4年前发布的FT15 ...

  9. [转帖]国产统一操作系统UOS龙芯版正式上线

    国产统一操作系统UOS龙芯版正式上线 2019/12/13 12:49:31来源:IT之家作者:骑士责编:骑士评论:446 https://www.ithome.com/0/462/725.htm   ...

  10. 龙芯将两款 CPU 核开源,这意味着什么?

    10月21日,教育部计算机类教学指导委员会.中国计算机学会教育专委会将2016 CNCC期间在山西太原举办“面向计算机系统能力培养的龙芯CPU高校开源计划”活动,在活动中,龙芯中科宣布将GS132和G ...

随机推荐

  1. 终于搞懂了Python模块之间的相互引用问题

    摘要:详细讲解了相对路径和绝对路径的引用方法. 在某次运行过程中出现了如下两个报错: 报错1: ModuleNotFoundError: No module named '__main__.src_t ...

  2. 推理实践丨如何使用MindStudio进行Pytorch模型离线推理

    摘要:本教程所示例的任务是Ascend Pytorch离线推理,即对给定的已经训练好的模型参数和推理脚本,在Ascend 310/710和Tesla设备上进行推理应用. 本文分享自华为云社区<使 ...

  3. 大数据 - ODS&DWD&DIM-SQL分享

    大数据 ODS&DWD&DIM-SQL分享 需求 思路一:等差数列 断2天.3天,嵌套太多 1.1 开窗,按照 id 分组,同时按照 dt 排序,求 Rank -- linux 中空格 ...

  4. 【django-vue】课程表数据录入 课程分类接口 所有课程接口 课程详情接口 所有章节接口 课程列表前端 课程详情前端

    目录 上节回顾 APSchudler 双写一致性 今日内容 1 课程表数据录入 2 课程分类接口 2.1 路由 2.2 序列化类 2.3 视图类 3 所有课程接口(过滤,排序) 3.1 表模型 3.2 ...

  5. TypeError: this.libOptions.parse is not a function

    安装完node.js运行项目后,报错: TypeError: this.libOptions.parse is not a function at ESLint8Plugin.<anonymou ...

  6. Cursor,程序员的 AI 代码编辑助手

    相信大家都或多或少地听说过.了解过 chatGPT ,半个月前发布的 GPT-4 ,可谓是 AI 赛道上的一个王炸 那么今天咸鱼给大家分享一个开源的 AI 代码编辑器--Cursor,让各位程序员在编 ...

  7. C++岗位面试真题宝典 -- 操作系统篇

    2.1 Linux中查看进程运行状态的指令.查看内存使用情况的指令.tar解压文件的参数. 参考回答 查看进程运行状态的指令:ps命令."ps -aux | grep PID",用 ...

  8. POJ1426: Find The Multiple

    题目: 给定一个正整数n,请编写一个程序来寻找n的一个非零的倍数m,这个m应当在十进制表示时每一位上只包含0或者1.你可以假定n不大于200且m不多于100位. 提示:本题采用Special Judg ...

  9. 安装Amos结构方程模型分析软件的方法

      本文介绍IBM SPSS Amos软件的安装方法.   Amos是IBM公司旗下一款强大的结构方程建模软件.其捆绑在高级版的SPSS Statistics软件中,但其它版本的SPSS Statis ...

  10. 第三届云原生编程挑战赛正式启动,Serverless 赛道邀你参加!

    据<云原生开发现状报告>显示,全球云原生开发人员达 680 万,与 2020 年 5 月报告的云原生开发者数量 470 万相比,全球云原生开发人员数量正极速增长,越来越多开发者加入到云原生 ...