网上看到这样的帖子:

https://www.zhihu.com/question/609008408/answer/3130831897

==========================================================

我个人搞了十多年的计算机,其中大部分时间都是搞AI相关,10多年前的时候就学过cuda编写bp模型,可以说算得上国内这领域的老鸟了,前段时间阴差阳错的成为了东北沿海某城市的AI计算中心的准总监(技术leader),虽然后来感觉待遇各方面不是很满意而选择回村种地,但是对于AI计算中心的超算平台一直难于进行AI算力的提供却有着比较深的切身体会。

个人的总结是两点:

一是费用问题:

或者说是性价比的问题,要知道大部分的AI任务都不需要太多的计算资源(这里指的是几十块甚至上百块显卡,上百个CPU甚至上千的CPU),一般的AI任务往往就是一个CPU+一个RTX4090显卡就够,总的造价在2W以内,而你要知道在超算平台的AI设备上只要你运行就是一个小时20多元甚至40元、50元,换句话说同样的钱自己买个设备用上5年都可以,但是用超算中心的设备也就是一个月不到就花光的钱,因此小规模的计算(20卡以内的)任务我所接触到的都是自建运算环境,而不是去买所谓的超算平台的AI算力,当然你如果是国家科研单位的那就不用怕,就像我在某沿海985大学读书的时候所有的花销都是走国家级项目报销的,自然也就不存在费用这个问题了,而这个问题对于中小型的企业来说却很致命,因为对于中小型企业来说根本这就是不划算的买卖。对于为什么超算平台的费用一直无法降呢,我想这里面有设备费用、人员维护费用、电费、空调费、场地建设费等等在里面,就拿其中的电费来说,超算中心假如有1000个服务器,它的负载只有10%,那它也绝对不可以把不用的900台服务器关机来省电,而在一个中小企业来说它就是可以把没有计算任务的服务器关机来省电的,也正是因为这样的问题所以导致超算中心的使用费用无法降低,而中小企业又难以接受超算中心如此不具备性价比的方案。

二是技术问题:

前面说的费用问题或许还能要人容易理解,但是后面的技术问题可能确实要一些不了解的人搞不清楚情况,这一个个超算中心都是几十亿上百亿的投资,怎么还会存在技术问题解决不了呢,这花钱不就行了吗,但是这确实是现实情况。国家级别的超算我没有管过,这是实话,但是省市一级的我却比较有经验了,这里说的也是这种情况,这些超算中心往往没有专门的技术人员来管理,所谓的挂名的技术人员也就只是国企、事业单位中的普通的所谓的“技术人员”,如果你想指望这些人员能够提供什么服务那就是多想了的。而一些企业的自建对外的超算中心,比如某个做路由器交换机起家的手机厂商也是以销售为主,并不以技术服务为主,说的直白一些就是只管卖而不管技术维护,而实际上使用超算往往是在技术上要难以单机模式下的,这个超算平台的软件安装,环境配置以及用户的project中代码的适配都是需要专业技术人员来服务的,而这些事情对于现在国内的省市一级的超算往往是无法做到的,这些超算中心的技术leader往往都是当地的985高校的博士生、研究生,一般都是院长博导的嫡系学生,和上面说的上话那种的学生,然后给推到这些铁饭碗的单位,这也就在某种程度上印证了那么一句话,那就是“国企事业单位是没有真正意义上的技术岗位的”。

总的来说,国内的超算平台一个是费用太高难以接受,一个是无人维护和管理而导致难以使用,或许这就是国内超算AI平台的现状吧。

-------------------------------------------------------------------

国内的超算平台一般都是异构计算模式,当然也有一部分是只提供CPU服务的,不过大部分都是CPU+GPU的异构计算,那主机一个个都是A100的卡,看着这些卡空着有时也感慨国家这么大的资金投入也就是打了水漂了,毕竟这成百亿上千亿的钱造航空母舰估计都够造好几个的了。

-------------------------------------------------------------------

中国超级计算机为什么不能为AI提供算力?的更多相关文章

  1. 谷歌AI中国中心成立,人工智能势不可挡?

    昨日,谷歌在上海举办了一年一度的Google中国开发者大会.在本届大会上,谷歌云首席科学家李飞飞宣布了一个重磅消息,即在北京将成立谷歌AI中国中心.对于这个即将成立的AI中心谷歌寄予厚望,希望与中国本 ...

  2. 谷歌 AI 中国中心成立,人工智能势不可挡?

    昨日,谷歌在上海举办了一年一度的Google中国开发者大会.在本届大会上,谷歌云首席科学家李飞飞宣布了一个重磅消息,即在北京将成立谷歌AI中国中心.对于这个即将成立的AI中心谷歌寄予厚望,希望与中国本 ...

  3. 警告!中国90%AI初创企业将在两年内落败出局

    https://mp.weixin.qq.com/s/-RkyLda1jovaHBlBTsi-BA 近年来,中国涌现了一大批AI初创企业,但AI热潮也伴随着泡沫.由于近期市场资金紧缩,投资者发出警告, ...

  4. 高盛为什么认为中国AI领域将超越美国?

    不久前,高盛发布的名为<中国在人工智能领域崛起>的研究报告,报告中,高盛认为中国已经成为AI领域的主要竞争者,中国政府建设“智慧型经济”和“智慧社会”的目标将有可能推动中国未来GDP的增长 ...

  5. 深度 | AI芯片终极之战

    深度 | AI芯片终极之战 https://mp.weixin.qq.com/s?__biz=MzA4MTQ4NjQzMw==&mid=2652712307&idx=1&sn= ...

  6. AI生万物,新世界的大门已敞开

    四月是万物复苏的时节,一年一度的GMIC全球移动互联网大会也在这个时间如期而至,在4月26日-28日的会议期间,有超过三百位行业专家进行了精彩的演讲,更有数万名现场观众感受到思维碰撞迸发出的火花. 作 ...

  7. 一文解读AI芯片之间的战争 (转)

    2015年的秋天,北京的雨水比往年要多些,温度却不算太冷.这一年里,年仅23岁的姚颂刚刚拿到清华大学的毕业证书;32岁的陈天石博士毕业后已在中科院计算所待了整整8年;而在芯片界摸爬滚打了14年的老将何 ...

  8. 星际争霸的虫王IA退役2年搞AI,自叹不如了

    ------------恢复内容开始------------ 金磊 发自 凹非寺 量子位|公众号 QbitA 这年头,直播讲AI,真算不上什么新鲜事.但要是连职业电竞选手,都开播主讲呢?没开玩笑,是真 ...

  9. 亚马逊云科技现身世界人工智能大会,揭示AI最新技术趋势

    2022世界人工智能大会(WAIC)于日前落幕.经过过去四届的发展与沉淀,今天的世界人工智能大会已成为人工智能领域最有影响力的国际盛会之一,今年大咖云集.国际大厂扎堆,充分彰显了大会的国际影响力和磁力 ...

  10. 我们距离AI编程还有多远?

    近几年来,人工智能的信息以不同形式霸占着我们的眼球,我们知道AlphaGo.微软小冰.Sophia,了解过自动驾驶.无人机.智能家居等,深知人工智能是在记忆力.学习力.运算力方面都远超人类的存在,但人 ...

随机推荐

  1. 判断是否有数据的sql优化

    根据某一条件从数据库表中查询 『有』与『没有』,只有两种状态,那为什么在写SQL的时候,还要SELECT count(*)呢? 多次REVIEW代码时,发现如现现象: 业务代码中,需要根据一个或多个条 ...

  2. apache开源 国内镜像地址

    https://mirrors.tuna.tsinghua.edu.cn/apache/kylin/apache-kylin-3.1.1/

  3. 实验7.Vlan划分实验

    # 实验7.Vlan划分实验 本实验用于划分Vlan,并对划分的Vlan做隔离测试. 实验组 拓扑 Vlan隔离配置 在配置vlan前,测试PC1234互通 具体配置vlan 这里给出其中一台交换机的 ...

  4. CAP 8.2 版本发布通告

    前言 今天我们很高兴宣布 CAP 发布 8.2 版本正式版,我们在这个版本中主要致力于对订阅着并行执行的特性提供支持,同时添加了对在订阅者中对消息头的控制行为. 下面,具体看一下我们新版本的功能吧. ...

  5. Numpy技巧: 由label获得相等矩阵

    Numpy技巧: 由label获得相等矩阵     假设Label为:  [ABAC] , 如何方便的得到一个矩阵, 其元素i,j表示第i位和第j位相等呢?   先把Label复制扩展成: m,m 的 ...

  6. Hugging Face Accelerate 两个后端的故事:FSDP 与 DeepSpeed

    社区中有两个流行的 零冗余优化器(Zero Redundancy Optimizer,ZeRO) 算法实现,一个来自 DeepSpeed,另一个来自 PyTorch.Hugging Face Acce ...

  7. 配置 Nginx + PHP(FastCGI/FPM)

    有关概念 Nginx是什么 Nginx ("engine x") 是一个高性能的HTTP和反向代理服务器,也是一个IMAP/POP3/SMTP服务器. Php-fpm是什么 1.c ...

  8. PyTorch程序练习(一):PyTorch实现CIFAR-10多分类

    一.准备数据 代码 import torchvision import torchvision.transforms as transforms from torch.utils.data impor ...

  9. 基于全志T507-H的Linux-RT + Igh EtherCAT主站案例分享

    本文将为各位工程师演示全志T507-H工业评估板(TLT507-EVM)基于IgH EtherCAT控制伺服电机方法,生动说明Linux-RT + Igh EtherCAT的强大之处! 同时,我们对于 ...

  10. 专用M4F+四核A53,异构多核AM62x让工业控制“更实时、更安全” Tronlong创龙科技5 秒前 1 德州仪器 TI芯片

    Cortex-M4F + Cortex-A53异构多核给工业控制带来何种意义? 创龙科技SOM-TL62x工业核心板搭载TI AM62x最新处理器,因其Cortex-M4F + Cortex-A53异 ...