网上看到这样的帖子:

https://www.zhihu.com/question/609008408/answer/3130831897

==========================================================

我个人搞了十多年的计算机,其中大部分时间都是搞AI相关,10多年前的时候就学过cuda编写bp模型,可以说算得上国内这领域的老鸟了,前段时间阴差阳错的成为了东北沿海某城市的AI计算中心的准总监(技术leader),虽然后来感觉待遇各方面不是很满意而选择回村种地,但是对于AI计算中心的超算平台一直难于进行AI算力的提供却有着比较深的切身体会。

个人的总结是两点:

一是费用问题:

或者说是性价比的问题,要知道大部分的AI任务都不需要太多的计算资源(这里指的是几十块甚至上百块显卡,上百个CPU甚至上千的CPU),一般的AI任务往往就是一个CPU+一个RTX4090显卡就够,总的造价在2W以内,而你要知道在超算平台的AI设备上只要你运行就是一个小时20多元甚至40元、50元,换句话说同样的钱自己买个设备用上5年都可以,但是用超算中心的设备也就是一个月不到就花光的钱,因此小规模的计算(20卡以内的)任务我所接触到的都是自建运算环境,而不是去买所谓的超算平台的AI算力,当然你如果是国家科研单位的那就不用怕,就像我在某沿海985大学读书的时候所有的花销都是走国家级项目报销的,自然也就不存在费用这个问题了,而这个问题对于中小型的企业来说却很致命,因为对于中小型企业来说根本这就是不划算的买卖。对于为什么超算平台的费用一直无法降呢,我想这里面有设备费用、人员维护费用、电费、空调费、场地建设费等等在里面,就拿其中的电费来说,超算中心假如有1000个服务器,它的负载只有10%,那它也绝对不可以把不用的900台服务器关机来省电,而在一个中小企业来说它就是可以把没有计算任务的服务器关机来省电的,也正是因为这样的问题所以导致超算中心的使用费用无法降低,而中小企业又难以接受超算中心如此不具备性价比的方案。

二是技术问题:

前面说的费用问题或许还能要人容易理解,但是后面的技术问题可能确实要一些不了解的人搞不清楚情况,这一个个超算中心都是几十亿上百亿的投资,怎么还会存在技术问题解决不了呢,这花钱不就行了吗,但是这确实是现实情况。国家级别的超算我没有管过,这是实话,但是省市一级的我却比较有经验了,这里说的也是这种情况,这些超算中心往往没有专门的技术人员来管理,所谓的挂名的技术人员也就只是国企、事业单位中的普通的所谓的“技术人员”,如果你想指望这些人员能够提供什么服务那就是多想了的。而一些企业的自建对外的超算中心,比如某个做路由器交换机起家的手机厂商也是以销售为主,并不以技术服务为主,说的直白一些就是只管卖而不管技术维护,而实际上使用超算往往是在技术上要难以单机模式下的,这个超算平台的软件安装,环境配置以及用户的project中代码的适配都是需要专业技术人员来服务的,而这些事情对于现在国内的省市一级的超算往往是无法做到的,这些超算中心的技术leader往往都是当地的985高校的博士生、研究生,一般都是院长博导的嫡系学生,和上面说的上话那种的学生,然后给推到这些铁饭碗的单位,这也就在某种程度上印证了那么一句话,那就是“国企事业单位是没有真正意义上的技术岗位的”。

总的来说,国内的超算平台一个是费用太高难以接受,一个是无人维护和管理而导致难以使用,或许这就是国内超算AI平台的现状吧。

-------------------------------------------------------------------

国内的超算平台一般都是异构计算模式,当然也有一部分是只提供CPU服务的,不过大部分都是CPU+GPU的异构计算,那主机一个个都是A100的卡,看着这些卡空着有时也感慨国家这么大的资金投入也就是打了水漂了,毕竟这成百亿上千亿的钱造航空母舰估计都够造好几个的了。

-------------------------------------------------------------------

中国超级计算机为什么不能为AI提供算力?的更多相关文章

  1. 谷歌AI中国中心成立,人工智能势不可挡?

    昨日,谷歌在上海举办了一年一度的Google中国开发者大会.在本届大会上,谷歌云首席科学家李飞飞宣布了一个重磅消息,即在北京将成立谷歌AI中国中心.对于这个即将成立的AI中心谷歌寄予厚望,希望与中国本 ...

  2. 谷歌 AI 中国中心成立,人工智能势不可挡?

    昨日,谷歌在上海举办了一年一度的Google中国开发者大会.在本届大会上,谷歌云首席科学家李飞飞宣布了一个重磅消息,即在北京将成立谷歌AI中国中心.对于这个即将成立的AI中心谷歌寄予厚望,希望与中国本 ...

  3. 警告!中国90%AI初创企业将在两年内落败出局

    https://mp.weixin.qq.com/s/-RkyLda1jovaHBlBTsi-BA 近年来,中国涌现了一大批AI初创企业,但AI热潮也伴随着泡沫.由于近期市场资金紧缩,投资者发出警告, ...

  4. 高盛为什么认为中国AI领域将超越美国?

    不久前,高盛发布的名为<中国在人工智能领域崛起>的研究报告,报告中,高盛认为中国已经成为AI领域的主要竞争者,中国政府建设“智慧型经济”和“智慧社会”的目标将有可能推动中国未来GDP的增长 ...

  5. 深度 | AI芯片终极之战

    深度 | AI芯片终极之战 https://mp.weixin.qq.com/s?__biz=MzA4MTQ4NjQzMw==&mid=2652712307&idx=1&sn= ...

  6. AI生万物,新世界的大门已敞开

    四月是万物复苏的时节,一年一度的GMIC全球移动互联网大会也在这个时间如期而至,在4月26日-28日的会议期间,有超过三百位行业专家进行了精彩的演讲,更有数万名现场观众感受到思维碰撞迸发出的火花. 作 ...

  7. 一文解读AI芯片之间的战争 (转)

    2015年的秋天,北京的雨水比往年要多些,温度却不算太冷.这一年里,年仅23岁的姚颂刚刚拿到清华大学的毕业证书;32岁的陈天石博士毕业后已在中科院计算所待了整整8年;而在芯片界摸爬滚打了14年的老将何 ...

  8. 星际争霸的虫王IA退役2年搞AI,自叹不如了

    ------------恢复内容开始------------ 金磊 发自 凹非寺 量子位|公众号 QbitA 这年头,直播讲AI,真算不上什么新鲜事.但要是连职业电竞选手,都开播主讲呢?没开玩笑,是真 ...

  9. 亚马逊云科技现身世界人工智能大会,揭示AI最新技术趋势

    2022世界人工智能大会(WAIC)于日前落幕.经过过去四届的发展与沉淀,今天的世界人工智能大会已成为人工智能领域最有影响力的国际盛会之一,今年大咖云集.国际大厂扎堆,充分彰显了大会的国际影响力和磁力 ...

  10. 我们距离AI编程还有多远?

    近几年来,人工智能的信息以不同形式霸占着我们的眼球,我们知道AlphaGo.微软小冰.Sophia,了解过自动驾驶.无人机.智能家居等,深知人工智能是在记忆力.学习力.运算力方面都远超人类的存在,但人 ...

随机推荐

  1. react 使用 error 报错

    在使用react 中报错原因总结 01 // Warning: Can't call setState on a component that is not yet mounted. This is ...

  2. 订单推送设计思路-基于支付ID而不是订单号来推送

    订单推送设计思路-基于支付ID而不是订单号来推送 方案:不是基于订单号来核销和分账的,抖音是基于每一笔抖音支付来做订单推送,核销和分账现象:这样会在抖音的订单中心中会出现很多条订单推送的记录. 抖音A ...

  3. SpringBoot 3.x 结合 Swagger3 (Knife4j )踩坑实录

    SpringBoot 3.x + Swagger3 踩坑实录 我的是springboot 版本是:3.2.2 <parent> <groupId>org.springframe ...

  4. MYSQL8存储过程生成日历表以及异常处理

    一.环境 数据库:mysql8.0.25 社区版 操作系统:windows 11 ------------------------------------ 二.创建日历表 CREATE TABLE ` ...

  5. Go语言中Kill子进程的正确姿势

    场景 我们在编写部署系统的时候,通常需要在机器上部署一个agent,用来执行部署脚本,为了防止部署脚本写的有问题,长时间hang住,我们通常会为脚本的执行设置一个超时时间,到了时间之后就kill掉该脚 ...

  6. 基于Python和TensorFlow实现BERT模型应用

    本文分享自华为云社区<使用Python实现深度学习模型:BERT模型教程>,作者: Echo_Wish. BERT(Bidirectional Encoder Representation ...

  7. 解决keil5仿真错误:Encountered an improper argument

    --- title: 解决keil5仿真错误:Encountered an improper argument date: 2020-06-18 03:13:18 categories: tags: ...

  8. STM32 CubeMX 学习:有关说明

    背景 STM32 是我以前学过的,而很久没有整理过的.因为之前学习的时间比较早,再加上各种资料要么不成熟,要么不齐全:再加上自己一开始没有比较完善的学习经验:以至于我的学习并不扎实. 趁着 STM 的 ...

  9. 【论文阅读】ICRA2021: VDB-EDT An Efficient Euclidean Distance Transform Algorithm Based on VDB Data Struct

    参考与前言 Summary: 浩哥推荐的一篇 无人机下的建图 and planning实验 Type: ICRA Year: 2021 论文链接:https://arxiv.org/abs/2105. ...

  10. ubuntu16 安装 python-networkmanager 失败

    前言 ubuntu16 安装 python-networkmanager 失败 解决方案 sudo apt-get install libdbus-1-dev sudo apt-get install ...