简介:北坡模式:借助于云上大计算性能突破来提供HPC服务,切入的重点更加聚焦于云服务。

随着数字化转型的深入,行业应用对算力提出更高要求。为满足不同行业灵活的业务形态与计算需求,以云计算技术为服务模式创新的技术手段,以高性能计算服务为核心的高性能计算云(HPC Cloud)受到业界的广泛关注。

为了进一步凝聚产业共识,推进高性能计算云产业发展,2021年12月21日,计算网融合产业及标准推进委员会联合超级计算创新联盟,召开首届高性能计算云(HPC Cloud)产业发展论坛,邀请了学术界与产业界专家,以 “云化超算,智启未来”为主题,从技术研究、应用部署、实践发展等多个方面进行精彩演讲。

在本次论坛上,来自阿里云的高性能计算负责人何万青发表了《南坡VS北坡,阿里云高性能计算HPC-as-a-Service行业实践》的主题演讲。

01 阿里云高性能计算的发展

超算通过互联网的方式去部署和交付已经成为趋势。何万青表示阿里云的高性能计算已经发展了四到五年,目前部署在很多工业和行业计算的相关垂直业务,比如汽车仿真、影视后期渲染、AI生物制药、气象业务等领域。

基于过去十多年在线下HPC的技术观察,谈到传统超算系统转型高性能计算云的趋势,何万青将线下超算转型云服务和云服务提供高性能计算产品和服务两种模式,比喻为从南坡和北坡不同线路攀登HPC-as-a-Service顶峰。在北坡,云公司借助于云上大计算性能突破来提供HPC服务,切入的重点更加聚焦于云服务:单机SLA和大规模稳定性、快捷、弹性、多种云产品和服务的快速组合及SaaS服务,超越以提供“核时”和“算力”为核心的模式,强调整体科研业务上云。

2020年是高性能计算在稳定性、弹性以及计费敏感性方向发展最快的一年,很多重大任务在阿里云已经可以大规模的部署,阿里云在去IOE的过程中,可以使超70%硬件故障无感消除,在公共云大计算产品端,云超算SCC第七代实例规格全新上线。

在神龙计算平台上,它的优势包括虚拟化网络高效卸载,物理网络、存储和计算完全解耦,避免资源争抢。神龙eRDMA功能2021年也正式上线,实现CPU实例和GPU实例并池和混合部署,极大扩展CPU和GPU实例集群范围。从POD扩展到可用区、数据中心,平台支持更大规模的弹性伸缩,同时支持VPC网络、eRDMA网络、存储网络三网合一。在数值天气预报中,eRDMA会极大提升应用规模和并行效率。

02 阿里云高性能计算Cloud Stack

何万青表示,基于以上的底层架构,阿里云高性能计算统称为“神龙云超算”,在其上部署面向公共云和混合云的E-HPC云软件栈,它是基于神龙服务器+RDMA网络+并行文件系统开发的PssS层服务。其中,调度器和弹性伸缩、热迁移等功可以从底层对客户透明实现。在ISV层,服务是通过工作流的方式提供,数据搬移不仅是物理方式,而是通过高速网络,一次性的上载来完成任务交付。在跨数据中心的计算集群上,完成三网合一,现有调度器完全实现对跨可用区计算节点的调度,将不同的任务分配给不同的实例。在不同的队列调度上方面,全球只有阿里云能够在运行过程中实现队列绑定不同的实例。

03阿里云高性能计算应用方案

何万青介绍了将抢占式实例与断点续算结合,用户只需要花费比传统方式很少的成本,便可以按需得到所需资源。在混合云技术方面,通过混合云异步文件存储的方式,可以实现在线上、线下同时进行数据拉取与计算,在影视渲染场景中,已经得到广泛使用。

E-HPC商业License方案中,可通过阿里云高速通道打通云上云下网络。其中,E-HPC自动部署云上计算资源,并为其配置好License服务或License代理节点,云下License服务器通过VPN连接License代理节点,E-HPC服务负责License Manager部署、License发放和使用监控。

原文链接

本文为阿里云原创内容,未经允许不得转载。

阿里云何万青:南坡VS北坡,阿里云高性能计算行业实践的更多相关文章

  1. 2684亿!阿里CTO张建锋:不是任何一朵云都撑得住双11

    2019天猫双11 成交额2684亿! "不是任何一朵云都能撑住这个流量.中国有两朵云,一朵是阿里云,一朵叫其他云."11月11日晚,阿里巴巴集团CTO张建锋表示,"阿里 ...

  2. MongoDB与阿里云达成战略合作,最新数据库独家上线阿里云!

    11月26日,开源数据库厂商MongoDB与阿里云在北京达成战略合作,作为合作的第一步,最新版MongoDB 4.2数据库产品正式上线阿里云平台. 目前阿里云成为全球唯一可提供最新版MongoDB服务 ...

  3. 真正云原生的智能运维体系,阿里云发布ECS自动化运维套件

    云计算的发展,推动了自动化运维.DevOps.AIOps 等趋势的兴起,在业务快速变化的今天,企业希望通过一套自动化运维的专家系统提高运维效率,为业务提供支撑. 传统的方式下,打造一套成熟的 DevO ...

  4. 【阿里云产品评测】小站长眼中的巅峰云PK

    [阿里云产品评测]小站长眼中的巅峰云PK 阿里云论坛用户:昵称-a5lianmeng 笔者是一名小站长,因狂热互联网,而在毕业后由宅男逐渐进入站长队伍,在毕业后的几年间,经营6个流量类网站,身为站长, ...

  5. 轮值CEO胡厚崑:到2025年所有的企业都将用到云(云的2.0时代,会有几千朵云几万朵云升起来,这将产生不同的技术模式、商业模式、思维模式)

    2016年09月04日 07:38 中国经营报   李凡 在全国工商联“2016年中国民营企业500强”排行榜上夺得头把交椅的华为,向外界描绘了面向未来进一步做大做强的路径. 华为创始人任正非于201 ...

  6. 阿里云E-HPC联合安世亚太、联科集团共建云超算生态

    5月23日,2018云栖大会武汉峰会,阿里云高级技术专家刘峥和张维,对弹性计算最新上线的 serverless (无服务器化)计算技术Bazaar及基于该技术的容器服务产品 Severless Kub ...

  7. 2019 GNTC 阿里云参会分享:开放、弹性的阿里云网络NFV平台

    作为全球规模最大的网络技术盛会之一,GNTC全球网络技术大会是网络技术发展的重要风向标,包含战略规划.产业方向.技术趋势.应用创新等皆汇集于此.而作为云服务商代表,阿里云再度受邀以顶级钻石合作伙伴之名 ...

  8. 阿里云OSS同城冗余存储正式商业化,提供云上同城容灾能力

    近日,阿里云正式发布OSS同城冗余存储产品.这是国内目前提供同城多AZ冗余部署能力覆盖最广的云上对象存储产品,可以实现云存储的同城双活,满足企业级客户对于“发生机房级灾难事件时数据不丢失,业务不中断” ...

  9. 拥抱云原生 2.0 时代,Tapdata 入选阿里云首期云原生加速器!

      3月9日,阿里云首期云原生加速器官宣,Tapdata 突出重围,成功入选31 强,将与多家行业知名企业,携手阿里云共建云原生行业新生态,加速拥抱云原生新时代的无限潜能.   2021年,阿里云正式 ...

  10. OpenStack 企业私有云的若干需求(4):混合云支持 (Hybrid Cloud Support)

    本系列会介绍OpenStack 企业私有云的几个需求: 自动扩展(Auto-scaling)支持 多租户和租户隔离 (multi-tenancy and tenancy isolation) 混合云( ...

随机推荐

  1. springboot 低于 2.6 版本设置 SameSite=None,springboot 1.x set SameSite=none in embedded tomcat

    speingboot 使用自带的 tomcat 运行,设置 SameSite. springboot 过低的版本没有 SameSite 的属性设置,升级到 1.5.22 版本后,虽然 Rfc6265C ...

  2. Rust使用Sauron实现Web界面交互

    目录 简介 架构 Application 和组件 简单入门示例 先决条件 创建新项目 编译库文件 引用库文件 运行项目 界面交互示例 创建项目 编译库文件 引用库文件 引用库文件 运行项目 参考资料 ...

  3. 如何用Flask中的Blueprints构建大型Web应用

    本文分享自华为云社区<构建大型Web应用Flask中的Blueprints指南>,作者: 柠檬味拥抱. 什么是Blueprints? Blueprints是Flask中的一种模式,用于将应 ...

  4. Flux中的map、flatMap、concatMap的区别

    flatMap.map和concatMap都是在Flux中用于进行数据转换和处理的方法,但它们在处理元素和顺序上有一些区别: map方法: map方法用于对Flux中的每个元素进行一对一的转换. 对于 ...

  5. 【Java】请写出你最常见到的 5 个 runtime exception

    请写出你最常见到的 5 个 runtime exception. ​ 参考:https://blog.csdn.net/qq_20417499/article/details/80222820 Cla ...

  6. mybatis一次执行多条SQL语句报错

    如果这样来写一个 mapper 1 <update id="createTable3" parameterType="map"> 2 drop ta ...

  7. 简直了,被“Java并发锁”问题追问到自闭...

    故事 地铁上,小帅双目空洞地望着窗外...绝望,发自内心地感到绝望... 距离失业已经过去两个月了,这是小帅接到的第四次面试邀请."回去等通知吧...",简简单单的六个字,把小帅的 ...

  8. 10 CSS边框属性

    10 CSS边框属性 border-style(边框风格) 定义边框的风格,值可以有: /* none:没有边框,当border的值为none的时候,系统将会忽略[border-color] hidd ...

  9. #Trie#洛谷 7717 「EZEC-10」序列

    题目 分析 考虑这些关系可以用若干个连通块表示,而可以用一个数异或边权表示, 那么每个连通块有一个生成树,而判断非树边是否合法即可, 那么问题就转换成有多少个数异或任意一个元素均不大于\(k\), 把 ...

  10. Java HashMap 和 HashSet 的高效使用技巧

    Java HashMap HashMap 是一种哈希表,它存储键值对.键用于查找值,就像数组中的索引一样.HashMap 的优势在于它可以使用任何类型作为键,并且查找速度很快. 创建 HashMap ...