分布式训练与 Kubeflow 当开发者想要讲深度学习的分布式训练搬上 Kubernetes 集群时,首先想到的往往就是 Kubeflow 社区中形形色色的 operators,如 tf-operator.mpi-operator. 这些服务于各种深度学习训练(TensorFlow.PyTorch.MXNet 等)的 operators 主要的工作包括: 在 Kubernetes 集群上创建 Pod 以拉起各个训练进程 配置用作服务发现的信息(如 TF_CONFIG)以及创建相关 Kuberne…
伴随着以 Kubernetes 为代表的云原生技术体系的日益成熟以及 CNCF 生态的逐渐壮大,“云原生”已然成为了未来云计算时代里一个当仁不让的关键词.但是,到底什么是“云原生”?云原生与 CNCF.Kubernetes 又是什么关系呢?云原生的技术浪潮已经来袭,作为云计算时代的开发者和从业者,我们又该如何将云原生技术在自己所在的组织中落地.在这次名为“云原生”的技术革命中站稳脚跟呢? 作为这个“云原生”技术社区多年的亲历者和实践者,我们深知让技术真正触达每一位开发者的心智绝非易事.为此,我们…
Sigcomm 2019简介 一年一度的网络顶级学术峰会Sigcomm于8月20日至22日在北京举行.作为ACM Special Interest Group on Data Communication 的旗舰会议,Sigcomm汇聚了全球网络界顶尖学术研究人员.工程研发人员和技术爱好者,共同探索网络技术的前沿议题.今年恰逢Sigcomm组织成立50周年,也是Sigcomm会议首次在中国大陆举办,阿里云有幸深度参与本次盛会. 阿里云参会概况 阿里云智能参与了今年Sigcomm的诸多环节.在现场的…
在金融行业数字化转型的驱动下,国有银行.股份制银行和各级商业银行也纷纷步入容器化的进程.   如果以容器云上生产为目标,那么整个容器云平台的设计.建设和优化对于银行来说是一个巨大的挑战.如何更好地利用云原生技术,帮助银行实现敏捷.轻量.快速.高效地进行开发.测试.交付和运维一体化,从而重构业务,推动金融科技的发展,是个长期课题.   本期金融云原生漫谈,将和大家共同探讨银行在进行云原生基础设施构建时,裸金属和虚拟机哪个更适合作为容器云底层计算资源?谁代表了未来? 虽然,金融行业推进云原生建设的各…
业界要闻 Gartner 发布云原生基础设施未来的八大趋势:权威分析机构 Gartner 在对 2020 年技术趋势的展望当中指出:“预计2020年所有领先的容器管理软件均内置服务融合技术,到2022年有75%的全球化企业将在生产中使用容器化的应用.还有50%的应用软件将容器化适应超融合环境”.Gartner 在报告中表示,未来基础设施技术演进的八大趋势包括: 多云与混合云: Service Mesh: 基于 Kubernetes 的 fPaaS(即:函数计算 PaaS): 裸金属容器和微虚拟机…
作者 张路,运营开发专家工程师,现负责游戏知几 AI 助手后台架构设计和优化工作. 游戏知几 随着业务不断的拓展,游戏知几AI智能问答机器人业务已经覆盖了自研游戏.二方.海外的多款游戏.游戏知几研发团队主动拥抱云原生,推动后台业务全量上云,服务累计核心1w+. 通过云上的容器化部署.自动扩缩容.健康检查.可观测性等手段,提高了知几项目的持续交付能力和稳定性,形成了一套适合游戏知几自身的上云实践方案.本文将会介绍游戏知几项目中遇到的痛点以及探索出的一套可靠的上云实践方案. 知几项目背景 游戏知几是…
AI时代的到来,给企业的底层IT资源的丰富与敏捷提出了更大的挑战,利用阿里云稳定.弹性的GPU云服务器,领先的GPU容器化共享和隔离技术,以及K8S集群管理平台,好未来通过云原生架构实现了对资源的灵活调度,为其AI中台奠定了敏捷而坚实的技术底座. 在2020年云栖大会上,好未来AI中台负责人刘东东,分享了他对AI云原生的理解与好未来的AI中台实践,本文为演讲内容整理. 大家好,我是好未来AI中台技术负责人刘东东.今天我给大家带来的演讲主题是<好未来AI云原生的浅谈>.我的分享主要分成四个部分:…
背景 机器学习工作负载与传统的工作负载相比,一个比较显著的特点是对 GPU 的需求旺盛.在之前的文章中介绍过(https://mp.weixin.qq.com/s/Nasm-cXLtJObjLwLQHALmw 和 https://mp.weixin.qq.com/s/X4VDynLfKdVp-tyciQccyQ),目前 GPU 的显存已经不足以跟上模型参数规模的发展.随着 Transformer 等新的模型结构的出现,这一问题越来越显著.算法工程师们训练模型所需要的资源越来越多,分布式训练也随之…
作者 郭云龙,腾讯云高级工程师,目前就职于 CSIG 云产品三部-AI 应用产品中心,现负责中心后台业务框架开发. 导语 为了满足 AI 能力在公有云 SaaS 场景下,服务和模型需要快速迭代交付的需求,保障服务在不稳定高并发时的高成功率,以及进一步提升资源利用率,AI 应用产品中心进行了一系列的调研与实践,本篇将重点介绍团队在容器化方面的实践经验. 背景和问题 公有云 AI SaaS 产品(如人脸融合)的一般服务流程为:C 端或 B 端客户通过采集设备采集图像.音视频等,经由云 API 等接入…
云计算从不被看好到成长为势不可挡的技术潮流,仅仅用了十年的时间.如今“云原生”又被企业以及开发者奉为圭臬,并被认为是云计算的未来. 阿里云容器技术负责人易立认为云计算有三个阶段:云搬迁.云就绪和云原生. 第一个阶段是为了降低成本的搬迁上云,将运行在物理机中的应用迁移到虚拟化环境中,应用的开发和运维方式并没有很大不同. 第二个阶段云就绪,企业希望利用云计算提升整体效率,开始尝试微服务架构,并关注标准化.自动化.可扩展性和高可用性等指标. 而第三个阶段,也就是当下,企业开始完全拥抱云计算,很多应用从…