本系列将利用阿里云容器服务，帮助您上手 Kubeflow Pipelines.

介绍

机器学习的工程复杂度，除了来自于常见的软件开发问题外，还和机器学习数据驱动的特点相关。而这就带来了其工作流程链路更长，数据版本失控，实验难以跟踪、结果难以重现，模型迭代成本巨大等一系列问题。为了解决这些机器学习固有的问题，很多企业构建了内部机器学习平台来管理机器学习生命周期，其中最有名的是 Google 的 Tensorflow Extended， Facebook 的 FBLearner Flow， Uber 的 Michelangelo，遗憾的是这些平台都需要绑定在公司内部的基础设施之上，无法彻底开源。而这些机器学习平台的骨架就是机器学习工作流系统，它可以让数据科学家灵活定义自己的机器学习流水线，重用已有的数据处理和模型训练能力，进而更好的管理机器学习生命周期。

谈到机器学习工作流平台，Google 的工程经验非常丰富，它的 TensorFlow Extended 机器学习平台支撑了 Google 的搜索，翻译，视频等核心业务；更重要的是其对机器学习领域工程效率问题的理解深刻，Google 的 Kubeflow 团队于 2018 年底开源了 Kubeflow Pipelines(KFP), KFP 的设计与 Google 内部机器学习平台 TensorFlow Extended 一脉相承，唯一的区别是 KFP 运行在 Kubernetes 的平台上，TFX 是运行在 Borg 之上的。

什么是 Kubeflow Pipelines

Kubeflow Pipelines 平台包括：

能够运行和追踪实验的管理控制台
能够执行多个机器学习步骤的工作流引擎（Argo）
用来自定义工作流的 SDK，目前只支持 Python

而 Kubeflow Pipelines 的目标在于：

端到端的任务编排: 支持编排和组织复杂的机器学习工作流，该工作流可以被直接触发，定时触发，也可以由事件触发，甚至可以实现由数据的变化触发；
简单的实验管理: 帮助数据科学家尝试众多的想法和框架，以及管理各种试验。并实现从实验到生产的轻松过渡；
通过组件化方便重用: 通过重用 Pipelines 和组件快速创建端到端解决方案，无需每次从 0 开始的重新构建。

在阿里云上运行 Kubeflow Pipelines

看到 Kubeflow Piplines 的能力，大家是不是都摩拳擦掌，想一睹为快？但是目前国内想使用 Kubeflow Pipeline 有两个挑战：

Pipelines 需要通过 Kubeflow 部署；而 Kubeflow 默认组件过多，同时通过 Ksonnet 部署 Kubeflow 也是很复杂的事情；
Pipelines 本身和谷歌云平台有深度耦合，无法运行在其他云平台上或者裸金属服务器的环境。

为了方便国内的用户安装 Kubeflow Pipelines，阿里云容器服务团队提供了基于 Kustomize 的 Kubeflow Pipelines 部署方案。和普通的 Kubeflow 基础服务不同，Kubeflow Pipelines 需要依赖于 mysql 和 minio 这些有状态服务，也就需要考虑如何持久化和备份数据。在本例子中，我们借助阿里云 SSD 云盘作为数据持久化的方案，分别自动的为 mysql 和 minio 创建 SSD 云盘。

您可以在阿里云上尝试一下单独部署最新版本 Kubeflow Pipelines。

前提条件

您需要安装 kustomize

在 Linux 和 Mac OS 环境，可以执行

opsys=linux  # or darwin, or windows

curl -s https://api.github.com/repos/kubernetes-sigs/kustomize/releases/latest |\

  grep browser_download |\

  grep $opsys |\

  cut -d '"' -f  |\

  xargs curl -O -L

mv kustomize_*_${opsys}_amd64 /usr/bin/kustomize

chmod u+x /usr/bin/kustomize

在 Windows 环境，可以下载 kustomize_2.0.3_windows_amd64.exe

在阿里云容器服务创建 Kubernetes 集群, 可以参考文档

部署过程

通过 ssh 访问 Kubernetes 集群，具体方式可以参考文档
下载源代码

yum install -y git

git clone --recursive https://github.com/aliyunContainerService/kubeflow-aliyun

安全配置

3.1 配置 TLS 证书。如果没有 TLS 证书，可以通过下列命令生成

yum install -y openssl

domain="pipelines.kubeflow.org"

openssl req -x509 -nodes -days  -newkey rsa: -keyout kubeflow-aliyun/overlays/ack-auto-clouddisk/tls.key -out kubeflow-aliyun/overlays/ack-auto-clouddisk/tls.crt -subj "/CN=$domain/O=$domain"

如果您有TLS证书，请分别将私钥和证书保存到kubeflow-aliyun/overlays/ack-auto-clouddisk/tls.key和kubeflow-aliyun/overlays/ack-auto-clouddisk/tls.crt下

3.2 配置 admin 的登录密码

yum install -y httpd-tools

htpasswd -c kubeflow-aliyun/overlays/ack-auto-clouddisk/auth admin

New password:

Re-type new password:

Adding password for user admin

首先利用 kustomize 生成部署 yaml

cd kubeflow-aliyun/

kustomize build overlays/ack-auto-clouddisk > /tmp/ack-auto-clouddisk.yaml

查看所在的 Kubernetes 集群节点所在的地域和可用区,并且根据其所在节点替换可用区，假设您的集群所在可用区为 cn-hangzhou-g, 可以执行下列命令

sed -i.bak 's/regionid: cn-beijing/regionid: cn-hangzhou/g' \

    /tmp/ack-auto-clouddisk.yaml

sed -i.bak 's/zoneid: cn-beijing-e/zoneid: cn-hangzhou-g/g' \

    /tmp/ack-auto-clouddisk.yaml

建议您检查一下 /tmp/ack-auto-clouddisk.yaml 修改是否已经设置

将容器镜像地址由 gcr.io 替换为 registry.aliyuncs.com

sed -i.bak 's/gcr.io/registry.aliyuncs.com/g' \

    /tmp/ack-auto-clouddisk.yaml

建议您检查一下 /tmp/ack-auto-clouddisk.yaml 修改是否已经设置

调整使用磁盘空间大小, 比如需要调整磁盘空间为 200G

sed -i.bak 's/storage: 100Gi/storage: 200Gi/g' \

    /tmp/ack-auto-clouddisk.yaml

验证 pipelines 的 yaml 文件

kubectl create --validate=true --dry-run=true -f /tmp/ack-auto-clouddisk.yaml

利用 kubectl 部署 pipelines

kubectl create -f /tmp/ack-auto-clouddisk.yaml

查看访问 pipelines 的方式，我们通过 ingress 暴露 pipelines 服务，在本例子中，访问 IP 是 112.124.193.271。而 Pipelines 管理控制台的链接是： https://112.124.193.271/pipeline/

kubectl get ing -n kubeflow

NAME             HOSTS   ADDRESS           PORTS     AGE

ml-pipeline-ui   *       112.124.193.271   ,    11m

访问 pipelines 管理控制台

如果使用自签发证书，会提示此链接非私人链接，请点击显示详细信息，并点击访问此网站。

请输入步骤 2.2 中的用户名 admin 和设定的密码。

这时就可以使用 pipelines 管理和运行训练任务了。

Q&A

为什么这里要使用阿里云的 SSD 云盘？

这是由于阿里云的 SSD 云盘可以设置定期的自动备份，保证 pipelines 中的元数据不会丢失。

如何进行云盘备份?

如果您想备份云盘的内容，可以为云盘手动创建快照或者为硬盘设置自动快照策略按时自动创建快照。

如何清理 Kubeflow Piplines 部署？

这里的清理工作分为两个部分：

删除 Kubeflow Pipelines 的组件

kubectl delete -f /tmp/ack-auto-clouddisk.yaml

通过释放云盘分别释放 mysql 和 minio 存储对应的两个云盘

如何使用现有云盘作为数据库存储，而避免自动创建云盘？

请参考文档

总结

本文为您初步介绍了 Kubeflow Pipelines 的背景和其所要解决的问题，以及如何在阿里云上通过 Kustomize 快速构建一套服务于机器学习的 Kubeflow Pipelines，后续我们会分享如何利用 Kubeflow Pipelines 开发一个完整的机器学习流程。

解锁云原生 AI 技能|在 Kubernetes 上构建机器学习系统的更多相关文章

解锁云原生 AI 技能 - 开发你的机器学习工作流
按照上篇文章<解锁云原生 AI 技能 | 在 Kubernetes 上构建机器学习系统>搭建了一套 Kubeflow Pipelines 之后,我们一起小试牛刀,用一个真实的案例,学习如何 ...
公有云上构建云原生 AI 平台的探索与实践 - GOTC 技术论坛分享回顾
7 月 9 日,GOTC 2021 全球开源技术峰会上海站与 WAIC 世界人工智能大会共同举办,峰会聚焦 AI 与云原生两大以开源驱动的前沿技术领域,邀请国家级研究机构与顶级互联网公司的一线技术专家 ...
如何将云原生工作负载映射到 Kubernetes 中的控制器
作者:Janakiram MSV 译者:殷龙飞原文地址:https://thenewstack.io/how-to-map-cloud-native-workloads-to-kubernetes- ...
云原生 AI 前沿：Kubeflow Training Operator 统一云上 AI 训练
分布式训练与 Kubeflow 当开发者想要讲深度学习的分布式训练搬上 Kubernetes 集群时,首先想到的往往就是 Kubeflow 社区中形形色色的 operators,如 tf-operat ...
【山外笔记-云原生】《Docker+Kubernetes应用开发与快速上云》读书笔记-2020.04.25（六）
书名:Docker+Kubernetes应用开发与快速上云作者:李文强出版社:机械工业出版社出版时间:2020-01 ISBN:9787111643012 [山外笔记-云原生]<Docke ...
第七章云原生生态的基石 Kubernetes
7.1 Kubernetes架构 K8s的核心组件: etcd: 协同存储,负责保存整个集群的状态. API:资源操作的唯一入口. controller manager: 维护集群的状态,执行故障检测 ...
7.云原生之Docker容器Dockerfile镜像构建浅析与实践
转载自:https://www.bilibili.com/read/cv15220707/?from=readlist Dockerfile 镜像构建浅析与实践描述:Dockerfile是一个文本格 ...
开放下载 | 《Knative 云原生应用开发指南》开启云原生时代 Serverless 之门
点击下载<Knative 云原生应用开发指南> 自 2018 年 Knative 项目开源后,就得到了广大开发者的密切关注.Knative 在 Kubernetes 之上提供了一套完整的应 ...
DTCC 2020 | 阿里云李飞飞：云原生分布式数据库与数据仓库系统点亮数据上云之路
简介: 数据库将面临怎样的变革?云原生数据库与数据仓库有哪些独特优势?在日前的 DTCC 2020大会上,阿里巴巴集团副总裁.阿里云数据库产品事业部总裁.ACM杰出科学家李飞飞就<云原生分布式数 ...

随机推荐

手写SpringMVC实现过程
1. Spring Boot,Spring MVC的底层实现都是Servlet的调用. 2. Servlet的生命周期里面首先是类的初始化,然后是类的方法的调用,再次是类的销毁. 3. 创建一个spr ...
VS2019安装好后，经常打不开软件没反应解决方法
原文地址:https://blog.csdn.net/FL1623863129/article/details/89013137 VS2019于昨日正式发布,博主立马下载一个专业版尝尝鲜,但是发现项目 ...
WebService发布服务例子
import javax.jws.WebMethod; import javax.jws.WebService; @WebService public interface WebServiceI { ...
微信小程序踩坑日记4——真机端解析json数组和开发平台不一样
0. 引言环境:访问服务器端php,获取json数组,并渲染在前台问题描述:保证在开发平台上的正常运行,但是在真机端却出现了无法正确解析wx.request()返回的数据(特指无法解析res.da ...
Vue实战狗尾草博客管理平台第四章
本章主要内容如下: 填补上期的坑. iconfont仓库的关联,引入. 开发登录页面填坑上期中我们功能都已正常使用.但不知道有没有小伙伴测试过error页面,当访问地址不存在时,路由是否能正常挑战 ...
SparkStreaming 整合kafka Demo
这里使用的是低级API,因为高级API非常不好用,需要繁琐的配置,也不够自动化,却和低级API的效果一样,所以这里以低级API做演示你得有zookeeper和kafka 我这里是3台节点主机架构图 ...
Spark的Monitoring
一.启动历史页面监控配置: $ vi spark-defaults.conf spark.eventLog.enabled true spark.eventLog.dir hdfs://hadoop0 ...
Ubuntu18.04连接蓝牙耳机
使用的耳机是索尼WI-SP500,打开设置,找到Bluetooth,直接连接(WI-SP500在连接第二台设备时,需要长按开机键7秒才行), 保证Output选择需要连接的耳机,然后确保Profile ...
Java面试题-基础篇一（干货篇）
1.一个".java"源文件中是否可以包括多个类(不是内部类)?有什么限制? 可以有多个类,但只能有一个public的类,并且public的类名必须与文件名相一致. 2.Java有 ...
(转)cube-ui后编译
转载地址:https://www.jianshu.com/p/189755f9ce43 1. 后编译介绍目前大部分的前端项目开发都是使用es6+的代码并且使用babel进行编译,而传统的对代码包的引 ...

解锁云原生 AI 技能|在 Kubernetes 上构建机器学习系统

介绍