环境要求:

  • 如果需要图形界面,需要在Ubuntu系统安装,否则centos系统安装时是没有问题的(web端和命令行进行任务提交)
  • 安装过程需要有另外一台控制端机器(注意:区别于集群所在的任何一台服务器!!!),控制端和集群服务器确保ssh服务开通
  • 集群中个节点的账户和密码确保一致
  • 集群中每台服务器确保有sudo权限
  • 安装服务器所在机器要能翻墙,国内网络下载不了k8s镜像,如果翻不出去,请按照下表自行下载对应tag的镜像

gcr.io/google_containers/hyperkube

v1.9.9

gcr.io/google_containers/kube-controller-manager

v1.9.9

gcr.io/google_containers/kube-apiserver

v1.9.9

gcr.io/google_containers/kube-scheduler

v1.9.9

gcr.io/google_containers/etcd

3.2.17

gcr.io/google_containers/kubernetes-dashboard-amd64

v1.8.3

gcr.io/google_containers/pause-amd64

3.0

第1步:准备工作(在集群节点以外的任意机器上操作)

1)拉取dev-box镜像(默认已经安装docker):

sudo docker pull docker.io/openpai/dev-box

启动dev-box容器

sudo docker run -itd \
-e COLUMNS=$COLUMNS -e LINES=$LINES -e TERM=$TERM \
-v /var/lib/docker:/var/lib/docker \
-v /var/run/docker.sock:/var/run/docker.sock \
-v /pathHadoop:/pathHadoop \
-v /pathConfiguration:/cluster-configuration \
--pid=host \
--privileged=true \
--net=host \
--name=dev-box \
docker.io/openpai/dev-box

2)进入dev-box容器

sudo docker exec -it dev-box /bin/bash

3)转到命令操作路径

cd /pai/pai-management

4)制作启动文件

拷贝模板文件:

cd quick-start/quick-start-example.yaml ../quick-start.yaml

修改模板文件:
Machines:第一个IP是为master,后面的默认为worker;如果master和worker在同一台机器上,写1个ip 就ok

第2步:生成配置文件

python paictl.py cluster generate-configuration \
-i quick-start.yaml \
-o /path/to/cluster-configuration/dir

出现该图表示配置文件生成,在/path/to/cluster-configuration/dir路径可以查看,四个yaml文件

第3步:配置并安装k8s

python paictl.py cluster k8s-bootup \
-p /path/to/cluster-configuration/dir

该地方会有较长时间的停顿,检测python和docker环境安装

k8s镜像下载及容器启动,视网速情况而定,过程时间较长,耐心等待,曙光就在眼前

安装完成

此时,访问该web端:http://<master>:9090

第4步:安装pai相关服务

python paictl.py service start \
-p /path/to/cluster-configuration/dir

恭喜你,安装完成

耐心等待,正在拉取镜像,如果着急的话可以手动拉取

待上述组件安装完成后访问web端:http://<master>:9286

安装过程注意事项:

1)为了充分利用GPU所在的服务器,在以集群模式安装部署时,将master节点部署在普通(没有GPU)节点,worker节点全部部署在GPU所在服务器,达到硬件资源的充分利用。

具体方式为第一步配置文件中的第一个IP为master节点,后面的所有IP都为worker

2)在安装过程如果遇到问题,卸载掉重新再来

卸载open pai 组件:

python paictl.py service delete -p /path/to/cluster-configuration/dir

卸载k8s组件:

python paictl.py cluster k8s-clean -p /path/to/cluster-configuration/dir

3)安装完了以后出现类似的情况,不能彻底卸载pai需要删除etcd文件库,需要:rm –rf /var/etcd/data,然后重新安装

服务安装后出现类似的错误:Failed create pod sandbox

OpenPAI大规模人工智能平台安装部署文档的更多相关文章

  1. keepalived双机热备,安装部署文档

    keepalived双击热备,安装部署文档: 下载目录:/apps/keepalived-1.2.7.tar.gz 1:---> yum install -y make wget 2:---&g ...

  2. LVS+Heartbeat安装部署文档

    LVS+Heartbeat安装部署文档 发表回复 所需软件: ipvsadm-1.24-10.x86_64.rpmheartbeat-2.1.3-3.el5.centos.x86_64.rpmhear ...

  3. Sqlserver2008安装部署文档

    Sqlserver2008部署文档 注意事项: 如果你要安装的是64位的服务器,并且是新机器.那么请注意,你需要首先需要给64系统安装一个.net framework,如果已经安装此功能,请略过这一步 ...

  4. EasyNVR无插件直播流媒体服务器云端集中管控的EasyNVS云管理平台安装使用文档

    EasyNVS - EasyNVR云端集中管理服务 EasyNVS云管理平台是一套专门用于集中化管理EasyNVR 的解决方案. EasyNVR 采用主动注册的方式接入到 EasyNVS, 再由 Ea ...

  5. supervisor安装部署文档和管理实例

    Supervisord是用Python实现的一款非常实用的进程管理工具,类似于monit(关于monit见我的博客:用monit监控系统关键进程),monit和supervisord的一个比较大的差异 ...

  6. zabbix3.0安装部署文档

    zabbix v3.0安装部署 摘要: 本文的安装过程摘自http://www.ttlsa.com/以及http://b.lifec-inc.com ,和站长凉白开的<ZABBIX从入门到精通v ...

  7. MetaQ安装部署文档

    一.MetaQ安装部署情况: 地点 IP Broker ID Master/Slave Slave ID:Group 合肥 192.168.52.23 Slave 1:meta-slave-group ...

  8. Oracle Grid Infrastructure安装部署文档

    1. 部署环境步骤 1.1 软件环境 操作系统: CentOS release 6.5 oracle安装包: linux.x64_11gR2_grid.zip linux.x64_11gR2_data ...

  9. Oracle RAC安装部署文档

    1.    部署环境步骤 1.1 软件环境 操作系统:CentOS release 6.5(推荐使用5.*的系统)192.168.1.151    racnode1 192.168.1.152    ...

随机推荐

  1. javascript入门教程 (2)

    这篇我就不铺垫和废话了,我们开始正式进入JS核心语法的学习… 首先我们从基础入手... 一. 基础语法 1.1 区分大小写 JS语法规定变量名是区分大小写的 比如: 变量名 learninpro 和变 ...

  2. java中匿名内部类总结

    在java的世界里,提供了匿名内部类语法糖,用于帮助大家简化代码,本文简要从接口,抽象类以及常规类以代码的形式描述其常用模式. 1. 接口模式 public interface IWriter { v ...

  3. Element表单验证规则

    一.简单的逻辑验证使用方法: 方法步骤: 1.在html中给el-form增加 :rules="rules" 2.html中在el-form-item 中增加属性 prop=&qu ...

  4. 深入理解bit_or和bit_and,bit_count

    bit_or:二进制数按位或,bit_and:二进制数按位与,bit_count:统计二进制数1个个数 下面以一个例子来说明用法:示例要实现的功能就是计算每月有几天有访问,先把示例摘录在这里.1234 ...

  5. 转:30分钟了解Springboot整合Shiro

    引自:30分钟了解Springboot整合Shiro 前言:06年7月的某日,不才创作了一篇题为<30分钟学会如何使用Shiro>的文章.不在意之间居然斩获了22万的阅读量,许多人因此加了 ...

  6. C#远程连接postgresql数据库

    第一次在项目中遇到远程访问postgresql数据库的,当时经常会出现连接数据库的错误,连接字符串出现乱码现象 解决方案 在配置文件中添加连接字符串 <add key="Informa ...

  7. STM32 硬件UART接收超时检测设置

    STM32 硬件UART接收超时检测设置 -----------------本文作者"智御电子",期待与电子爱好者交流学习.---------------- 应用场景 在uart应 ...

  8. 『Python题库 - 简答题』 Python中的基本概念 (121道)

    ## 『Python题库 - 简答题』 Python中的基本概念 1. Python和Java.PHP.C.C#.C++等其他语言的对比? 2. 简述解释型和编译型编程语言? 3. 代码中要修改不可变 ...

  9. ISAP学习笔记

    学完了ISAP,感觉心情舒畅,毕竟ISAP比Dinic好一点. 说到底ISAP其实是Dinic(不熟悉Dinic的人去我的博客找猴子课堂----最大流与最小割(看看思想),已经置顶)优化版,熟悉的人知 ...

  10. mysql自动提交

    MySQL的autocommit(自动提交)默认是开启,其对mysql的性能有一定影响,举个例子来说,如果你插入了1000条数据,mysql会commit1000次的,如果我们把autocommit关 ...