环境要求:

  • 如果需要图形界面,需要在Ubuntu系统安装,否则centos系统安装时是没有问题的(web端和命令行进行任务提交)
  • 安装过程需要有另外一台控制端机器(注意:区别于集群所在的任何一台服务器!!!),控制端和集群服务器确保ssh服务开通
  • 集群中个节点的账户和密码确保一致
  • 集群中每台服务器确保有sudo权限
  • 安装服务器所在机器要能翻墙,国内网络下载不了k8s镜像,如果翻不出去,请按照下表自行下载对应tag的镜像

gcr.io/google_containers/hyperkube

v1.9.9

gcr.io/google_containers/kube-controller-manager

v1.9.9

gcr.io/google_containers/kube-apiserver

v1.9.9

gcr.io/google_containers/kube-scheduler

v1.9.9

gcr.io/google_containers/etcd

3.2.17

gcr.io/google_containers/kubernetes-dashboard-amd64

v1.8.3

gcr.io/google_containers/pause-amd64

3.0

第1步:准备工作(在集群节点以外的任意机器上操作)

1)拉取dev-box镜像(默认已经安装docker):

sudo docker pull docker.io/openpai/dev-box

启动dev-box容器

sudo docker run -itd \
-e COLUMNS=$COLUMNS -e LINES=$LINES -e TERM=$TERM \
-v /var/lib/docker:/var/lib/docker \
-v /var/run/docker.sock:/var/run/docker.sock \
-v /pathHadoop:/pathHadoop \
-v /pathConfiguration:/cluster-configuration \
--pid=host \
--privileged=true \
--net=host \
--name=dev-box \
docker.io/openpai/dev-box

2)进入dev-box容器

sudo docker exec -it dev-box /bin/bash

3)转到命令操作路径

cd /pai/pai-management

4)制作启动文件

拷贝模板文件:

cd quick-start/quick-start-example.yaml ../quick-start.yaml

修改模板文件:
Machines:第一个IP是为master,后面的默认为worker;如果master和worker在同一台机器上,写1个ip 就ok

第2步:生成配置文件

python paictl.py cluster generate-configuration \
-i quick-start.yaml \
-o /path/to/cluster-configuration/dir

出现该图表示配置文件生成,在/path/to/cluster-configuration/dir路径可以查看,四个yaml文件

第3步:配置并安装k8s

python paictl.py cluster k8s-bootup \
-p /path/to/cluster-configuration/dir

该地方会有较长时间的停顿,检测python和docker环境安装

k8s镜像下载及容器启动,视网速情况而定,过程时间较长,耐心等待,曙光就在眼前

安装完成

此时,访问该web端:http://<master>:9090

第4步:安装pai相关服务

python paictl.py service start \
-p /path/to/cluster-configuration/dir

恭喜你,安装完成

耐心等待,正在拉取镜像,如果着急的话可以手动拉取

待上述组件安装完成后访问web端:http://<master>:9286

安装过程注意事项:

1)为了充分利用GPU所在的服务器,在以集群模式安装部署时,将master节点部署在普通(没有GPU)节点,worker节点全部部署在GPU所在服务器,达到硬件资源的充分利用。

具体方式为第一步配置文件中的第一个IP为master节点,后面的所有IP都为worker

2)在安装过程如果遇到问题,卸载掉重新再来

卸载open pai 组件:

python paictl.py service delete -p /path/to/cluster-configuration/dir

卸载k8s组件:

python paictl.py cluster k8s-clean -p /path/to/cluster-configuration/dir

3)安装完了以后出现类似的情况,不能彻底卸载pai需要删除etcd文件库,需要:rm –rf /var/etcd/data,然后重新安装

服务安装后出现类似的错误:Failed create pod sandbox

OpenPAI大规模人工智能平台安装部署文档的更多相关文章

  1. keepalived双机热备,安装部署文档

    keepalived双击热备,安装部署文档: 下载目录:/apps/keepalived-1.2.7.tar.gz 1:---> yum install -y make wget 2:---&g ...

  2. LVS+Heartbeat安装部署文档

    LVS+Heartbeat安装部署文档 发表回复 所需软件: ipvsadm-1.24-10.x86_64.rpmheartbeat-2.1.3-3.el5.centos.x86_64.rpmhear ...

  3. Sqlserver2008安装部署文档

    Sqlserver2008部署文档 注意事项: 如果你要安装的是64位的服务器,并且是新机器.那么请注意,你需要首先需要给64系统安装一个.net framework,如果已经安装此功能,请略过这一步 ...

  4. EasyNVR无插件直播流媒体服务器云端集中管控的EasyNVS云管理平台安装使用文档

    EasyNVS - EasyNVR云端集中管理服务 EasyNVS云管理平台是一套专门用于集中化管理EasyNVR 的解决方案. EasyNVR 采用主动注册的方式接入到 EasyNVS, 再由 Ea ...

  5. supervisor安装部署文档和管理实例

    Supervisord是用Python实现的一款非常实用的进程管理工具,类似于monit(关于monit见我的博客:用monit监控系统关键进程),monit和supervisord的一个比较大的差异 ...

  6. zabbix3.0安装部署文档

    zabbix v3.0安装部署 摘要: 本文的安装过程摘自http://www.ttlsa.com/以及http://b.lifec-inc.com ,和站长凉白开的<ZABBIX从入门到精通v ...

  7. MetaQ安装部署文档

    一.MetaQ安装部署情况: 地点 IP Broker ID Master/Slave Slave ID:Group 合肥 192.168.52.23 Slave 1:meta-slave-group ...

  8. Oracle Grid Infrastructure安装部署文档

    1. 部署环境步骤 1.1 软件环境 操作系统: CentOS release 6.5 oracle安装包: linux.x64_11gR2_grid.zip linux.x64_11gR2_data ...

  9. Oracle RAC安装部署文档

    1.    部署环境步骤 1.1 软件环境 操作系统:CentOS release 6.5(推荐使用5.*的系统)192.168.1.151    racnode1 192.168.1.152    ...

随机推荐

  1. Linux -- 用户篇

    Linux -- 用户与用户组 1.Linux 系统中有三种角色:所有者(用户),用户组与其他人,一张图可以说明用户与用户组的关系. 如图,某公司相当于一个用户组,该用户组下有A,B两个用户,用户拥有 ...

  2. 竞赛题解 - Broken Tree(CF-758E)

    Broken Tree(CF-758E) - 竞赛题解 贪心复习~(好像暴露了什么算法--) 标签:贪心 / DFS / Codeforces 『题意』 给出一棵以1为根的树,每条边有两个值:p-强度 ...

  3. @Component注解、@Service注解、@Repository注解、@Controller注解区别

    --------------------------------------------------------------------------------------------------- ...

  4. MapReduce之Map Join

    一 介绍 之所以存在Reduce Join,是因为在map阶段不能获取所有需要的join字段,即:同一个key对应的字段可能位于不同map中.Reduce side join是非常低效的,因为shuf ...

  5. 基于TCP/IP的局域网聊天室---C语言

    具备注册账号,群聊,查看在线人员信息,私发文件和接收文件功能,因为每个客户端只有一个属于自己的socket,所以无论客户端是发聊天消息还是文件都是通过这一个socket发送, 这也意味着服务器收发任何 ...

  6. flask日志

    日志功能的实现 Python 自身提供了一个用于记录日志的标准库模块:logging. logging 模块 logging 模块定义的函数和类为应用程序和库的开发实现了一个灵活的事件日志系统 log ...

  7. Python学习1——关于变量

    在python中,使用变量之前不需要声明变量的数据类型, 但是,使用变量前,必须要先对变量进行赋值: 例: num01 += 100 print('num01') 上述例子中,表示的意思是 num01 ...

  8. 爬虫-windows下安装Scrapy及scrapy模块介绍

    一:安装wheel  wheel介绍 二:安装twisted twisted是由python编写的一款基于事件驱动的网络引擎,使用twisted模块将python的异步请求(异步模型介绍)成为可能且简 ...

  9. HyperLedger Fabric 1.4 智能合约 Helloworld运行(9)

    9.1 Helloworld案例简介       通过执行官方End-2-End案例,初始了解Fabric网络的运行流程及yaml配置,官方End-2-End案例把执行过程集成,通过一条命令即可完成全 ...

  10. AtCoder Regular Contest 100 E - Or Plus Max

    一道很好的dp题 dp[K]存的是 i满足二进制1属于K二进制1位置 最大的两个Ai 这样dp[K]统计的两个数肯定满足(i | j) <= K 然后不断做 update(dp[i | (1&l ...