apache spark kubernets 部署试用

spark 是一个不错的平台，支持rdd 分析stream 机器学习。。。
以下为使用kubernetes 部署的说明，以及注意的地方

具体的容器镜像使用别人已经构建好的

deploy yaml 文件

deploy-k8s.yaml

apiVersion: extensions/v1beta1

kind: Deployment

metadata:

  name: spark-master

  namespace: big-data

  labels:

    app: spark-master

spec:

  replicas: 1

  template:

    metadata:

      labels:

        app: spark-master

    spec:

      containers:

      - name: spark-master

        image: bde2020/spark-master:2.3.1-hadoop2.7

        imagePullPolicy: IfNotPresent

        ports:

        - containerPort: 7077

        - containerPort: 8080

        env:

        - name: ENABLE_INIT_DAEMON

          value: "false"

        - name: SPARK_MASTER_PORT

          value: "7077"

---

apiVersion: v1

kind: Service

metadata:

  name: spark-master-service

  namespace: big-data

spec:

  type: NodePort

  ports:

    - port: 7077

      targetPort: 7077

      protocol: TCP

      name: master

  selector:

    app: spark-master

---

apiVersion: v1

kind: Service

metadata:

  name: spark-webui-service

  namespace: big-data

spec:

  ports:

    - port: 8080

      targetPort: 8080

      protocol: TCP

      name: ui

  selector:

    app: spark-master

  type: NodePort

---

apiVersion: extensions/v1beta1

kind: Ingress

metadata:

  name: spark-webui-ingress

  namespace: big-data

spec:

  rules:

  - host: spark-webui.data.com

    http:

      paths:

      - backend:

          serviceName: spark-webui-service

          servicePort: 8080

        path: /

---

apiVersion: extensions/v1beta1

kind: Deployment

metadata:

  name: spark-worker

  namespace: big-data

  labels:

    app: spark-worker

spec:

  replicas: 1

  template:

    metadata:

      labels:

        app: spark-worker

    spec:

      containers:

      - name: spark-worker

        image: bde2020/spark-worker:2.3.1-hadoop2.7

        imagePullPolicy: IfNotPresent

        env:

        - name: SPARK_MASTER

          value: spark://spark-master-service:7077

        - name: ENABLE_INIT_DAEMON

          value: "false"

        - name: SPARK_WORKER_WEBUI_PORT

          value: "8081"

        ports:

        - containerPort: 8081

---

apiVersion: v1

kind: Service

metadata:

  name: spark-worker-service

  namespace: big-data

spec:

  type: NodePort

  ports:

    - port: 8081

      targetPort: 8081

      protocol: TCP

      name: worker

  selector:

    app: spark-worker

---

apiVersion: extensions/v1beta1

kind: Ingress

metadata:

  name: spark-worker-ingress

  namespace: big-data

spec:

  rules:

  - host: spark-worker.data.com

    http:

      paths:

      - backend:

          serviceName: spark-worker-service

          servicePort: 8081

        path: /

部署&&运行

部署

kubectl apply -f deploy-k8s.yaml

效果

使用ingress 访问，访问域名 spark-webui.data.com

说明

命名的问题

平时的习惯是deploy service 命名为一样的，但是就是这个就有问题的，因为k8s 默认会进行环境变量的注入，所以居然冲突的。

解决方法，修改名称，重新发布

具体问题：

dockerfile 中的以下环境变量

ENV SPARK_MASTER_PORT 7077

spark 任务运行

具体的运行可以参考官方demo，后期也会添加

参考资料

https://github.com/rongfengliang/spark-k8s-deploy
https://github.com/big-data-europe/docker-spark

apache spark kubernets 部署试用的更多相关文章

Apache Spark的部署环境的小记
Spark的单机版便于测试,同时通过SSH用Spark的内置部署脚本搭建Spark集群,使用Mesos.Yarn或者Chef来部署Spark.对于Spark在云环境中的部署,比如在EC2(基本环境和E ...
新手福利：Apache Spark入门攻略
[编者按]时至今日,Spark已成为大数据领域最火的一个开源项目,具备高性能.易于使用等特性.然而作为一个年轻的开源项目,其使用上存在的挑战亦不可为不大,这里为大家分享SciSpike软件架构师Ash ...
Apache Spark技术实战之8：Standalone部署模式下的临时文件清理
未经本人同意严禁转载,徽沪一郎. 概要在Standalone部署模式下,Spark运行过程中会创建哪些临时性目录及文件,这些临时目录和文件又是在什么时候被清理,本文将就这些问题做深入细致的解答. 从 ...
Apache Spark源码走读之15 -- Standalone部署模式下的容错性分析
欢迎转载,转载请注明出处,徽沪一郎. 概要本文就standalone部署方式下的容错性问题做比较细致的分析,主要回答standalone部署方式下的包含哪些主要节点,当某一类节点出现问题时,系统是如 ...
Apache Spark源码走读之7 -- Standalone部署方式分析
欢迎转载,转载请注明出处,徽沪一郎. 楔子在Spark源码走读系列之2中曾经提到Spark能以Standalone的方式来运行cluster,但没有对Application的提交与具体运行流程做详细 ...
Apache Spark探秘：三种分布式部署方式比较
转自:链接地址: http://dongxicheng.org/framework-on-yarn/apache-spark-comparing-three-deploying-ways/ 目 ...
Apache Spark技术实战之6 --Standalone部署模式下的临时文件清理
问题导读 1.在Standalone部署模式下,Spark运行过程中会创建哪些临时性目录及文件? 2.在Standalone部署模式下分为几种模式? 3.在client模式和cluster模式下有什么 ...
Apache Spark源码剖析
Apache Spark源码剖析(全面系统介绍Spark源码,提供分析源码的实用技巧和合理的阅读顺序,充分了解Spark的设计思想和运行机理) 许鹏著 ISBN 978-7-121-25420- ...
Apache Spark源码走读之10 -- 在YARN上运行SparkPi
y欢迎转载,转载请注明出处,徽沪一郎. 概要 “spark已经比较头痛了,还要将其运行在yarn上,yarn是什么,我一点概念都没有哎,再怎么办啊.不要跟我讲什么原理了,能不能直接告诉我怎么将spar ...

随机推荐

总结: MySQL(基础,字段约束,索引,外键,存储过程,事务)操作语法
1. 显示数据库列表 show databases; # 查看当前所有数据库 show databases \G #以行的方式显示 2. 在命令行中,执行sql语句 mysql -e 'show ...
bfs,dfs区别
一般来说用DFS解决的问题都可以用BFS来解决. DFS(深搜的同时考虑回溯) bfs＝队列,入队列,出队列:dfs=栈,压栈,出栈 bfs是按一层一层来访问的,所以适合有目标求最短路的步数,你想想层 ...
最小生成树（模板 Kruskal）
Description 某省调查乡村交通状况,得到的统计表中列出了任意两村庄间的距离.省政府“畅通工程”的目标是使全省任何两个村庄间都可以实现公路交通(但不一定有直接的公路相连,只要能间接通过公路可达 ...
基于PU-Learning的恶意URL检测——半监督学习的思路来进行正例和无标记样本学习
PU learning问题描述给定一个正例文档集合P和一个无标注文档集U(混合文档集),在无标注文档集中同时含有正例文档和反例文档.通过使用P和U建立一个分类器能够辨别U或测试集中的正例文档 [即想 ...
ElasticSearch-hadoop saveToEs源码分析
ElasticSearch-hadoop saveToEs源码分析: 类的调用路径关系为: EsSpark -> EsRDDWriter -> RestService -> Rest ...
jstl <fmt:formatNumber>标签
标签用于格式化数字,百分比和货币. 如果type属性为百分比或数字,则可以使用多个数字格式属性.maxIntegerDigits和minIntegerDigits属性允许您指定数字的非分数部分的大小. ...
iddea代码调试debug篇
代码调试debug篇主要看图,看图一目了然. 断点的设定和eclipse一样,只要点一下就可以,下面是我设定的几个断点,再下面的三个窗口是用来调试代码的,这个和eclipse类似调试常用的快捷键 ...
Python zipfile 编码问题
zipfile默认对于文件名编码只识别cp437和utf-8 对于采用其他编码方式的文件,zipfile解压出来的就会是乱码我们可以先把它encode成cp437然后再decode成GBK 最后在把 ...
快速切题 poj2488 A Knight's Journey
A Knight's Journey Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 31195 Accepted: 10 ...
Python 数值计算库之-[NumPy]（五）

apache spark kubernets 部署试用

deploy yaml 文件

部署&&运行

说明

参考资料

apache spark kubernets 部署试用的更多相关文章

随机推荐

热门专题