开发环境

基本操作

一、启动集群

先启动hadoop，再启动spark，查看启动后的状态：http://node-master:8080

start-all.sh

start-master.sh

start-slaves.sh

关闭顺序：stop-master.sh --> stop-slaves.sh --> stop-all.sh。

二、命令行

在Spark中存在着多种运行模式，可使用本地模式运行、可使用伪分布式模式运行、使用分布式模式也存在多种模式如：Spark Mesos模式、Spark YARN模式；

Spark Mesos	官方推荐模式，通用集群管理，有两种调度模式：粗粒度模式（Coarse-grained Mode）与细粒度模式（Fine-grained Mode）
Spark YARN	Hadoop YARN资源管理模式
Standalone	简单模式或称独立模式，可以单独部署到一个集群中，无依赖任何其他资源管理系统。不使用其他调度工具时会存在单点故障，使用Zookeeper等可以解决
Local	本地模式，可以启动本地一个线程来运行job，可以启动N个线程或者使用系统所有核运行job

本地运行

本地单线程模式：pyspark --master local
本地多线程模式：pyspark --master local[*] 　　# default
本地多线程模式：pyspark --master local[K]

在程序执行过程中，只会生成一个SparkSubmit进程。

- 既是客户提交任务的 clent进程、
- 又是Spark的 driver程序、[启动start-history-server.sh服务查看]
- 还充当着Spark执行Task的 executor角色。

模拟集群

SparkSubmit 依然充当全能角色，又是Client进程，又是driver程序，还有点资源管理的作用。

提交应用程序时使用 local-cluster[x,y,z] 参数：

x代表要生成的executor数，y和z分别代表每个executor所拥有的core和memory数。

spark-submit --master local-cluster[, , ]

spark-shell  --master local-cluster[, , ]

上面这条命令代表会使用2个executor进程，每个进程分配3个core和1G的内存，来运行应用程序。

集群运行

集群多线程模式：pyspark --master spark://HOST:PORT（默认7077）

三、Yarn 集群控制

两种 “部署模式”

开发模式：yarn-client（默认模式），spark driver建立在client上，非集群上，导致client不能关机。
生产模式： yarn-cluster

# 集群的位置
hadoop@node-master$ echo $HADOOP_CONF_DIR

/home/hadoop/hadoop/etc/hadoop

你要切换到 yarn-cluster模式 或者 yarn-client模式，很简单，将我们之前用于提交spark应用程序的spark-submit脚本，加上--master参数，设置为yarn-cluster，或yarn-client，即可。如果你没设置，那么，就是 standalone模式。

提交应用

一个例子，pyspark在提交时，选择以哪种模式运行。

#!/usr/bin/env bash

spark-submit \

     --master yarn \

     --deploy-mode cluster \

     --conf spark.shuffle.service.enabled=true \

     --queue xxx \

     --conf spark.dynamicAllocation.enabled=true \

     --conf spark.default.parallelism=1000 \

     --conf spark.sql.shuffle.partitions=1000 \

     --py-files dependencies/dependencies.zip \

     --executor-memory 18g \

     --executor-cores 3 \

     --conf spark.blacklist.enabled=true dependencies/test.py $1 $2 $3 $4 $5 $6 $7 $8

四、添加.jar包

运行程序时依赖时使用。

$ cd /usr/local/spark

$ ./bin/pyspark -master local[4] --jars code.jar

五、小程序示范

通过pyspark实现wordcount。在编写spark代码时，也可以给SparkContext的setMaster()方法，传入这个master URL地址；然后我们的spark作业，就会使用standalone模式连接master，并提交作业。

from pyspark import SparkConf, SparkContext


# Init.

conf = SparkConf().setMaster("local").setAppName("My App")

sc = SparkContext(conf = conf)

logFile = "file:///usr/local/spark/README.md"

# Load.

logData = sc.textFile(logFile, 2).cache()


# RDD.

numAs = logData.filter(lambda line: 'a' in line).count()

numBs = logData.filter(lambda line: 'b' in line).count()

print('Lines with a: %s, Lines with b: %s' % (numAs, numBs))

提交执行。

$ /usr/local/spark/bin/spark-submit WordCount.py

六、测试程序

关闭调试信息，可以改为 INFO --> ERROR

hadoop@node-master$ find spark/ -name "*" | xargs grep "log4j.rootCategory="

spark/conf/log4j.properties.template:log4j.rootCategory=INFO, console

跟OpenCV一样，这里是个大宝藏。

./bin/spark-submit examples/src/main/python/pi.py

hadoop@node-master$ spark-submit --master spark://node-master:7077 --deploy-mode client examples/src/main/python/

als.py                  ml/                     pi.py                   streaming/

avro_inputformat.py     mllib/                  sort.py                 transitive_closure.py

kmeans.py               pagerank.py             sql/                    wordcount.py

logistic_regression.py  parquet_inputformat.py  status_api_demo.py

七、单机与集群对比

可见，集群运行要快很多。

集群操作

Ref: 看了之后不再迷糊-Spark多种运行模式

真的物理集群，不是伪集群。

1，测试或实验性质的本地运行模式（单机）

2，测试或实验性质的本地伪集群运行模式（单机模拟集群）

3，Spark自带Cluster Manager的Standalone Client模式（集群）

Ref: 122、Spark核心编程进阶之单独启动master和worker脚本 [必要是，单独自定义配置各个worker]

(1) 为什么我们有的时候也需要单独启动master和worker进程呢?

在单独启动两个进程的时候，是可以通过命令行参数，为进程配置一些独特的参数。
比如说监听的端口号、web ui的端口号、使用的cpu和内存。
比如你想单独给某个worker节点配置不同的cpu和内存资源的使用限制，那么就可以使用脚本单独启动这个worker进程的时候，通过命令行参数来设置。

运行的命令：

Worker状态查看：

4，spark自带cluster manager的standalone cluster模式（集群）

hadoop@node-master$ spark-submit --master spark://node-master:7077 --deploy-mode cluster examples/src/main/python/ml/chi_square_test_example.py 

Exception in thread "main" org.apache.spark.SparkException: Cluster deploy mode is currently not supported for python applications on standalone clusters.

    at org.apache.spark.deploy.SparkSubmit.error(SparkSubmit.scala:)

    at org.apache.spark.deploy.SparkSubmit.prepareSubmitEnvironment(SparkSubmit.scala:)

    at org.apache.spark.deploy.SparkSubmit.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:)

    at org.apache.spark.deploy.SparkSubmit.doRunMain$(SparkSubmit.scala:)

    at org.apache.spark.deploy.SparkSubmit.submit(SparkSubmit.scala:)

    at org.apache.spark.deploy.SparkSubmit.doSubmit(SparkSubmit.scala:)

    at org.apache.spark.deploy.SparkSubmit$$anon$.doSubmit(SparkSubmit.scala:)

    at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:)

    at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

5，基于YARN 的Resource Manager的Client模式（集群）

6，基于YARN 的Resource Manager的Custer模式（集群）

现在越来越多的场景，都是Spark跑在Hadoop集群中，所以为了做到资源能够均衡调度，会使用YARN来做为Spark的Cluster Manager，来为Spark的应用程序分配资源。

自然地，需要通过yarn的web ui查看状态。

Spark Mesos 模式

/* implement */

[PySpark] Build R&D environment的更多相关文章

Create a Hadoop Build and Development Environment
Create a Hadoop Build and Development Environment http://vichargrave.com/create-a-hadoop-build-and-d ...
Build up java environment（配置java环境）
1,配置环境变量我的电脑,右键计算机图标,点击“属性” 点击“高级系统设置” 点击“环境变量” “系统变量”一栏,点击“新建” 弹出输入“变量名”.“变量值”窗口 “变量名”输入“JAVA_HOME ...
[Note] Build your SDL2 Environment in Visual Studio 2013 配置你的SDL2运行环境
Right key your project in "solution manager(解决方案资源管理器)", choose the "Property(属性)&quo ...
[Tensorflow] Object Detection API - build your training environment
一.前期准备 Prepare protoc Download Protocol Buffers Create folder: protoc and unzip it. unsw@unsw-UX303U ...
gbs build使用说明
注:本文从:https://source.tizen.org/documentation/articles/gbs-build 翻译而来. 1 前言通过使用gbs build指令,开发者可以在本地编 ...
配置 Sublime Text 3 作为Python R LaTeX Markdown IDE
配置 Sublime Text 3 作为Python R LaTeX Markdown IDE 配置 Sublime Text 3 作为Python IDE IDE的基本功能:代码提醒.补全:编译文件 ...
ANT build.xml文件详解
Ant的优点跨平台性.Ant是用Java语言编写的,所示具有很好的跨平台性. 操作简单.Ant是由一个内置任务和可选任务组成的. Ant运行时需要一个XML文件(构建文件). Ant通过调用targ ...
浩哥解析MyBatis源码（二）——Environment环境
原创作品,可以转载,但是请标注出处地址:http://www.cnblogs.com/V1haoge/p/6625612.html 本应该先开始说Configuration配置类的,但是这个类有点过于 ...
使用Angular CLI进行Build (构建) 和 Serve
第一篇文章是: "使用angular cli生成angular5项目" : http://www.cnblogs.com/cgzl/p/8594571.html 第二篇文章是: & ...

随机推荐

九：MVC主从表数据加载
EF对关联表数据加载的三种方式: 延迟加载:只有在需要的时候加载数据.EF默认的加载方式. 贪婪加载:一次性组织好数据,全部加载到内存中. 显式加载:需要通过代码手动加载关联表. 延迟加载 virtu ...
centos能进入命令行界面，进不了图形界面
在开机引导界面按“e”, 找到linux16开头的一行,定位到ro然后修改ro为rw,并添加:init=/sysroot/bin/sh 使用ctrl x进入安全模式. 使用命令:chroot /sys ...
bitcoind搭建
https://degreesofzero.com/article/installing-bitcoind-on-ubuntu.html1. sudo apt-get install python-s ...
MyBatis-08-使用注解开发
8.使用注解开发 8.1.面向接口编程面向接口编程的根本原因:解耦,可拓展,提高复用,分层开发中.上层不用管具体的实现,大家都遵守共同的标准,使得开发变得容易,规范性好 8.2.使用注解开发注解在 ...
201777010217-金云馨《面向对象程序设计（java）》第十七周学习总结
项目内容这个作业属于哪个课程 https://www.cnblogs.com/nwnu-daizh/ 这个作业的要求在哪里 https://www.cnblogs.com/nwnu-daizh/p ...
docker: Error response from daemon: invalid mount config for type "bind": bind source path does not exist: /tmp/tfserving/
注意要是当前的完整路径 pwd查看到完整路径,再加入到source里面即可
Luogu P4781【模板】拉格朗日插值
洛谷传送门板题-注意一下求多个数的乘积的逆元不要一个个快速幂求逆元,那样很慢,时间复杂度就是O(n2log)O(n^2log)O(n2log).直接先乘起来最后求一次逆元就行了.时间复杂度为O(nl ...
简单理解yii事件
https://blog.csdn.net/qq43599939/article/details/80363827 通过观察者来理解yii事件测试 class TestController ext ...
access denied
背景: 想要使用nginx转发实现一个输出PHPinfo的页面, 比如: 访问 aaa.com/phpinfo 浏览器显示phpinfo的信息, 因为有的时候需要查看phpinfo, 所以想单独 ...
luogu 1156 垃圾陷阱动态规划
Code: #include <bits/stdc++.h> #define N 4004 #define setIO(s) freopen(s".in"," ...

[PySpark] Build R&D environment