windows平台使用spark-submit以client方式提交spark应用到standalone集群

1.spark应用打包,我喜欢打带依赖的,这样省事. 2.使用spark-submit.bat 提交应用,代码如下: for /f "tokens=1,2 delims==" %%i in (config) do (set %%i=%%j) %sparkHome%/bin/spark-submit ^ --class streaming.SocketStream ^ --master spark://%masterIP%:7077 ^ --executor-memory 4G ^ --…

spark使用idea以client模式提交应用到standalone集群

使用idea以client方式提交代码到standalone集群非常简单. 1.首先有一个部署好且已经启动的standalone集群 -------------------------------------------------------------------- 2.将应用打包 (这里两种选择,一种是包里只含应用不含依赖,另一种是包里是有依赖的.) 没图说个JB: 可以看到第一个是不带依赖的包,这个包就比较小,第二个就是带依赖的包,比较大. 如果是带依赖的包那么代码里就不用显示指定所需要…

（二）win7下用Intelij IDEA 远程调试spark standalone 集群

关于这个spark的环境搭建了好久,踩了一堆坑,今天环境: WIN7笔记本 spark 集群(4个虚拟机搭建的) Intelij IDEA15 scala-2.10.4 java-1.7.0 版本问题: 个人选择的是hadoop2.6.0 spark1.5.0 scala2.10.4 jdk1.7.0 关于搭建集群环境,见个人的上一篇博客:(一) Spark Standalone集群环境搭建,接下来就是用Intelij IDEA来远程连接spark集群,这样就可以方便的在本机上进行调试.…

Spark学习之路（二）Spark2.3 HA集群的分布式安装

一.下载Spark安装包 1.从官网下载 http://spark.apache.org/downloads.html 2.从微软的镜像站下载 http://mirrors.hust.edu.cn/apache/ 3.从清华的镜像站下载 https://mirrors.tuna.tsinghua.edu.cn/apache/ 二.安装基础 1.Java8安装成功 2.zookeeper安装成功 3.hadoop2.7.5 HA安装成功 4.Scala安装成功(不安装进程也可以启动) 三.Spar…

04、Spark Standalone集群搭建

04.Spark Standalone集群搭建 4.1 集群概述独立模式是Spark集群模式之一,需要在多台节点上安装spark软件包,并分别启动master节点和worker节点.master节点是管理节点,负责和各worker节点通信,完成worker的注册与注销.worker节点是任务执行节点,通过worker节点孵化出执行器子进程来执行任务. 4.2 集群规划这里使用4台主机部署Spark集群,主机名称分别是s101.s102.s103和s104. s101 #Master节点 s1…

使用二进制的方式部署 K8S-1.16 高可用集群

一.项目介绍项目致力于让有意向使用原生kubernetes集群的企业或个人,可以方便的.系统的使用二进制的方式手工搭建kubernetes高可用集群.并且让相关的人员可以更好的理解kubernetes集群的运作机制. 软件版本 os centos7.7(ubuntu也适用,需要替换部分命令) kubernetes 1.16.2 etcd 3.4.3 docker 18.06 calico 3.10.1-2 coredns 配置策略 kube-apiserver: 使用节点本地 nginx 4…

windows 环境怎样恢复（oracle 11g grid） ocr voting 损坏的集群

windows 环境怎样恢复 (oracle 11g grid) ocr voting 损坏的集群 oracle 11g 以后 ocr 能够放到 asm 磁盘上,而ASM的启动依赖于ocr和votedisk,所以在丢失ocr或votedisk 会导致cluter无法正常启动假设原来的ocr 位置已经不存在,则必须使用同样的名字在原来同样的位置创建一个空 OCR . 建议使用下面步骤来恢复OCR: 1.确定当前集群节点数 C:\>olsnodes 2.关闭 oracle clusterwa…

spark standalone集群部署实践记录

本文记录了一次搭建spark-standalone模式集群的过程,我准备了3个虚拟机服务器,三个centos系统的虚拟机. 环境准备: -每台上安装java1.8 -以及scala2.11.x (x代表后面的版本随意) -以及spark2.2.0 注意:scala和spark的版本要匹配,可以查看spark安装目录下的scala包的版本号来找相应的scala包.java要安装1.8的不然会报错.任务提交时driver会和集群节点传输文件所以集群中各个节点要保存driver的ssh公钥. 以上软件…

Standalone集群搭建和Spark应用监控

注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6815920501530034696/ 承接上一篇文档<Spark词频前十的统计练习> Spark on standalone 类似于yarn的一个集群资源管理框架,spark自带的 yarn ResourceManager(进程) 管理和调度集群资源,主要包括:申请.调度.监控 NodeManager(进程) 管理当前节点的资源,以及启动container资源:CPU和内存(CPU决定快慢,内存决定生死) 注…

利用SparkLauncher 类以JAVA API 编程的方式提交Spark job

一.环境说明和使用软件的版本说明: hadoop-version:hadoop-2.9.0.tar.gz spark-version:spark-2.2.0-bin-hadoop2.7.tgz java-version:jdk1.8.0_151 集群环境:单机伪分布式环境. 二.适用背景在学习Spark过程中,资料中介绍的提交Spark Job的方式主要有两种(我所知道的):第一种是通过命令行的方式提交Job,使用spark 自带的spark-submit工具提交,官网和大多数参考资料都是已这…

以yarn-client方式提交spark任务，任务一直卡在ACCEPTED状态

问题背景 spark是以客户端的方式安装的,并没有启动spark的mesos集群,这时候的spark就相当与hive客户端. 以local模型和yarn-cluster方式提交任务,都能正确额执行,但是一yarn-client方式就卡在ACCEPTED 问题原因在网上查了资料,都说是资源不够用,需要调整yarn.scheduler.capacity.maximum-am-resource-percent从0.1改成0.5,但是我测试数据才几k,集群内存128G,所以我直接排除了这个原因后来想…

linux平台 spark standalone集群使用 start-all，stop-all 管理集群的启动和退出

一.配置/etc/profile: 文件尾部增加以下内容: export SPARK_HOME=/home/spark/spark-2.2.0-bin-hadoop2.7 export PATH=$PATH:${SPARK_HOME}/bin export SPARK_EXAMPLES_JAR=$SPARK_HOME/examples/jars/spark-examples_2.11-2.2.0.jar 二.配置spark环境变量在spark的conf文件夹中复制 spark-env.sh.t…

linux平台使用spark-submit以cluster模式提交spark应用到standalone集群

shell脚本如下 sparkHome=/home/spark/spark-2.2.0-bin-hadoop2.7 $sparkHome/bin/spark-submit \ --class streaming.SocketStream \ --master spark://CTUGT240X:6066 \ --deploy-mode cluster \ --supervise \ --executor-memory 4G \ --total-executor-cores 4 \ file://…

012 Spark在IDEA中打jar包，并在集群上运行（包括local模式，standalone模式，yarn模式的集群运行）

一:打包成jar 1.修改代码 2.使用maven打包但是目录中有中文,会出现打包错误 3.第二种方式 4.下一步 5.下一步 6.下一步 7.下一步 8.下一步 9.完成二:在集群上运行(local模式) 1.上传 2.学习spark-submit的使用方式 3.运行(local模式) 4.运行结果三:集群上运行(standalone模式) 1.DeoloyMode 表示Driver执行的位置. client如果是参数,则表示driver执行在执行spark-submit命令的机器上.…

二进制方式部署Kubernetes 1.6.0集群(开启TLS)

本节内容: Kubernetes简介环境信息创建TLS加密通信的证书和密钥下载和配置 kubectl(kubecontrol) 命令行工具创建 kubeconfig 文件创建高可用 etcd 集群部署 kubernetes master节点部署kubernetes node节点安装和配置 kube-dns 插件一.Kubernetes简介 Kubernetes是谷歌开源的容器集群管理系统,是Google多年大规模容器管理技术Borg的开源版本,主要功能包括: 基于容器的应用部…

Spark学习之路（二）Spark2.3 HA集群的分布式安装[转]

下载Spark安装包从官网下载 http://spark.apache.org/downloads.html 从微软的镜像站下载 http://mirrors.hust.edu.cn/apache/ 从清华的镜像站下载 https://mirrors.tuna.tsinghua.edu.cn/apache/ 安装基础 Java8安装成功 zookeeper安装成功 hadoop2.7.5 HA安装成功 Scala安装成功(不安装进程也可以启动) Spark安装过程上传并解压缩 [hadoop…

用更云原生的方式做诊断｜大规模 K8s 集群诊断利器深度解析

背景通常而言,集群的稳定性决定了一个平台的服务质量以及对外口碑,当一个平台管理了相当规模数量的 Kubernetes 集群之后,在稳定性这件事上也许会"稍显被动". 我们可能经常会遇到这样的场景:客户一个电话,火急火燎地说业务出现问题了,你们平台快帮忙查询一下是不是哪里出了问题呀?技术同学连忙放下手头工作,上去一通操作加安抚客户--看似专业且厉害,急用户之所急,细想之后实则无章无法,一地鸡毛. 通常我们依赖监控系统来提前发现问题,但是监控数据作为一个正向链路,很难覆盖到所有场景,经常…

在Windows 2008/2008 R2 上配置IIS 7.0/7.5 故障转移集群

本文主要是从:http://support.microsoft.com/kb/970759/zh-cn,直接转载,稍作修改裁剪而来,其中红色粗体部分,是我特别要说明的若要配置 IIS 7.0 和 7.5 Web 服务器使用故障转移群集的高可用性,请按照下列步骤.下面更详细地介绍步骤 3 到步骤 7.本文内下文中的示例脚本可以用作任务的示例 IIS 7.0. IIS 7.5 和 IIS 8.0. 其实应该还有DNS,AD,iscsi target 服务配置在所有群集节点上安装 Web 服务器…

(一) 从零开始搭建Spark Standalone集群环境搭建

本文主要讲解spark 环境的搭建主机配置 4核8线程,主频3.4G,16G内存虚拟环境: VMWare 虚拟环境系统:Ubuntu 14.10 虚拟机运行环境: jdk-1.7.0_79(64bit) hadoop-2.6.0.tar.gz scala-2.10.4.tar spark-1.5.0-bin -hadoop-2.6.0.tgz (一)样本虚拟机的搭建 1)虚拟机安装ubuntu,每个分配3G内存,完成后后输入如下命令来获得root权限: #sudo passwd 2)ubu…

spark、standalone集群（2）集群zookeeper 热备

测试 cmd spark-examples-1.6.0-hadoop2.6.0.jar spark 2.0以后就没有这个 jar.需要下载 ./bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://sparknode1:7077 ./lib/spark-examples-1.6.0-hadoop2.6.0.jar 10 ./bin/spark-shell --master spar…

Spark 论文篇-RDD：一种为内存化集群计算设计的容错抽象（中英双语）

论文内容: 待整理参考文献: Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing. Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, Ankur Dave, Justin Ma, Murphy McCauley, Michael J. Franklin, Scott Shenker, Ion Stoica. NS…

Cloudera Manager安装之利用parcels方式安装3或4节点集群（包含最新稳定版本或指定版本的安装）（添加服务）（CentOS6.5）（五）

参考博客 Cloudera Manager安装之利用parcels方式安装单节点集群 Cloudera Manager安装之Cloudera Manager 5.3.X安装(三)(tar方式.rpm方式和yum方式) ClouderManager官网的安装历史稳定版 https://www.cloudera.com/documentation/manager/5-1-x/Cloudera-Manager-Installation-Guide/cm5ig_install_older_cm5.ht…

在spark中启动standalone集群模式cluster问题

spark-submit --master spark://master:7077 --deploy-mode cluster --driver-cores 2 --driver-memory 100M --class org.apache.spark.examples.SparkPi /home/hadoop/hadoop_home/spark/examples/jars/spark-examples_2.11-2.3.1.jar 100 启动后发现在网页 master:8080 找不到完成后…

Windows平台，Oracle Database和Client并存方式

由于某些特定需求,生产环境需要在同一台机器上同时安装Database Server和Client,因为plsql没有64位客户端,无法读取64位database的oci.dll文件,所以需要一个32位的客户端,如果使用正常方式安装,则会出现环境变量混乱等各种不可控问题,我采用如下方式使Database Server和Client可以无影响的并存在一台服务器上.1 正常安装database2 随便找一台机器安装32位client3 将安装好的client目录整个拷贝到databa…

spark学习之路1--用IDEA编写第一个基于java的程序打包，放standalone集群，client和cluster模式上运行

1,首先确保hadoop和spark已经运行.(如果是基于yarn,hdfs的需要启动hadoop,否则hadoop不需要启动). 2.打开idea,创建maven工程.编辑pom.xml文件.增加dependency. <dependency>  <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifac…

spark、standalone集群（1）

1.配置 spark/apache/org 下载解压, 安装jdk1.8 2.准备服务器 3.设置hostname 4.关闭防火墙开启: service iptables start 关闭: service iptables stop 5.配置文件刚刚下载解压目录 /conf 复制2个文件修改文件 slaves. 修改spark-env.sh 6./sbin目录启动 ./start-all.sh 7.查看页面…

使用Docker方式创建3节点的Etcd集群

一.简要说明二.运行容器三.验证集群四.运行截图五.参考链接一.简要说明参考etcd官网文档, 在node1.node2.node3三个节点上,分别运行etcd容器,创建etcd集群,并通过另一台机器验证集群的可用性.集群信息如下: 机器名 IP地址角色 node1 192.168.3.161 etcd节点 node2 192.168.3.162 etcd节点 node3 192.1…

Spark2.x（五十九）：yarn-cluster模式提交Spark任务，如何关闭client进程?

问题: 最近现场反馈采用yarn-cluster方式提交spark application后,在提交节点机上依然会存在一个yarn的client进程不关闭,又由于spark application都是spark structured streaming程序(application常年累月的执行),最终导致spark application提交节点服务器资源被占满,当执行其他操作时,会出现以下错误: [dx@my-linux-01 bin]$ yarn logs -applicationId ap…

Spark集群-Standalone 模式

Spark 集群相关 table td{ width: 15% } 来源于官方, 可以理解为是官方译文, 外加一点自己的理解. 版本是2.4.4 本篇文章涉及到: 集群概述 master, worker, driver, executor的理解打包提交,发布 Spark application standalone模式 SparkCluster 启动及相关配置资源, executor分配开放网络端口高可用(Zookeeper) 名词解释 Term(术语) Meaning(含义) App…

spark 在yarn模式下提交作业

1.spark在yarn模式下提交作业需要启动hdfs集群和yarn,具体操作参照:hadoop 完全分布式集群搭建 2.spark需要配置yarn和hadoop的参数目录将spark/conf/目录下的spark-env.sh.template文件复制一份,加入配置: YARN_CONF_DIR=/opt/hadoop/hadoop-2.8.3/etc/hadoop HADOOP_CONF_DIR=/opt/hadoop/hadoop-2.8.3/etc/hadoop 3.将spark整个目…

【windows平台使用spark-submit以client方式提交spark应用到standalone集群】的更多相关文章