Spark集群

0.0体验安装Spark在集群单节点

1.tar

	tar -xzvf xxx.tgz -C /soft/

	ln -s /soft/spark-2.1.0-bin-hadoop2.7 /soft/spark

2.配置环境变量

	SPARK_HOME=/soft/spark

	PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH

3.启动spark shell

RDD:

	Resilient Distributed dataset , 弹性分布式数据集。List

使用spark实现wordcount:

  //分步实现

  val rdd1 = sc.textFile("file:///home/centos/1.txt");

  val rdd2 = rdd1.flatMap(line=>{line.split(" ")})

  val rdd3 = rdd2.map(word=>{(word , 1)})

  val rdd4 = rdd3.reduceByKey((a:Int,b:Int)=>{a + b})

  rdd4.collect()

  //一步完成(reduceByKey)

  sc.textFile("file:///home/centos/1.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect()

  //一步完成(groupByKey)

  sc.textFile("file:///home/centos/1.txt").flatMap(_.split(" ")).map((_,1)).groupByKey().mapValues(_.size).collect()

===========================================

Spark集群分类

    1.local

		使用一个jvm模拟spark集群

    2.standalone

		启动master + worker进程

	3.mesos

		--

	4.yarn

		spark on yarn , 在yarn执行spark的job。根本不需要spark集群。

        spark只是一个hadoop的job。

2."standalone"模式spark集群

2.1（安装+standalone）

1.规划

	s201 ~ s204

	s201			//master(进程)

	s202 ~ s204		//worker(进程)

2.在每个主机上分别安装spark

3.配置spark(每个节点进行相同操作)

	3.1)在spark的conf目录下创建hadoop的core-site.xml和hdfs-site.xml软连接

		$>xcall.sh ln -s /soft/hadoop/etc/hadoop/core-site.xml /soft/spark/conf/core-site.xml

		$>xcall.sh ln -s /soft/hadoop/etc/hadoop/hdfs-site.xml /soft/spark/conf/hdfs-site.xml

	3.2)配置JAVA_HOME环境变量

		$>cd /soft/spark/conf

		$>cp spark-env.sh.template spark-env.sh

		$>nano spark-env.sh

			...

			export JAVA_HOME=/soft/jdk

			...

	3.3)修改slaves文件

		$>cd /soft/spark/conf

		$>cp slaves.template slaves

		$>nano slaves

		s202

		s203

		s204

	3.4)分发配置文件

		$>xsync.sh spark-env.sh

		$>xsync.sh slaves

4.启动spark集群

	4.1)启动hadoop集群

		xzk.sh start		//启动zk

		start-dfs.sh		//启动hdfs

	4.2)启动spark（standalone模式）

		$>cd /soft/spark/sbin

		//

		$>./start-all.sh

5.webui

	http://s201:8080

6.启动spark shell，连接到spark集群

	$>spark-shell --master spark://s201:7077

	$>sc.textFile("/user/centos/data/1.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect()

2.2导出idea下的项目成为jar包，部署到spark集群上运行

1.修正代码

	if (args == null || args.length == 0) {

		throw new Exception("需要指定文件路径") ;

	}

	SparkConf conf = new SparkConf();

	conf.setAppName("tagTenJava");

	//conf.setMaster("local");

2.导出jar，添加依赖的第三方类库

	导入第三方依赖的库.

3.传输到centos

4.使用spark-submit提交应用

	spark-submit --class TaggenScala1 --master spark://s201:7077 myspark.jar /user/centos/data/tags.txt

	spark-submit --class com.p2p.spark.mr.TaggenJava2 --master spark://s201:7077 myspark.jar /user/centos/data/tags.txt

spark下运行job，使用第三方的jar的方式

1.将第三方jar分发到所有的spark/jars下

2.将第三方jar打散，和我们自己的jar打到一起。

3.在spark-submit命令中，通过--jars指定使用的第三方jar包

使用spark-shell执行taggen

    1.启动spark-shell，指定fastjson类库。

        定位到fastjson jar文件

        C:\Users\Administrator\.m2\repository\com\alibaba\fastjson\1.2.24\fastjson-1.2.24.jar

    2.启动spark-shell

        $>spark-shell --master spark://s201:7077 --jars /home/centos/fastjson-1.2.24.jar

    3.查看webui

        http://s201:8080/

    4.

    5.

Spark job部署模式 --deploy-mode client VS cluster

spark job的部署有两种模式，client和cluster

spark-submit .. --deploy-mode client | cluster

1.client

	默认值，driver运行在client端主机上。

	spark-submit --class com.p2p.spark.mr.TaggenJava2 --master spark://s201:7077  hdfs://s201/user/centos/data/myspark.jar /user/centos/data/tags.txt

2.cluster

	driver运行在某个worker节点上。客户端值负责提交job。

	$>spark-submit --class com.p2p.spark.mr.TaggenJava2 --master spark://s201:7077 --deploy-mode cluster hdfs://s201/user/centos/data/myspark.jar /user/centos/data/tags.txt

3.spark集群模式之yarn

3.1部署集群：

1.停止spark集群

2.启动yarn集群

3.配置HADOOP_CONF_DIR环境变量

    	[spark-env.sh]

    	...

    	 export HADOOP_CONF_DIR=/soft/hadoop/etc/hadoop

4.启动shell,使用yarn的方式启动

    	 spark-shell --master yarn --num-executors 4 --executor-cores 5 --executor-	memory 1g

5.配置spark归档文件，避免每次spark on yarn重新上传spark资源文件。

    5.1)上传zip文件到hdfs

           hdfs dfs -put __spark_libs__385163057195536794.zip data

        5.2)配置conf/spark-defaults.conf

    	    spark.yarn.archive hdfs://mycluster/user/centos/data/__spark_libs.zip

	    #spark.dynamicAllocation.enabled true

	    #spark.shuffle.service.enabled true

3.2故障

1.虚拟内存超限

	[yarn-site.xml]

	<property>

		<name>yarn.nodemanager.vmem-check-enabled</name>

		<value>false</value>

    </property>

3.3使用spark on yarn client 模式运行气温数据

spark-submit --master yarn --deploy-mode client --class TempAggDemoScala_GroupByKey myspark.jar

3.4sparktask、线程、executor之间的关系

spark.task.cpus 2		//每个task分配的core数，默认1

--executor-cores 5		//每个执行器占用的core数.

--num-executors	2		//yarn模式指定执行器个数

solt					//槽位，本质上对应一个线程，slot数指job最大的并发度。

						//最发并发度是job同时启动的线程数。 = executors个数 * 每个执行内核数 / 每个task占用内核数。

-- 配置方式 , 开启4个线程，

spark-shell --master yarn --deploy-mode client --executor-cores 5 --num-executors 2 --conf spark.task.cpus=2

$scala>sc.makeRDD(1 to 5 , 5).map(e=>{sendInfo(this , "map" , e+ "") ; e * 2}).collect

Spark1的更多相关文章

centos+scala2.11.4+hadoop2.3+spark1.3.1环境搭建
一.Java安装 1.安装包准备: 首先到官网下载jdk,http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads- ...
spark1.4.1 启动过程
今天稍微没那么忙了,趁着这个时间,准备把spark的启动过程总结一下(),分享给大家.现在使用的spark1.4.1版本当然前提是你已经把spark环境搭建好了. 1.我们启动spark的时候一般会 ...
Spark-1.5.1 on CDH-5.4.7
1.修改拷贝/root/spark-1.5.1-bin-hadoop2.6/conf下面spark-env.sh.template到spark-env.sh,并添加设置HADOOP_CONF_DIR: ...
Mac 配置Spark环境scala+python版本（Spark1.6.0）
1. 从官网下载Spark安装包,解压到自己的安装目录下(默认已经安装好JDK,JDK安装可自行查找): spark官网:http://spark.apache.org/downloads.html ...
spark1.3编译过程中遇到的一个坑
在编译spark1.3.0时: export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m&q ...
hadoop 2.7.2 和 spark1.6 多节点安装
一共三个节点,在安装完hadoop之后直接安装spark.下载的spark版本是不带hadoop的,注意节点配置 Hadoop multi-nodes Installation Environment ...
CentOS7+hadoop2.6.4+spark-1.6.1
环境: CentOS7 hadoop2.6.4已安装两个节点:master.slave1 过程: 把下载的scala.spark压缩包拷贝到/usr/hadoop-2.6.4/thirdparty目录 ...
Spark1.6.2 java实现读取txt文件插入MySql数据库代码
package com.gosun.spark1; import java.util.ArrayList;import java.util.List;import java.util.Properti ...
基于Spark1.3.0的Spark sql三个核心部分
基于Spark1.3.0的Spark sql三个核心部分: 1.可以架子啊各种结构化数据源(JSON,Hive,and Parquet) 2.可以让你通过SQL,saprk内部程序或者外部攻击,通过标 ...
spark1.5 scala.collection.mutable.WrappedArray$ofRef cannot be cast to ...解决办法
下面是我在spark user list的求助贴,很快就得到了正确回答,有遇到问题的同学解决不了也可以去上面提问. I can use it under spark1.4.1,but error on ...

随机推荐

乐字节Java循环：循环控制和嵌套循环
乐字节小乐上次讲完了Java反射,接下来小乐给大家讲述Java循环. 循环有以下四部分: 一.循环控制 1. do..while 直到型 ( 先执行后判断) ,结构为: 先执行循环体,后判断布尔表达式 ...
Python基础——matplotlib库的使用与绘图可视化
1.matplotlib库简介: Matplotlib 是一个 Python 的 2D绘图库,开发者可以便捷地生成绘图,直方图,功率谱,条形图,散点图等. 2.Matplotlib 库使用: 注:由于 ...
[CF37D]Lesson Timetable_动态规划
Lesson Timetable 题目链接:https://www.codeforces.com/contest/37/problem/D 数据范围:略. 题解: 根本就没想到可以动态规划. 首先从前 ...
django授权-01--oauth2
oauth2的提供商:认证服务器 oauth2的消费者:目标服务器如果目标服务器与认证服务器不一样的话,相当于目标服务器向认证服务器获取用户的信息如果目标服务器和认证服务器一样的话,相当于用户获取 ...
【坑】使用IDEA创建maven的时候，提示缺少plugin-clean 等
解决方法检查你的网络,能否访问 maven 中央仓库 : 在 IDEA 中是否对 maven 进行了配置 IDEA 默认使用的仓库和配置文件,都是 .m2 下面的: 如果你自己对 maven ...
C++中静态成员函数和普通成员函数存储方式相同
先从一个示例查看类的创建过程中,静态成员函数和普通成员函数的存储区别. #include "stdafx.h" #include<iostream> #include& ...
FishingMaster(HDU-6709)【贪心】
题目链接:https://vjudge.net/problem/HDU-6709 题意:一个人要抓n条鱼,每抓一条鱼用时K,每烹饪一条鱼用时a[i],抓鱼的过程不能被打断,烹饪鱼的时候可以抓鱼,也可以 ...
部署java应用的几种方式
J2EE应用该应用根目录下有好多文件夹和以jsp结尾的文件部署时,需要在tomcat的conf目录下的server.xml文件中添加上<Context path="/" ...
谷歌(google)广告尺寸大小列表
在平时做网页模板时,我们需要计算Google AdSense 的尺寸,以确保它能和页面完美的结合,提高AdSense的点击率,进台后看又很麻烦,下面整理了Google 广告的各种尺寸,跟大家分享一下. ...
Go 标准库，常用的包及功能
Go 的标准库 Go语言的标准库覆盖网络.系统.加密.编码.图形等各个方面,可以直接使用标准库的 http 包进行 HTTP 协议的收发处理:网络库基于高性能的操作系统通信模型(Linux 的 epo ...

Spark1

Spark集群

0.0体验安装Spark在集群单节点

===========================================

Spark集群分类

2."standalone"模式spark集群

2.1（安装+standalone）

2.2导出idea下的项目成为jar包，部署到spark集群上运行

spark下运行job，使用第三方的jar的方式

使用spark-shell执行taggen

Spark job部署模式 --deploy-mode client VS cluster

3.spark集群模式之yarn

3.1部署集群：

3.2故障

3.3使用spark on yarn client 模式运行气温数据

3.4sparktask、线程、executor之间的关系

Spark1的更多相关文章

随机推荐

热门专题