Spark的安装及其配置

1.Spark下载

https://archive.apache.org/dist/spark/

2.上传解压，配置环境变量配置bin目录

解压：tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C /usr/local/soft/

改名：mv spark-2.4.5-bin-hadoop2.7/ spark-2.4.5

配置环境变量：vim /etc/profile

添加环境变量：

export SPARK_HOME=/usr/local/soft/spark-2.4.5
export PATH=$PATH:$SPARK_HOME/bin

保存配置：source /etc/profile

3.修改配置文件 conf

修改spark-env.sh: cp spark-env.sh.template spark-env.sh

增加配置：

export SPARK_MASTER_IP=master
export SPARK_MASTER_PORT=7077

export SPARK_WORKER_CORES=2
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=2g
export JAVA_HOME=/usr/local/soft/jdk1.8.0_171

修改：cp slaves.template slaves

增加：

node1

node2

4.发放到其他节点

xsync spark-2.4.5

(xsync是自己写的脚本，在安装Hadoop的时候写过)

4、在主节点执行启动命令
启动集群，在master中执行
./sbin/start-all.sh

http://master:8080/ 访问spark ui

5.检验安装的Spark

1. standalone client模式日志在本地输出，一班用于上线前测试(bin/下执行)

需要进入到spark-examples_2.11-2.4.5.jar 包所在的目录下执行
cd /usr/local/soft/spark-2.4.5/examples/jars

spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 --executor-memory 512m --total-executor-cores 1 spark-examples_2.11-2.4.5.jar 100

2. standalone cluster模式上线使用，不会再本地打印日志
spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 --driver-memory 512m --deploy-mode cluster --supervise --executor-memory 512M --total-executor-cores 1 spark-examples_2.11-2.4.5.jar 100

spark-shell spark 提供的一个交互式的命令行，可以直接写代码

spark-shell master spark://master:7077

6.整合yarn

在公司一般不适用standalone模式，因为公司一般已经有yarn 不需要搞两个资源管理框架

停止spark集群
在spark sbin目录下执行 ./stop-all.sh

spark整合yarn只需要在一个节点整合, 可以删除node1 和node2中所有的spark 文件

1、增加hadoop 配置文件地址

vim spark-env.sh
增加
export HADOOP_CONF_DIR=/usr/local/soft/hadoop-2.7.6/etc/hadoop

2、往yarn提交任务需要增加两个配置 yarn-site.xml(/usr/local/soft/hadoop-2.7.6/etc/hadoop/yarn-site.xml)

先关闭yarn
stop-yarn.sh

<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>

<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>

4、同步到其他节点，重启yarn
scp -r yarn-site.xml node1:`pwd`
scp -r yarn-site.xml node2:`pwd`

启动yarn
start-yarn.sh

cd /usr/local/soft/spark-2.4.5/examples/jars

3.spark on yarn client模式日志在本地输出，一班用于上线前测试
spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client --executor-memory 512M --num-executors 2 spark-examples_2.11-2.4.5.jar 100

4.spark on yarn cluster模式上线使用，不会再本地打印日志减少io
spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster --executor-memory 512m --num-executors 2 --executor-cores 1 spark-examples_2.11-2.4.5.jar 100

获取yarn程序执行日志执行成功之后才能获取到
yarn logs -applicationId application_1560967444524_0003

hdfs webui
http://node1:50070

yarn ui
http://node1:8088

在idea中使用spark做wordCount

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object Demo1WordCount {

  def main(args: Array[String]): Unit = {

    // Spark配置文件对象

    val conf: SparkConf = new SparkConf()

    // 设置Spark程序的名字

    conf.setAppName("Demo1WordCount")

    // 设置运行模式为local模式 即在idea本地运行

    conf.setMaster("local")

    // Spark的上下文环境，相当于Spark的入口

    val sc: SparkContext = new SparkContext(conf)

    // 词频统计

    // 1、读取文件

    /**

     * RDD : 弹性分布式数据集（可以先当成scala中的集合去使用）

     */

    val linesRDD: RDD[String] = sc.textFile("spark/data/words")

    // 2、将每一行的单词切分出来

    // flatMap: 在Spark中称为 算子

    // 算子一般情况下都会返回另外一个新的RDD

    val wordsRDD: RDD[String] = linesRDD.flatMap(line => line.split(","))

    // 3、按照单词分组

    val groupRDD: RDD[(String, Iterable[String])] = wordsRDD.groupBy(word => word)

    // 4、统计每个单词的数量

    val countRDD: RDD[String] = groupRDD.map(kv => {

      val word: String = kv._1

      val words: Iterable[String] = kv._2

      // words.size直接获取迭代器的大小

      // 因为相同分组的所有的单词都会到迭代器中

      // 所以迭代器的大小就是单词的数量

      word + "," + words.size

    })

    // 5、将结果进行保存

    countRDD.saveAsTextFile("spark/data/wordCount")

  }

}

Spark的安装及其配置的更多相关文章

Spark的安装及配置
title: Spark的安装及配置 summary: 关键词:Hadoop集群环境 Spark scala python ubuntu 安装和配置 date: 2019-5-19 13:56 aut ...
Mac OSX系统中Hadoop / Hive 与 spark 的安装与配置环境搭建记录
Mac OSX系统中Hadoop / Hive 与 spark 的安装与配置环境搭建记录 Hadoop 2.6 的安装与配置(伪分布式) 下载并解压缩配置 .bash_profile : ...
Spark standlone安装与配置
spark的安装简单,去官网下载与集群hadoop版本相一致的文件即可. 解压后,主要需要修改spark-evn.sh文件. 以spark standlone为例,配置dn1,nn2为master,使 ...
Spark(三): 安装与配置
参见 HDP2.4安装(五):集群及组件安装 ,安装配置的spark版本为1.6, 在已安装HBase.hadoop集群的基础上通过 ambari 自动安装Spark集群,基于hadoop yarn ...
spark安装及配置
windows下spark的安装与配置教程 Windows下安装spark windows下搭建spark环境出现ChangeFileModeByMask error (3): ??????????? ...
spark HA 安装配置和使用（spark1.2-cdh5.3）
安装环境如下: 操作系统:CentOs 6.6 Hadoop 版本:CDH-5.3.0 Spark 版本:1.2 集群5个节点 node01~05 node01~03 为worker. node04. ...
Spark安装和配置
hadoop2的安装教程 Spark可以直接安装在hadoop2上面,主要是安装在hadoop2的yarn框架上面安装Spark之前需要在每台机器上安装Scala,根据你下载的Spark版本,选择对 ...
01、Spark安装与配置
01.Spark安装与配置 1.hadoop回顾 Hadoop是分布式计算引擎,含有四大模块,common.hdfs.mapreduce和yarn. 2.并发和并行并发通常指针对单个节点的应对多个请 ...
Spark集群安装与配置
一.Scala安装 1.https://www.scala-lang.org/download/2.11.12.html下载并复制到/home/jun下解压 [jun@master ~]$ cd sc ...

随机推荐

PHP统计当前网站的访问人数，访问信息，被多少次访问。
<?php header('Content-type:text/html;charset=utf-8'); //统计流量(人数,访问次数,用户IP) //假设用户访问,得到IP地址 $remo ...
thinkphp5自带workerman应用
1.在vendor/workerman/文件夹下建立server.php文件,内容如下: <?php use Workerman\Worker; require_once __DIR__ . ' ...
[转载]CentOS 7 创建本地YUM源
本文中的"本地YUM源"包括三种类型:一是直接使用CentOS光盘作为本地yum源,优点是简单便捷,缺点是光盘软件包可能不完整(centos 7 Everything 总共才6.5 ...
Windows命令行在任意位置启动和退出nginx
写在前面本文给出Windows系统中能在任意路径下通过命令行启动和退出nginx的方法.不想看过程的读者可以直接跳转到结论,一样能解决问题. 正文过程很多Windows下的nginx教程都教我们 ...
P1712-[NOI2016]区间【线段树,尺取法】
正题题目链接:https://www.luogu.com.cn/problem/P1712 题目大意 $n$个区间,求出其中$m$个区间使得它们有覆盖同一个点且最长区间长度减去最短长度最小. ...
iptables配置操作
1.防火墙添加配置规则(正向) vim /etc/sysconfig/iptables 指定服务器的ip访问内访问某个端口 -A INPUT -p tcp -m iprange --src-range ...
3DGIS开发使用的开源项目
gdal proj4 vcglib assimp libjpg libpng osg libtess2 cesiumjs glm
海信A6/A6L A7Pro/CC A5PRO/A5PRO CC 安装gms google service指南
用过海信双面屏或者eink手机的朋友都知道,海信手机就是死活安装不了谷歌全家桶,因为海信的领导说跟谷歌有协议不能安装谷歌框架(还说后期google审核坚决不给安装,人家其他ov mui都可以安装).不 ...
pg_basebackup报错： pg_basebackup: incompatible server version 12.4
pg_basebackup报错今日从库复制主库data时,发现pg_basebackup无法使用,详情如下: 错误为:incompatible server version 12.4 [postgr ...
在hive中使用COALESCE进行空值处理
COALESCE (expression_1, expression_2, ...,expression_n)依次参考各参数表达式,遇到非null值即停止并返回该值.如果所有的表达式都是空值,最终将返 ...

Spark的安装及其配置

Spark的安装及其配置的更多相关文章

随机推荐

热门专题