一、spark启动有standalong、yarn、cluster,具体的他们之间的区别这里不在赘述,请参考官网。本文采用的是standalong模式进行搭建及将接使用。

1、首先去官网下载需要的spark版本:

http://spark.apache.org/downloads.html

本例使用的是spark-2.2.0-bin-hadoop2.7,hadoop使用的是2.7版本,spark是需要scala环境的,可以下载编译好的spark,这样就不需要自己在安装了。

同时使用了hive仓库,还有kafka。hive版本:apache-hive-2.1.1-bin,(下载地址 http://mirrors.shuosc.org/apache/hive/)

kafka版本:kafka_2.11-0.11.0.1(下载地址  http://mirrors.shuosc.org/apache/kafka/0.11.0.1/kafka_2.11-0.11.0.1.tgz)

上述版本要搭配好,否则运行过程会报错。

2、搭建spark的standalong集群

1)将下载好的包上传到服务器上面,创建好一个目录用于安装,安装spark集群需要用到hdfs集群做存储,所以要先搭建hadoop集群,主要使用hdfs文件系统。

#mkdir /data

分别将包解压到data目录下面,然后就是设置环境变量:

# cat  /etc/profile

export HADOOP_HOME=/data/hadoop-2.7.3/
export PATH=$PATH:$HADOOP_HOME/bin:/data/apache-hive-2.1.1-bin/bin
JAVA_HOME=/usr/local/java
JRE_HOME=/usr/local/java/jre
JAVA_BIN=/usr/local/java/bin
JRE_BIN=$JRE_HOME/bin
PATH=$PATH:$JAVA_BIN:$JRE_BIN
CLASSPATH=$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export JAVA_HOME JRE_HOME JRE_BIN JAVA_BIN PATH CLASSPATH
export KE_HOME=/data/kafka-eagle
export PATH=$PATH:$KE_HOME/bin
export HIVE_AUX_JARS_PATH=/data/apache-hive-2.1.1-bin/lib

2)java环境要设置好,jdk1.8+。

接下来就是修改配置文件:

!hadoop参考我的其他文章(http://www.cnblogs.com/cuishuai/p/7496228.html),这里主要不一样的就是修改/etc/hosts文件将所有节点的ip和主机名的映射添加进去。然后修改$HADOOP/etc/hadoop目录下的slaves文件,将所有节点的主机名添加进来,所有的配置文件都用主节点上的。

!所有的数据目录都要创建好,主要在$HADOOP目录下创建一个hdfs目录,并在改目录下创建两个子目录分别为data、name

!启动集群

只在master节点上执行:

如果所有节点都是新的,需要先对namenode进行初始化:

$HADOOP/bin/hdfs  namenode  -format

$HADOOP/sbin/start-dfs.sh

$HADOOP/sbin/start-yarn.sh

#注:如果只是单纯的想要扩展hdfs的容量,那么在hdfs-site.xml里的:

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

将上面的值设置为1,表示只有一个副本,也就是不备份。如果想要进行备份,就要设置为2或想要的值。

master节点上启动后使用jps命令查看:

其他slave节点上查看:

[root@spark-worker ~]# jps
17363 DataNode
17660 NodeManager
26350 Jps

hadoop集群搭建完成,查看一下大小:

[root@spark-worker ~]# hdfs dfs -df -h
Filesystem          Size     Used  Available  Use%
hdfs://spark:9000  1.3 T  456.4 G    794.2 G   35%

其他hdfs常用的命令,参考我的其他文章。

3)接下来大搭建spark集群:

修改conf文件夹下的如下文件:

!#cp   spark-env.sh.template   spark-env.sh

export PYTHONPATH=$PYTHONPATH:/data/sftp/huoqiu/script
export SPARK_DRIVER_MEMORY=10g
export SPARK_LOCAL_DIRS=/data/sparktmp
export JAVA_HOME=/usr/local/java
export SPARK_WORKER_MEMORY=55g
export SPARK_WORKER_OPTS="-Dspark.worker.cleanup.enabled=true -Dspark.worker.cleanup.interval=1800 -Dspark.worker.cleanup.appDataTtl=3600"
export SPARK_PID_DIR=/tmp

#设置spark 数据临时存放目录,一定要放在法存储的地方,否则数据量太大会报错。
export SPARK_LOCAL_DIRS=/data/sparktmp

!#cp   spark-defaults.conf.template   spark-defaults.conf

export PYTHONPATH=$PYTHONPATH:/data/sftp/huoqiu/script
export SPARK_DRIVER_MEMORY=10g
export SPARK_LOCAL_DIRS=/data/sparktmp
export JAVA_HOME=/usr/local/java
export SPARK_WORKER_MEMORY=55g
export SPARK_WORKER_OPTS="-Dspark.worker.cleanup.enabled=true -Dspark.worker.cleanup.interval=1800 -Dspark.worker.cleanup.appDataTtl=3600"
export SPARK_PID_DIR=/tmp
[root@spark-worker conf]# cat spark-defaults.conf
spark.driver.extraClassPath /data/bigdata/mongo-hadoop-spark-2.0.2.jar:/root/elasticsearch-hadoop-6.0.0-beta1.jar:/data/bigdata/mysql-connector-java-5.1.43-bin.jar:/data/bigdata/spark-streaming-kafka-0-8-assembly_2.11-2.2.0.jar
spark.jars /data/bigdata/mongo-hadoop-spark-2.0.2.jar,/data/bigdata/spark-streaming-kafka-0-8-assembly_2.11-2.2.0.jar,/root/elasticsearch-hadoop-6.0.0-beta1.jar
spark.hadoop.validateOutputSpecs false
spark.ui.reverseProxyUrl http://spark.evo.xinpinget.com
spark.ui.reverseProxy true
spark.executor.memory 2g
spark.eventLog.dir /data/spark-events
spark.history.fs.logDirectory file:/data/spark-events
spark.eventLog.enabled true
spark.executor.cores 2
spark.cores.max 14
spark.driver.maxResultSize 5g
spark.driver.memory 10g
spark.driver.extraJavaOptions -Duser.timezone="Asia/Shanghai"
spark.es.nodes.discovery false
spark.es.nodes.data.only false
spark.es.nodes.wan.only false
spark.history.fs.cleaner.enabled true
spark.yarn.historyServer.address=127.0.0.1:18080
spark.history.ui.port=18080
spark.history.fs.cleaner.maxAge 7d
spark.history.fs.numReplayThreads 40%
spark.history.retainedApplications 50
spark.history.fs.update.interval 15s
spark.scheduler.mode FAIR
spark.scheduler.allocation.file /data/spark-2.2.0-bin-hadoop2.7/conf/fairscheduler.xml

!将mysql-connector-java-8.0.9-rc.jar放到spark的jars目录下面:

下载地址:http://central.maven.org/maven2/mysql/mysql-connector-java/8.0.9-rc/mysql-connector-java-8.0.9-rc.jar

!cat  hive-site.xml

<configuration>
 <property>
      <name>hive.server2.thrift.bind.host</name>
      <value>0.0.0.0</value>
      <description>metadata is stored in a MySQL server</description>
   </property>
 <property>
      <name>javax.jdo.option.ConnectionURL</name>
      <value>jdbc:mysql://spark:3306/metastore?createDatabaseIfNotExist=true&amp;useSSL=false</value>
      <description>metadata is stored in a MySQL server</description>
   </property>
   <property>
      <name>javax.jdo.option.ConnectionDriverName</name>
      <value>com.mysql.cj.jdbc.Driver</value>
      <description>MySQL JDBC driver class</description>
   </property>
   <property>
      <name>javax.jdo.option.ConnectionUserName</name>
      <value>root</value>
      <description>user name for connecting to mysql server</description>
   </property>
   <property>
      <name>javax.jdo.option.ConnectionPassword</name>
      <value>1qaz*@WSX</value>
      <description>password for connecting to mysql server</description>
   </property>
   <property>
         <name>hive.metastore.warehouse.dir</name>
         <value>hdfs://spark:9000/data/metastore/</value>
             <description>location of default database for the warehouse</description>
         </property>
<property>
  <name>fs.default.name</name>
  <value>hdfs://spark:9000</value>
</property>
    <property>
        <name>bson.output.build_splits</name>
        <value>false</value>
     </property>
     <property>
        <name>bson.split.write_splits</name>
        <value>false</value>
     </property>
     <property>
        <name>bson.split.read_splits</name>
        <value>false</value>
     </property>
     <property>
        <name>hive.cli.print.header</name>
        <value>true</value>
     </property>
     <property>
        <name>mapred.reduce.child.java.opts</name>
        <value>-Xmx2g</value>
     </property>
 <property>
      <name>hive.exec.parallel</name>
      <value>false</value>
   </property>
 <property>
      <name>hive.support.sql11.reserved.keywords</name>
      <value>false</value>
   </property>

<property>

<name>hive.metastore.schema.verification</name>

<value>false</value>

</property>

</configuration>

1)       在HDFS上创建目录

构建集群还需要一个slaves文件:

cp slaves.template  slaves

cat  slaves

spark-worker
spark

将原有的slaves里面localhost注释掉。

将上述的服务分别copy到其他服务器上。

2)  启动spark

到sbin目录下:

# ./start-all.sh

!!!可以访问如下地址:

http://ip:8080

此时使用jps在master上查看:

[root@spark conf]# jps
26912 Kafka
16577 ConsoleConsumer
26401 Jps
11363 jar
31013 HistoryServer
24232 ConsoleProducer
26602 CoarseGrainedExecutorBackend
24810 NodeManager
26443 SparkSubmit
17166 Master
21811 SparkSubmit
23220 NameNode
23479 DataNode
24569 ConsoleConsumer
25945 QuorumPeerMain
17468 Worker
24349 ResourceManager

其他节点上:

[root@spark-worker ~]# jps
1601 CoarseGrainedExecutorBackend
2226 Jps
17363 DataNode
16172 Worker
17660 NodeManager

至此spark集群搭建完毕。

spark集群构建的更多相关文章

  1. 学习Hadoop+Spark大数据巨量分析与机器学习整合开发-windows利用虚拟机实现模拟多节点集群构建

    记录学习<Hadoop+Spark大数据巨量分析与机器学习整合开发>这本书. 第五章 Hadoop Multi Node Cluster windows利用虚拟机实现模拟多节点集群构建 5 ...

  2. Spark集群 + Akka + Kafka + Scala 开发(3) : 开发一个Akka + Spark的应用

    前言 在Spark集群 + Akka + Kafka + Scala 开发(1) : 配置开发环境中,我们已经部署好了一个Spark的开发环境. 在Spark集群 + Akka + Kafka + S ...

  3. Spark集群 + Akka + Kafka + Scala 开发(2) : 开发一个Spark应用

    前言 在Spark集群 + Akka + Kafka + Scala 开发(1) : 配置开发环境,我们已经部署好了一个Spark的开发环境. 本文的目标是写一个Spark应用,并可以在集群中测试. ...

  4. Spark集群 + Akka + Kafka + Scala 开发(4) : 开发一个Kafka + Spark的应用

    前言 在Spark集群 + Akka + Kafka + Scala 开发(1) : 配置开发环境中,我们已经部署好了一个Spark的开发环境. 在Spark集群 + Akka + Kafka + S ...

  5. Spark系列—01 Spark集群的安装

    一.概述 关于Spark是什么.为什么学习Spark等等,在这就不说了,直接看这个:http://spark.apache.org, 我就直接说一下Spark的一些优势: 1.快 与Hadoop的Ma ...

  6. Spark集群模式概述

    作者:foreyou出处:http://www.foreyou.net/2015/06/22/spark-cluster-mode-overview/声明:本文采用以下协议进行授权: 署名-非商用|C ...

  7. zhihu spark集群,书籍,论文

    spark集群中的节点可以只处理自身独立数据库里的数据,然后汇总吗? 修改 我将spark搭建在两台机器上,其中一台既是master又是slave,另一台是slave,两台机器上均装有独立的mongo ...

  8. Spark集群术语

    Spark集群术语解析 1. Application Application是用户在Spark上构建(编写)的程序,包含driver program 和executors(分布在集群中多个节点上运行的 ...

  9. Spark集群模式&Spark程序提交

    Spark集群模式&Spark程序提交 1. 集群管理器 Spark当前支持三种集群管理方式 Standalone-Spark自带的一种集群管理方式,易于构建集群. Apache Mesos- ...

随机推荐

  1. Alwayson 基本概念

    1. AD域服务: 存储目录数据并管理用户与域之间的通信,包括用户登录处理.身份验证和目录搜索. 2. AD林:林是域的最大组织单元,一个林可以包括一个或多个域.林中的域之间相互信任(默认). 3. ...

  2. ABP框架入门踩坑-配置User Secrets

    配置User Secrets ABP踩坑记录-目录 起因 因为以往习惯在User Secrets中保存连接字符串之类信息,但当我把连接字符串移到secrets.json中后,却发现在迁移过程中会报如下 ...

  3. c# 判断当前时间是否在某一时间段内

    //获取当前系统时间并判断是否为服务时间 TimeSpan nowDt = DateTime.Now.TimeOfDay; TimeSpan workStartDT = DateTime.Parse( ...

  4. UWP开发入门(九)——简单界面的布局技巧及屏幕适应

    嘿嘿嘿,题目比较绕哈.本篇主要讨论一般情况下,页面的布局技巧,怎么将元素的展现尽量做到分辨率无关.基本的思路仍然是尽量少的标定具体的数字,而是用比列来标注各元素占据的空间. 这里我打算用易信的名片页来 ...

  5. c# 合并重叠时间段的算法

    c# 合并重叠时间段的算法 一.采用非排序: 方案一: 使用递归算法,如不喜欢递归的伙伴们,可以使用whie代替. 1.文件:Extract_Chao.cs(核心) using System; usi ...

  6. Android - "已安装了存在签名冲突的同名数据包",解决方法!

    错误提示:已安装了存在签名冲突的同名数据包. 解决方法:打开Android Studio,打开logcat,用usb线连接你出错的手机,识别出手机之后,在你的项目后面,点击“run”按钮,随后AS会提 ...

  7. dfs找負環

    某些無良出題人可能會卡bfs找負環,所以要用dfs 核心代碼(以jzoj5173為例): #include<bits/stdc++.h> using namespace std; #def ...

  8. poj1269---直线位置关系

    题目大意:给你8个点,也就是两条直线,让你判断他们的位置关系 代码如下: #include <iostream> #include<cstdio> #include<cm ...

  9. mariadb审计日志通过 logstash导入 hive

    我们使用的 mariadb, 用的这个审计工具 https://mariadb.com/kb/en/library/mariadb-audit-plugin/ 这个工具一点都不考虑后期对数据的处理, ...

  10. DCL,即Double Check Lock,中卫双重检查锁定。

    DCL,即Double Check Lock,中卫双重检查锁定. [Java并发编程]之十六:深入Java内存模型——happen-before规则及其对DCL的分析(含代码) 关于单例.关于DCL: ...