Spark新手入门——3.Spark集群(standalone模式)安装

主要包括以下三部分，本文为第三部分：

一. Scala环境准备查看
二. Hadoop集群(伪分布模式)安装查看
三. Spark集群(standalone模式)安装

Spark集群(standalone模式)安装

若使用spark对本地文件进行测试学习，可以不用安装上面的hadoop环境，若要结合hdfs使用spark，则可以参考上面的步骤搭建hadoop。

1. 下载安装包并解压(如：~/tools/spark-2.3.1-bin-hadoop2.7)；

2. 启动服务
a.启动master

./sbin/start-master.sh

b.启动slaves
　　可先登陆 http://localhost:8080/ ，获取“Spark URL”

./sbin/start-slave.sh <spark://xxxx-xxx:7077>

3. 开发测试程序
下面开发一个超级简单的rdd任务，逻辑(统计hdfs文件中包含单词form的行及行数，并将结果保存到hdfs)参考官网。

a. 使用第一讲中准备好的Scala环境，创建一个scala maven project：mvn-rdd-test

b. 编写代码

package com.person.test

import org.apache.spark.{SparkConf,SparkContext}

  object MvnRddTest {

    def main(args: Array[String]): Unit = {

      val dataPath = "hdfs://localhost:9000/usr/test/LICENSE.txt"

      val resultPath = "hdfs://localhost:9000/usr/test/result"
      val sc = new SparkContext(new SparkConf().setAppName("Mvn-Rdd-Test"))
      try{

       val accm = sc.longAccumulator("LineAccumulator")

       val rdd = sc.textFile(dataPath,2)

       val sparkDs = rdd.filter(

         line => if(line.contains("form")){

           accm.add(1)

           true

         } else false

       )

       sparkDs.saveAsTextFile(resultPath)

       println(s"Lines that contains 'form' number is: ${accm.value}")

     }catch {

       case e:Exception => e.printStackTrace()

     }finally {

       sc.stop()

     }

   }

}

注：运行该示例需要上传一份文件到(二)的hdfs中，例中的LICENSE.txt来自hadoop安装包。

c. 打含依赖项的jar包
pom.xml配置：

    <groupId>com.person.test</groupId>

    <artifactId>mvn-rdd-test</artifactId>

    <version>1.0-SNAPSHOT</version>

    <dependencies>

        <!-- spark core -->

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-core_2.11</artifactId>

            <version>2.3.1</version>

        </dependency>

        <!-- hdfs tool -->

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-client</artifactId>

            <version>2.7.0</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-assembly</artifactId>

            <version>0.8.0-SNAPSHOT</version>

        </dependency>

    </dependencies>

    <build>

        <plugins>

            <!-- build java -->

            <plugin>

                <groupId>org.apache.maven.plugins</groupId>

                <artifactId>maven-assembly-plugin</artifactId>

                <version>2.5.5</version>

                <configuration>

                    <archive>

                        <manifest>

                            <mainClass>com.person.test.MvnRddTest</mainClass>

                        </manifest>

                    </archive>

                    <descriptorRefs>

                        <descriptorRef>jar-with-dependencies</descriptorRef>

                    </descriptorRefs>

                </configuration>

                <executions>

                    <execution>

                        <id>make-assembly</id>

                        <phase>package</phase>

                        <goals>

                            <goal>single</goal>

                        </goals>

                    </execution>

                </executions>

            </plugin>

            <!-- build scala -->

            <plugin>

                <groupId>org.scala-tools</groupId>

                <artifactId>maven-scala-plugin</artifactId>

                <version>2.15.2</version>

                <executions>

                    <execution>

                        <goals>

                            <goal>compile</goal>

                            <goal>testCompile</goal>

                        </goals>

                    </execution>

                </executions>

            </plugin>

        </plugins>

    </build>

双击Maven Projects-->mvn-rdd-test-->Lifecycle-->package即可完成打包，“mvn-rdd-test-1.0-SNAPSHOT-jar-with-dependencies.jar”即为包含依赖项的包。
注：pom中引入的这两个build插件是必须的，分别用于build java和scala。

d. 测试：

./bin/spark-submit --master spark://xxxx-xxx:7077 --class com.person.test.MvnRddTest ~/Document/IdeaProjects/mvn-rdd-test/target/mvn-rdd-test-1.0-SNAPSHOT-jar-with-dependencies.jar

可以到hdfs上查看运行结果，终端会打印计数器的值。

注意：使用maven打包，不要使用Build Artifacts方式打包。

参考资料：官方文档

后续会陆续更新Spark RDD、Spark DataSet、Spark Streaming的用法；

-->Spark提高篇

Spark新手入门——3.Spark集群(standalone模式)安装的更多相关文章

Spark新手入门——2.Hadoop集群(伪分布模式)安装
主要包括以下三部分,本文为第二部分: 一. Scala环境准备查看二. Hadoop集群(伪分布模式)安装三. Spark集群(standalone模式)安装查看 Hadoop集群(伪分布模式 ...
Spark集群-Standalone 模式
Spark 集群相关 table td{ width: 15% } 来源于官方, 可以理解为是官方译文, 外加一点自己的理解. 版本是2.4.4 本篇文章涉及到: 集群概述 master, worke ...
spark之scala程序开发(集群运行模式)：单词出现次数统计
准备工作: 将运行Scala-Eclipse的机器节点(CloudDeskTop)内存调整至4G,因为需要在该节点上跑本地(local)Spark程序,本地Spark程序会启动Worker进程耗用大量 ...
Spark新手入门——1.Scala环境准备
主要包括以下三部分,本文为第一部分: 一. Scala环境准备二. Hadoop集群(伪分布模式)安装查看三. Spark集群(standalone模式)安装查看因Spark任务大多由Sca ...
[转] Spark快速入门指南 – Spark安装与基础使用
[From] https://blog.csdn.net/w405722907/article/details/77943331 Spark快速入门指南 – Spark安装与基础使用 2017年09月 ...
K8S入门系列之集群二进制部署-->master篇(二)
组件版本和配置策略组件版本 Kubernetes 1.16.2 Docker 19.03-ce Etcd 3.3.17 https://github.com/etcd-io/etcd/release ...
基于Hadoop分布式集群YARN模式下的TensorFlowOnSpark平台搭建
1. 介绍在过去几年中,神经网络已经有了很壮观的进展,现在他们几乎已经是图像识别和自动翻译领域中最强者[1].为了从海量数据中获得洞察力,需要部署分布式深度学习.现有的DL框架通常需要为深度学习设置 ...
openstack pike 集群高可用安装部署目录汇总
# openstack pike 集群高可用安装部署#安装环境 centos 7 史上最详细的openstack pike版部署文档欢迎经验分享,欢迎笔记分享欢迎留言,或加QQ群663105353 ...
理解 OpenStack Swift （1）：OpenStack + 三节点Swift 集群+ HAProxy + UCARP 安装和配置
本系列文章着重学习和研究OpenStack Swift,包括环境搭建.原理.架构.监控和性能等. (1)OpenStack + 三节点Swift 集群+ HAProxy + UCARP 安装和配置 ( ...

随机推荐

solr7.7.0搜索引擎使用(三)(添加文件索引)
众所周知,solr与es的最大区别是,solr可以对pdf,txt,doc等文件生成索引那我们如何添加文件索引呢? 步骤1.添加core,取名暂且为 coreFile 在bin下执行命令 ./sol ...
python3 安装 opencv (转)
Python3支持pip方式自动安装第三方开发包,我们只要打开windows下面的命令行工具,输入如下命令: pip install opencv-python 安装最新的OpenCV3.3开发包 p ...
myeclipse 自动部署web项目（自动编译）
打开自动编译:project->build automatically; 注:以下两种方法适用tomcat配置在myeclipse中的情况. 1.如果在myeclipse中tomcat是以deb ...
实战C++对象模型之成员函数调用
先说结论:C++的类成员函数和C函数实质是一样的,只是C++类成员函数多了隐藏参数this. 通过本文的演示,可以看见这背后的一切,完全可C函数方式调用C++类普通成员函数和C++类虚拟成员函数. 为 ...
Codeforces Round #540 (Div. 3)--1118C - Palindromic Matrix
https://codeforces.com/contest/1118/problem/C 在查找元素的时候,必须按4,2,1的顺序进行.因为,如果先找1,可能就把原来的4拆散了,然后再找4,就找不到 ...
Do More With These Great Plugins for Windows Live Writer(old)
This article is out of day,now we use open live wirter, but we don’t have so much works great plugin ...
String str.trim()
String.trim() 方法不仅仅是去除字符串两端的空格字符,它能去除25种字符: ('/t', '/n', '/v', '/f', '/r', ' ', '/x0085', '/x00a0', ...
消息中间件——kafka
1.1.1 什么是消息中间件消息中间件利用高效可靠的消息传递机制进行平台无关的数据交流,并基于数据通信来进行分布式系统的集成.通过提供消息传递和消息排队模型,它可以在分布式环境下扩展进程间的通信.对 ...
SDWebImage之UIView+WebCache
UIView+WebCache是我们能很方便的使用sd_setImageWithURL:系列方法来加载图片的关键类.UIButton(WebCache).MKAnnotationView(WebCac ...
RabbitMQ 常用操作
RabbitMQ简介 1.首先安装erlang rpm -Uvh https://www.rabbitmq.com/releases/erlang/erlang-19.0.4-1.el7.centos ...

Spark新手入门——3.Spark集群(standalone模式)安装

Spark集群(standalone模式)安装

Spark新手入门——3.Spark集群(standalone模式)安装的更多相关文章

随机推荐

热门专题