Spark新手入门——3.Spark集群(standalone模式)安装

主要包括以下三部分，本文为第三部分：

一. Scala环境准备查看
二. Hadoop集群(伪分布模式)安装查看
三. Spark集群(standalone模式)安装

Spark集群(standalone模式)安装

若使用spark对本地文件进行测试学习，可以不用安装上面的hadoop环境，若要结合hdfs使用spark，则可以参考上面的步骤搭建hadoop。

1. 下载安装包并解压(如：~/tools/spark-2.3.1-bin-hadoop2.7)；

2. 启动服务
a.启动master

./sbin/start-master.sh

b.启动slaves
　　可先登陆 http://localhost:8080/ ，获取“Spark URL”

./sbin/start-slave.sh <spark://xxxx-xxx:7077>

3. 开发测试程序
下面开发一个超级简单的rdd任务，逻辑(统计hdfs文件中包含单词form的行及行数，并将结果保存到hdfs)参考官网。

a. 使用第一讲中准备好的Scala环境，创建一个scala maven project：mvn-rdd-test

b. 编写代码

package com.person.test

import org.apache.spark.{SparkConf,SparkContext}

  object MvnRddTest {

    def main(args: Array[String]): Unit = {

      val dataPath = "hdfs://localhost:9000/usr/test/LICENSE.txt"

      val resultPath = "hdfs://localhost:9000/usr/test/result"
      val sc = new SparkContext(new SparkConf().setAppName("Mvn-Rdd-Test"))
      try{

       val accm = sc.longAccumulator("LineAccumulator")

       val rdd = sc.textFile(dataPath,2)

       val sparkDs = rdd.filter(

         line => if(line.contains("form")){

           accm.add(1)

           true

         } else false

       )

       sparkDs.saveAsTextFile(resultPath)

       println(s"Lines that contains 'form' number is: ${accm.value}")

     }catch {

       case e:Exception => e.printStackTrace()

     }finally {

       sc.stop()

     }

   }

}

注：运行该示例需要上传一份文件到(二)的hdfs中，例中的LICENSE.txt来自hadoop安装包。

c. 打含依赖项的jar包
pom.xml配置：

    <groupId>com.person.test</groupId>

    <artifactId>mvn-rdd-test</artifactId>

    <version>1.0-SNAPSHOT</version>

    <dependencies>

        <!-- spark core -->

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-core_2.11</artifactId>

            <version>2.3.1</version>

        </dependency>

        <!-- hdfs tool -->

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-client</artifactId>

            <version>2.7.0</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-assembly</artifactId>

            <version>0.8.0-SNAPSHOT</version>

        </dependency>

    </dependencies>

    <build>

        <plugins>

            <!-- build java -->

            <plugin>

                <groupId>org.apache.maven.plugins</groupId>

                <artifactId>maven-assembly-plugin</artifactId>

                <version>2.5.5</version>

                <configuration>

                    <archive>

                        <manifest>

                            <mainClass>com.person.test.MvnRddTest</mainClass>

                        </manifest>

                    </archive>

                    <descriptorRefs>

                        <descriptorRef>jar-with-dependencies</descriptorRef>

                    </descriptorRefs>

                </configuration>

                <executions>

                    <execution>

                        <id>make-assembly</id>

                        <phase>package</phase>

                        <goals>

                            <goal>single</goal>

                        </goals>

                    </execution>

                </executions>

            </plugin>

            <!-- build scala -->

            <plugin>

                <groupId>org.scala-tools</groupId>

                <artifactId>maven-scala-plugin</artifactId>

                <version>2.15.2</version>

                <executions>

                    <execution>

                        <goals>

                            <goal>compile</goal>

                            <goal>testCompile</goal>

                        </goals>

                    </execution>

                </executions>

            </plugin>

        </plugins>

    </build>

双击Maven Projects-->mvn-rdd-test-->Lifecycle-->package即可完成打包，“mvn-rdd-test-1.0-SNAPSHOT-jar-with-dependencies.jar”即为包含依赖项的包。
注：pom中引入的这两个build插件是必须的，分别用于build java和scala。

d. 测试：

./bin/spark-submit --master spark://xxxx-xxx:7077 --class com.person.test.MvnRddTest ~/Document/IdeaProjects/mvn-rdd-test/target/mvn-rdd-test-1.0-SNAPSHOT-jar-with-dependencies.jar

可以到hdfs上查看运行结果，终端会打印计数器的值。

注意：使用maven打包，不要使用Build Artifacts方式打包。

参考资料：官方文档

后续会陆续更新Spark RDD、Spark DataSet、Spark Streaming的用法；

-->Spark提高篇

Spark新手入门——3.Spark集群(standalone模式)安装的更多相关文章

Spark新手入门——2.Hadoop集群(伪分布模式)安装
主要包括以下三部分,本文为第二部分: 一. Scala环境准备查看二. Hadoop集群(伪分布模式)安装三. Spark集群(standalone模式)安装查看 Hadoop集群(伪分布模式 ...
Spark集群-Standalone 模式
Spark 集群相关 table td{ width: 15% } 来源于官方, 可以理解为是官方译文, 外加一点自己的理解. 版本是2.4.4 本篇文章涉及到: 集群概述 master, worke ...
spark之scala程序开发(集群运行模式)：单词出现次数统计
准备工作: 将运行Scala-Eclipse的机器节点(CloudDeskTop)内存调整至4G,因为需要在该节点上跑本地(local)Spark程序,本地Spark程序会启动Worker进程耗用大量 ...
Spark新手入门——1.Scala环境准备
主要包括以下三部分,本文为第一部分: 一. Scala环境准备二. Hadoop集群(伪分布模式)安装查看三. Spark集群(standalone模式)安装查看因Spark任务大多由Sca ...
[转] Spark快速入门指南 – Spark安装与基础使用
[From] https://blog.csdn.net/w405722907/article/details/77943331 Spark快速入门指南 – Spark安装与基础使用 2017年09月 ...
K8S入门系列之集群二进制部署-->master篇(二)
组件版本和配置策略组件版本 Kubernetes 1.16.2 Docker 19.03-ce Etcd 3.3.17 https://github.com/etcd-io/etcd/release ...
基于Hadoop分布式集群YARN模式下的TensorFlowOnSpark平台搭建
1. 介绍在过去几年中,神经网络已经有了很壮观的进展,现在他们几乎已经是图像识别和自动翻译领域中最强者[1].为了从海量数据中获得洞察力,需要部署分布式深度学习.现有的DL框架通常需要为深度学习设置 ...
openstack pike 集群高可用安装部署目录汇总
# openstack pike 集群高可用安装部署#安装环境 centos 7 史上最详细的openstack pike版部署文档欢迎经验分享,欢迎笔记分享欢迎留言,或加QQ群663105353 ...
理解 OpenStack Swift （1）：OpenStack + 三节点Swift 集群+ HAProxy + UCARP 安装和配置
本系列文章着重学习和研究OpenStack Swift,包括环境搭建.原理.架构.监控和性能等. (1)OpenStack + 三节点Swift 集群+ HAProxy + UCARP 安装和配置 ( ...

随机推荐

js--随机产生100个从0 ~ 1000之间不重复的整数(me)
<style> div{text-indent:40px;} </style> <script> window.onload=function(){ v ...
1018 Public Bike Management (30) Dijkstra算法 + DFS
题目及题解 https://blog.csdn.net/CV_Jason/article/details/81385228 迪杰斯特拉重新认识两个核心的存储结构: int dis[n]: //记录每 ...
Hibernate配置文件的书写
Hibernate主要配置文件 <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE hibern ...
python3 与 Django 连接数据库报错：ImportError: No module named 'MySQLdb'
在 python2 中,使用 pip install mysql-python 进行安装连接MySQL的库,使用时 import MySQLdb 进行使用在 python3 中,改变了连接库,改为了 ...
Python json和pickle模块
用于序列化的两个模块 json,用于字符串和 python数据类型间进行转换 pickle,用于python特有的类型和 python的数据类型间进行转换 Json模块提供了四个功能:dumps. ...
冲刺博客NO.8
今天做了什么: 多天学习后,实现了短信验证的功能,可以选择国家,可以在Mob的后台管理短信验证遇到的困难: 注册回调事件,afterEvent的判定(事件完成后调用)
STL中的容器作为返回值
分别以函数返回值方式和参数传引用方式测试了vector.map两种容器,代码如下: // testContainer.cpp : Defines the entry point for the con ...
Android-Java-静态变量与静态方法内存图
描述Dog对象: package android.java.oop10; public class Dog { public static String name; public static int ...
还原是不可能还原的，这辈子都不可能还原（手动笑cry）
不好意思,我又把原厂避震换回border的绞牙了. 这套台湾绞牙已经陪伴了我第三个年头了,本次主要是调节了桶身高度,让车身升高了一下,现在是前面3指松将近4指.后面2指(以前是前面2指半.后面1指松2 ...
Eclipse 刚检出的项目 Build path 的时候提示 No action available
问题: 从SVN检出来的项目发现无法进行build path,也不报错,任何类之间也无法关联(Ctrl+右键无法点进去). 原因: .classpath是Eclipse的工程文件,别人没有将工程的信息 ...

Spark新手入门——3.Spark集群(standalone模式)安装

Spark集群(standalone模式)安装

Spark新手入门——3.Spark集群(standalone模式)安装的更多相关文章

随机推荐

热门专题