Spark 基础操作

1. Spark 基础

2. Spark Core

3. Spark SQL

4. Spark Streaming

5. Spark 内核机制

6. Spark 性能调优

1. Spark 基础

1.1 Spark 中的相应组件

1.2 Standalone 模式安装

// 1. 准备安装包(见下方参考资料): spark-2.1.3-bin-hadoop2.7.tgz

// 2. 修改配置文件

// 2.1 spark-env.sh.template

mv spark-env.sh.template spark-env.sh

SPARK_MASTER_HOST=IP地址

SPARK_MASTER_PORT=7077

// 3. 启动

sbin/start-all.sh

// 4. 浏览器访问

http://IP地址:8080

// 5. 测试官方案例

bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://IP地址:7077 --executor-memory 1G --total-executor-cores 2 ./examples/jars/spark-examples_2.11-2.1.3.jar 100

// 6. 使用 Spark Shell 测试 WordCount

bin/spark-shell --master spark://10.110.147.193:7077

sc.textFile("./RELEASE").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

1.2.1 提交应用程序概述

bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://IP地址:7077 --executor-memory 1G --total-executor-cores 2 ./examples/jars/spark-examples_2.11-2.1.3.jar 100
- --class: 应用程序的启动类,例如,org.apache.spark.examples.SparkPi;
- --master: 集群的master URL;
- deploy-mode: 是否发布你的驱动到worker节点(cluster)或者作为一个本地客户端(client);
- --conf: 任意的Spark配置属性,格式:key=value,如果值包含空格,可以加引号"key=value";
- application-jar:打包好的应用 jar,包含依赖,这个URL在集群中全局可见。比如hdfs://共享存储系统,如果是file://path,那么所有节点的path都包含同样的jar;
- application-arguments: 传给main()方法的参数;

1.3 JobHistoryServer 配置

修改spark-defaults.conf.template名称:mv spark-defaults.conf.template spark-defaults.conf;
修改spark-defaults.conf文件,开启 Log:
- spark.eventLog.enabled true;
- spark.eventLog.dir hdfs://IP地址:9000/directory;
- 注意:HDFS 上的目录需要提前存在;
修改 spark-env.sh 文件,添加如下配置:
- export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=4000 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://IP地址:9000/directory";
开启历史服务:sbin/start-history-server.sh;
执行上面的程序:org.apache.spark.examples.SparkPi;
访问:http//IP地址:4000;

1.4 Spark HA 配置

zookeeper 正常安装并启动;
修改 spark-env.sh 文件,添加如下配置:
- 注释掉:
  - SPARK_MASTER_HOST=IP地址;
  - SPARK_MASTER_PORT=7077
- export SPARK_DEAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=IP地址1, IP地址2, IP地址3 -Dspark.deploy.zookeeper.dir=/spark"

1.5 Yarn 模式安装

修改 hadoop 配置文件yarn-site.xml,添加如下内容:

<!--是否启动一个线程,检查每个任务正在使用的物理内容量,如果任务超出分配值,则直接将其杀掉,默认为true-->

<property>

    <name>yarn.nodemanager.pmem-check-enabled</name>

    <value>false</value>

</property>

<!--是否启动一个线程,检查每个任务正在使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是true-->

<property>

    <name>yarn.nodemanager.vmem-check-enabled</name>

    <value>false</value>

</property>

修改 spark-env.sh,添加如下配置:
- YARN_CONF_DIR=/opt/module/hadoop-2.8.5/etc/hadoop
- HADOOP_CONF_DIR=/opt/module/hadoop-2.8.5/etc/hadoop

1.6 Spark Shell WordCount 流程

sc.textFile("文件地址").flatMap(_.split("")).map((_,1)).reduceByKey(_+_).saveAsTextFile.("输出结果")

1.6 Eclipse 编写 WordCount 程序

// ===== 1. 创建 Maven Project

// ===== 2. 导入依赖 pom.xml

<dependencies>

      <dependency>

          <groupId>org.apache.spark</groupId>

          <artifactId>spark-core_2.11</artifactId>

          <version>2.1.3</version>

      </dependency>

  </dependencies>

  <build>

  		<finalName>WordCount</finalName>

        <plugins>

        <!--java 的编译版本 1.8-->

            <plugin>

                <groupId>org.apache.maven.plugins</groupId>

                <artifactId>maven-compiler-plugin</artifactId>

                <version>3.6.0</version>

                <configuration>

                    <source>1.8</source>

                    <target>1.8</target>

                    <encoding>UTF-8</encoding>

                </configuration>

            </plugin>

             <plugin>

	            <groupId>org.apache.maven.plugins</groupId>

	            <artifactId>maven-surefire-plugin</artifactId>

	            <version>2.17</version>

	        </plugin>

	        <plugin>

	        	<groupId>net.alchim31.maven</groupId>

	        	<artifactId>scala-maven-plugin</artifactId>

	        	<version>3.2.2</version>

	        	<executions>

	        	    <execution>

	        	        <goals>

	        	        	<goal>compile</goal>

	        	        	<goal>test-compile</goal>

	        	        </goals>

	        	    </execution>

	        	</executions>

	        </plugin>

	        <plugin>

	        	<groupId>org.apache.maven.plugins</groupId>

	        	<artifactId>maven-assembly-plugin</artifactId>

	        	<version>3.0.0</version>

	        	<configuration>

	        		<archive>

	        		    <manifest>

	        		        <mainClass>com.noodles.WordCount</mainClass>

	        		    </manifest>

	        		</archive>

	        		<descriptorRefs>jar-with-dependencies</descriptorRefs>

	        	</configuration>

	        	<executions>

	        	    <execution>

	        	        <id>make-assembly</id>

	        	        <phase>package</phase>

	        	        <goals>

	        	            <goal>single</goal>

	        	        </goals>

	        	    </execution>

	        	</executions>

	        </plugin>

        </plugins>

    </build>

// ===== 3. 创建 Maven Module

// ===== 4. 创建 Scala Class: WordCount

object WordCount {

    def main(args:Array[String]): Unit = {

        // 1. 创建配置信息

        val conf = new SparkConf().setAppName("wc")

        // 2. 创建 sparkcontext

        val sc = new SparkContext(conf)

        // 3. 处理逻辑

        // 读取数据

        val lines = sc.textFile(args(0))

        val words = lines.flatMap(_.split(" "))

        val k2v = words.map((_, 1))

        val result = k2v.reduceByKey(_+_)

        // 输出

        // result.collect()

        // 将输出结果保存到文件

        result.saveAsTextFile(args(1))

        // 4. 关闭连接

        sc.stop()

    }

}

**参考资料:**
- [spark-2.1.3-bin-hadoop2.7.tgz下载](https://archive.apache.org/dist/spark/spark-2.1.3/)
- [eclipse的maven、Scala环境搭建](https://blog.csdn.net/u014353787/article/details/50166789)

Spark 基础操作的更多相关文章

【原创 Hadoop&Spark 动手实践 5】Spark 基础入门，集群搭建以及Spark Shell
Spark 基础入门,集群搭建以及Spark Shell 主要借助Spark基础的PPT,再加上实际的动手操作来加强概念的理解和实践. Spark 安装部署理论已经了解的差不多了,接下来是实际动手实 ...
List基础操作
/** * List基础操作 * Created by zhen on 2018/11/14. */ object ListDemo { def main(args: Array[String]) { ...
最全的spark基础知识解答
原文:http://www.36dsj.com/archives/61155 一. Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduc ...
【一】Spark基础
Spark基础什么是spark 也是一个分布式的并行计算框架 spark是下一代的map-reduce,扩展了mr的数据处理流程. Spark架构原理图解 RDD[Resilient Distrib ...
Update(Stage4)：sparksql：第3节 Dataset (DataFrame) 的基础操作 & 第4节 SparkSQL_聚合操作_连接操作
8. Dataset (DataFrame) 的基础操作 8.1. 有类型操作 8.2. 无类型转换 8.5. Column 对象 9. 缺失值处理 10. 聚合 11. 连接 8. Dataset ...
Spark基础学习精髓——第一篇
Spark基础学习精髓 1 Spark与大数据 1.1 大数据基础 1.1.1 大数据特点存储空间大数据量大计算量大 1.1.2 大数据开发通用步骤及其对应的技术大数据采集->大数据预处 ...
StructuredStreaming基础操作和窗口操作
一.流式DataFrames/Datasets的结构类型推断与划分 ◆ 默认情况下,基于文件源的结构化流要求必须指定schema,这种限制确保即使在失败的情况下也会使用一致的模式来进行流查询. ◆ ...
python基础操作以及hdfs操作
目录前言基础操作 hdfs操作总结一.前言作为一个全栈工程师,必须要熟练掌握各种语言...HelloWorld.最近就被"逼着"走向了python开发之路, ...
MYSQL基础操作
MYSQL基础操作 [TOC] 1.基本定义 1.1.关系型数据库系统关系型数据库系统是建立在关系模型上的数据库系统什么是关系模型呢? 1.数据结构可以规定,同类数据结构一致,就是一个二维的表格 ...

随机推荐

[golang]A modern, fast and scalable websocket framework with elegant API written in Go
A modern, fast and scalable websocket framework with elegant API written in Go http://bit.ly/neffos- ...
C Primer Plus--C存储类、链接和内存管理之存储类(storage class)
目录存储类作用域链接存储时期自动变量寄存器变量具有代码块作用域的静态变量具有外部链接的静态变量 extern关键字具有内部链接的静态变量多文件存储类 C为变量提供了5种不同的存储 ...
Codeforces Round #604 (Div. 1) - 1C - Beautiful Mirrors with queries
题意给出排成一列的 $n$ 个格子,你要从 $1$ 号格子走到 $n$ 号格子之后(相当于 $n+1$ 号格子),一旦你走到 $i+1$ 号格子,游戏结束. 当你在 $i$ ...
5.lock 锁
中断: 线程实例.interrupt(); lock锁的使用 package com.jlong; import java.util.concurrent.locks.Condition; imp ...
【CSP模拟赛】独立集（最长上升子序列&大力猜结论）
题目描述有一天,一个名叫顺旺基的程序员从石头里诞生了.又有一天,他学会了冒泡排序和独立集.在一个图里,独立集就是一个点集,满足任意两个点之间没有边.于是他就想把这两个东西结合在一起.众所周知,独 ...
<c:choose>
备注一下属性 DIV没有VALUE属性 <c:choose> <c:when test="${yggModel.type=='0'}">食品< ...
Git的使用(2) —— 本地版本库的操作
1. 向本地版本库中添加文件注意:.git文件夹是本地版本库,包含.git文件夹的目录叫工作目录,要往本地版本库中添加文件,就必须将文件放在工作目录中. (1) 把文件添加到工作目录中. (2) 右 ...
PHP是单线程还是多线程？
PHP 从设计之初到流行起来都没有出现明显需要用多线程才能解决的需求.某些需要用到多线程的地方也有相应的解决方案和替代方案.多线程并不总是比单线程优,多线程可能会引入其他问题(例如:两个线程同时调用一 ...
mariadb galera群集故障记录
负责galera上执行删除语句 delete from t1 where group_id= and group_id=; 执行后,群集破坏,除了主节点存活,其他俩个节点全都停掉. 查看galera的 ...
CentOS 7.2 基于Docker实现MySQL主从架构
原文地址:https://blog.csdn.net/sunnyfg/article/details/80655823 1.安装Docker(略) Centos7下安装Docker : https:/ ...

Spark 基础操作

1. Spark 基础

2. Spark Core

3. Spark SQL

4. Spark Streaming

5. Spark 内核机制

6. Spark 性能调优

1. Spark 基础

1.1 Spark 中的相应组件

1.2 Standalone 模式安装

1.2.1 提交应用程序概述

1.3 JobHistoryServer 配置

1.4 Spark HA 配置

1.5 Yarn 模式安装

1.6 Spark Shell WordCount 流程

1.6 Eclipse 编写 WordCount 程序

Spark 基础操作的更多相关文章

随机推荐

热门专题