大数据系列之并行计算引擎Spark部署及应用

安装包：

　　spark-2.1.0-bin-hadoop2.7.tgz size:195MB

　　下载链接: https://pan.baidu.com/s/1bphB3Q3 密码: 9v5h

安装步骤：

　　1.本地模式：

　　　　1.直接将tgz包放置在任一目录：LZ放在了 /home/mfz/resources 下

　　　　2.解压：

tar -xzvf spark-2.1.-bin-hadoop2..tgz

　　　　3.进入spark-2.1.0-bin-hadoop2.7目录下，启动spark:

bin/spark-shell --master local

　　4.下面就可以在spark命令行上编程scala啦；

　　在启动spark时，spark提供了一个RDD，属性名叫sc。下面我们来操作一下计算wordcount：

　　新建文本/home/mfz/scalaWordCount.txt

　　scala命令如下：

val wordtxt = sc.textFile("file:///home/mfz/scalaWordCount.txt")  //加载文本scalaWordCount.txt
//将文本按照空格切分成Map(word,1),再进行reduceByKey将map的value进行累加，将计算结果落入磁盘（file表示本地磁盘）wordResult.txt目录中

wordtxt.flatMap(_.split(" ")).map(x => (x,)).reduceByKey(_+_).saveAsTextFile("file:///home/mfz/wordResult.txt");

　　查看结果

　　再看WebUI

scala语法详见：https://yq.aliyun.com/topic/69

　　2.Yarn上运行

　　　　在Yarn上运行我们就需要启动HDFS与Yarn服务了。关于Hadoop安装步骤详见博文：大数据系列之Hadoop分布式集群部署

　　　　1.修改spark配置文件：

vim /home/mfz/spark-2.1.0-bin-hadoop2.7/conf/spark-env.sh

#添加Hadoop配置文件环境变量

export HADOOP_CONF_DIR=/home/mfz/hadoop-2.7./etc/hadoop

cp spark-defaults.conf.template spark-defaults.conf

vim spark-defaults.conf 

添加如下

spark.master=local

# 配置historyServer

spark.yarn.historyServer.address=master: //master是hadoop服务器hostname

spark.history.ui.port=

spark.eventLog.enabled=true

spark.eventLog.dir=hdfs:///tmp/spark/events

spark.history.fs.logDirectory=hdfs:///tmp/spark/events

　　　　3.修改$Hadoop_HOME/etc/hadoop下yarn-site.xml

<configuration>

        <property>

                <name>yarn.nodemanager.aux-services</name>

                 <value>mapreduce_shuffle</value>

        </property>

        <property>

                <name>yarn.resourcemanager.address</name>

                <value>master:</value>

        </property>

        <property>

                <name>yarn.resourcemanager.scheduler.address</name>

                <value>master:</value>

        </property>

        <property>

                <name>yarn.resourcemanager.resource-tracker.address</name>

                <value>master:</value>

        </property>

        <property>

                <name>yarn.resourcemanager.admin.address</name>

                <value>master:</value>

        </property>

        <property>

                <name>yarn.resourcemanager.webapp.address</name>

                <value>master:</value>

        </property>

        <property>

                <name>yarn.log-aggregation-enable</name>

                <value>true</value>

        </property>

        <property>

                <name>yarn.log-aggregation-enable</name>

                <value>true</value>

        </property>

        <property>

                <name>yarn.log.server.url</name>

                <value>http://master:19888/jobhistory/logs</value>

        </property>

</configuration>

　　　　4.启动HDFS,Yarn服务

$HADOOP_HOME/sbin/start-dfs.sh

$HADOOP_HOME/sbin/start-yarn.sh

$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh start historyserver

　　　　　5.验证启动是否成功：

　　　　6.新建dfs目录

 hdfs dfs -mkdir -p /tmp/spark/events  

 hdfs dfs -mkdir -p /tmp/spark/history
#查看目录
 hdfs dfs -ls /tmp/spark

　　 7. 启动Spark on Yarn

cd spark-2.1.-bin-hadoop2.

bin/spark-shell --master yarn-client

　　8.下面我们再来执行一次WordCount命令，区别于Local我们将落盘地址改为HDFS上。

val wordtxt = sc.textFile("file:///home/mfz/scalaWordCount.txt")  //加载文本scalaWordCount.txt

wordtxt.flatMap(_.split(" ")).map(x => (x,)).reduceByKey(_+_).saveAsTextFile("/tmp/wordResult");

　　9.结果如下：

　　10.查看Yarn WebUi :master:18088。可以看到在红色框中的ID是 application_1492617622120_0001,正是我们上图spart on Yarn启动的app id 号，点击yarn web ui的spark id

可进入spark web ui查看我们刚才执行所有操作.

完~~

大数据系列之并行计算引擎Spark部署及应用的更多相关文章

大数据系列之并行计算引擎Spark介绍
相关博文:大数据系列之并行计算引擎Spark部署及应用 Spark: Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎. Spark是UC Berkeley AMP lab ( ...
大数据系列之分布式计算批处理引擎MapReduce实践
关于MR的工作原理不做过多叙述,本文将对MapReduce的实例WordCount(单词计数程序)做实践,从而理解MapReduce的工作机制. WordCount: 1.应用场景,在大量文件中存储了 ...
大数据系列之分布式计算批处理引擎MapReduce实践-排序
清明刚过,该来学习点新的知识点了. 上次说到关于MapReduce对于文本中词频的统计使用WordCount.如果还有同学不熟悉的可以参考博文大数据系列之分布式计算批处理引擎MapReduce实践. ...
CentOS6安装各种大数据软件第十章：Spark集群安装和部署
相关文章链接 CentOS6安装各种大数据软件第一章:各个软件版本介绍 CentOS6安装各种大数据软件第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件第三章:Linux基础 ...
大数据系列之数据仓库Hive原理
Hive系列博文,持续更新~~~ 大数据系列之数据仓库Hive原理大数据系列之数据仓库Hive安装大数据系列之数据仓库Hive中分区Partition如何使用大数据系列之数据仓库Hive命令使用 ...
大数据系列4：Yarn以及MapReduce 2
系列文章: 大数据系列:一文初识Hdfs 大数据系列2:Hdfs的读写操作大数据谢列3:Hdfs的HA实现通过前文,我们对Hdfs的已经有了一定的了解,本文将继续之前的内容,介绍Yarn与Yarn ...
大数据系列（5）——Hadoop集群MYSQL的安装
前言有一段时间没写文章了,最近事情挺多的,现在咱们回归正题,经过前面四篇文章的介绍,已经通过VMware安装了Hadoop的集群环境,相关的两款软件VSFTP和SecureCRT也已经正常安装了. ...
大数据系列（4）——Hadoop集群VSFTP和SecureCRT安装配置
前言经过前三篇文章的介绍,已经通过VMware安装了Hadoop的集群环境,当然,我相信安装的过程肯定遇到或多或少的问题,这些都需要自己解决,解决的过程就是学习的过程,本篇的来介绍几个Hadoop环 ...
大数据系列（3）——Hadoop集群完全分布式坏境搭建
前言上一篇我们讲解了Hadoop单节点的安装,并且已经通过VMware安装了一台CentOS 6.8的Linux系统,咱们本篇的目标就是要配置一个真正的完全分布式的Hadoop集群,闲言少叙,进入本 ...

随机推荐

A-Softmax的总结及与L-Softmax的对比——SphereFace
A-Softmax的总结及与L-Softmax的对比--SphereFace $\quad$[引言]SphereFace在MegaFace数据集上识别率在2017年排名第一,用的A-Softmax ...
云平台项目--学习经验--打包压缩工具requirejs
requirejs是一个JavaScript模块加载器.适合在浏览器中国使用,也可以在其他脚本环境使用,它鼓励了代码的模块化.使用RequireJS加载模块化脚本将提高代码的加载速度和质量.如何加载R ...
VS2015安装与单元测试
很久之前就听说微软有一款强大的编程软件——Visual Stdio系列,也许是满足于VC和CB的小巧一直都没有去尝试,借这次软件工程的机会终于可以一睹其真容,第一感觉是高大上,一改VC和CB的简洁,看 ...
C#简述（二）
详情请参考:http://www.runoob.com/csharp/csharp-operators.html 1.C# 运算符算术运算符关系运算符逻辑运算符位运算符赋值运算符其他运算符 ...
Software-Defined Networking:A Comprehensive Survey--Day4
V. ONGOING RESEARCH EFFORTS AND CHALLENGES 这一节主要介绍了对SDN潜力的发挥有着重要推动作用的一些研究成果. A. Switch Designs 目前Ope ...
[问题排查]记录一次两个dubbo提供者同时在线，代码不一致导致问题的排查记录
1. 需求有一个需求job定时5秒一次,job[消费者]调用dsc[提供者]提供的dubbo完成:先清空redis的某个key,然后再往redis中放入新的数据,这是一个定时任务,需要每隔5秒执行一 ...
查看Jira 使用的H2数据库数据结构以及内容的方法
1. 同事在研究jira 想看看jira的数据库数据结构, 告知使用的是java的H2数据库. 如图示 2. 然后根据此内容进行百度等. 下载可以进行数据库连接的工具,主要找到两个,下载地址分别 ...
BZOJ2428 HAOI2006均分数据（模拟退火）
显然可以状压dp.显然过不了. 考虑暴力模拟退火.每次随机改变一个数所属集合即可. 并不明白要怎么调参. #include<iostream> #include<cstdio> ...
hdu 6183 Color it （线段树动态开点）
Do you like painting? Little D doesn't like painting, especially messy color paintings. Now Little B ...
首先java中集合类主要有两大分支
本文仅分析部分原理和集合类的特点,不分析源码,旨在对java的集合类有一个整体的认识,理解各个不同类的关联和区别,让大家在不同的环境下学会选择不同的类来处理. Java中的集合类包含的内容很多而且很重 ...

大数据系列之并行计算引擎Spark部署及应用

相关博文：

安装包：

大数据系列之并行计算引擎Spark部署及应用的更多相关文章

随机推荐

热门专题