Hadoop学习笔记（七）：初识spark

1. spark的安装：

　　a). 首先复制一台虚拟机出来（复制任意一台master和slave即可），然后将其ip修改为192.168.XX.200，并将其hostname更改为c（hostnamectl set-hostname c）。然后再/etc/hosts文件中添加对本机的解析。最后重启网络服务。

　　b). 到官网下载spark（spark.apache.org，记住要下载对应hadoop版本的，这里下载的是spark-2.1.1-bin-hadoop2.7.tgz），并上传至/usr/local目录，然后解压，重命名为spark。

2. spark的运行模式：

　　a) local模式

　　b) standalone模式

　　c) yarn模式

　　d) mesos模式

3. 进入到spark目录下，执行命令：

./bin/spark-submit --class org.apache.spark.examples.SparkPi ./examples/jars/spark-examples_2.11-2.1.0.jar 10000

该命令表示提交一个spark例子程序，后边的10000表示10000个任务，该程序可以计算圆周率，最后的数字越大最后计算出来的结果越精确。提交任务后可以在宿主机输入IP地址:4040进行查看（该程序结束后，就不能访问该页面了）

4. 等该任务执行结束后，观察执行结果：

5. 进入spark-shell命令模式，输入：./bin/spark-shell

新打开一个连接窗口，输入命令jps，可以看到又启动了一个SparkSubmit服务：

6. spark-shell里敲的命令可以转换为一个job，通过SparkSubmit提交给spark，最后的结果在spark-shell里进行展示。

7. RDD（简言RDD就是一个数据集合，分布式存放，可以理解为里边装了一条条的数据）

8. 在root目录下创建hello.txt文件，内容如下：

9. 执行val lineRDD = sc.textFile(“/root/hello.txt”)命令，其中，sc为ScalaContent对象，其Scala的上下文对象，从结果可以看出来，该命令的执行结果为一个RDD数组，数组里边的元素为String类型。

10. 遍历得到的数组，输入命令：lineRDD.foreach(println)观察结果

11. 执行lineRDD.collect命令，将lineRDD转换成一个Array

12. 执行val wordRDD = lineRDD.flatMap(line => line.split(" "))命令，将lineRDD里的每一个单词进行拆分。

13. 执行wordRDD.foreach(println)，查看wordRDD内容：

14. 执行val wordCountRDD = wordRDD.map(word => (word, 1))命令，该命令是遍历wordRDD里的每一个元素，并将该元素变成一个元组（key-value格式，key为该单词，value为1），然后输入wordCountRDD.foreach(println)观察其内容：

15. 执行var resultRDD = wordCountRDD.reduceByKey((x, y) => x + y)命令，熟悉MapReduce的应该知道，该命令相当于MapReduce中reduce的缩减过程，即通过key进行缩减，将相同key的value值（即x和y）进行相加，然后作为一个新的元组，进行下一次的reduce操作。遍历resultRDD进行结果的查看：

16. 上面所有的操作可以用一句scala语句来实现：

17. 去到输出目录查看，这个应该很眼熟了：

18. 查看结果：

Hadoop学习笔记（七）：初识spark的更多相关文章

Hadoop学习笔记—4.初识MapReduce
一.神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算.对于大数据量的计算,通常采用的处理手法就是并行计算.但对许多开发者来 ...
Hadoop学习笔记(1) 初识Hadoop
1. Hadoop提供了一个可靠的共享存储和分析系统.HDFS实现存储,而MapReduce实现分析处理,这两部分是Hadoop的核心. 2. MapReduce是一个批量查询处理器,并且它能够在合理 ...
python学习笔记七初识socket(进阶篇)
socket socket通常也称作"套接字",用于描述IP地址和端口,是一个通信链的句柄,应用程序通常通过"套接字"向网络发出请求或者应答网络请求. sock ...
Storm学习笔记 - Storm初识
Storm学习笔记 - Storm初识 1. Strom是什么? Storm是一个开源免费的分布式计算框架,可以实时处理大量的数据流. 2. Storm的特点高性能,低延迟. 分布式:可解决数据量大 ...
Hadoop学习笔记—22.Hadoop2.x环境搭建与配置
自从2015年花了2个多月时间把Hadoop1.x的学习教程学习了一遍,对Hadoop这个神奇的小象有了一个初步的了解,还对每次学习的内容进行了总结,也形成了我的一个博文系列<Hadoop学习笔 ...
Spark学习笔记2（spark所需环境配置
Spark学习笔记2 配置spark所需环境 1.首先先把本地的maven的压缩包解压到本地文件夹中,安装好本地的maven客户端程序,版本没有什么要求不需要最新版的maven客户端. 解压完成之后 ...
Hadoop学习笔记系列
Hadoop学习笔记系列一.为何要学习Hadoop? 这是一个信息爆炸的时代.经过数十年的积累,很多企业都聚集了大量的数据.这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废为宝炼 ...
Hadoop学习笔记(7) ——高级编程
Hadoop学习笔记(7) ——高级编程从前面的学习中,我们了解到了MapReduce整个过程需要经过以下几个步骤: 1.输入(input):将输入数据分成一个个split,并将split进一步拆成 ...
Hadoop学习笔记(6) ——重新认识Hadoop
Hadoop学习笔记(6) ——重新认识Hadoop 之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果.现是得开始稍微更深入地了解hadoop了. Hadoop包含了两大功 ...
Hadoop学习笔记(2)
Hadoop学习笔记(2) ——解读Hello World 上一章中,我们把hadoop下载.安装.运行起来,最后还执行了一个Hello world程序,看到了结果.现在我们就来解读一下这个Hello ...

随机推荐

笔记：Maven Web项目
生成Web项目模块生成Web项目模板和生成其他项目的模板一致,差别是指定模板的类型,执行命令如下: mvn archetype:generate -DarchetypeArtifactId=mave ...
在RE了16次之后，没想到还可以这样Runtime error
这是POJ: RE的原因: 比如: int b=2147483647; for(int i=0;i<=b;++i){ .... } 应该懂了吧, 2147483647是int能表示的最大整数解 ...
解决图片裁剪com.android.camera.action.CROP和intent.putExtra("return-data", true);
最近在做一个图片上传,在上传之前需要对照片进行裁剪,遇到一个坑,在别的手机上运行都正常,在小米手机上却遇见一个问题,选中图片无法裁剪,直接闪退,目前已解决!之前出过问题的地方会标红 //选择图片 pr ...
java错题集
解析:java中,JavaDoc注释以 /** 开头(中间写内容)以*/结尾解析:A对象是类的实例,不是集合,其余正确解析:创建一个对象的语法为: 类名对象名=new 类名();,因此正确答案为 ...
Linux环境下Swap配置方法
Linux环境下Swap配置方法场景: 今天下午安装一个CentOS6.5操作系统,忘记配置swap分区.看看如何安装系统之后,增加和删除swap分区.方法如下:1.内存占用情况[root@josh ...
关于Netty的入门使用
Netty介绍: Netty是一个提供异步事件驱动的网络应用框架,用以快速开发高性能.高可靠性的网络服务器和客户端程序. 换句话说,Netty是一个NIO框架,使用它可以简单快速地开发网络应用程序,比 ...
Hibernate——配置并访问数据库
Hibernate,对于java来说很重要的一个东西,用于持久层.之前看了很多配置的,都不行,自己来写一个配置成功的. 环境:jdk1.8,eclipse-jee-oxygen,mysql-conne ...
C语言函数2
一.PTA实验作业 6-3 使用函数判断完全平方数: 1. 本题PTA提交列表: 2. 设计思路: 3.本题调试过程碰到问题及PTA提交列表情况说明: 1.一开始考虑让输入值N去整除一个循环变量i,i ...
Bate敏捷冲刺每日报告--day5
1 团队介绍团队组成: PM:齐爽爽(258) 小组成员:马帅(248),何健(267),蔡凯峰(285) Git链接:https://github.com/WHUSE2017/C-team 2 ...
Scrum 冲刺第五日
目录要求项目链接燃尽图问题今日任务明日计划成员贡献量要求各个成员今日完成的任务(如果完成的任务为开发或测试任务,需给出对应的Github代码签入记录截图:如果完成的任务为调研任务,需 ...

Hadoop学习笔记（七）：初识spark

Hadoop学习笔记（七）：初识spark的更多相关文章

随机推荐

热门专题