spark复习笔记(3)：使用spark实现单词统计

wordcount是spark入门级的demo，不难但是很有趣。接下来我用命令行、scala、Java和python这三种语言来实现单词统计。

一、使用命令行实现单词的统计

　　　　1.首先touch一个a.txt文本文件

　　　　2.加载文本：产生弹性分布式数据集，用sc.textFile()加载文本文件到内存中去，加载到内存之后，整个RDD就是一个数组，就以换行符来做分隔

val rdd1 = sc.textFile("/home/centos/a.txt")

　　　　3.对2中产生的数组按空格进行切割，切开之后每个元素就变成了一个数组，[hello,world1]

val rdd2=rdd1.flatMap(line=>line.split(" "))

　　　　4.对3中产生的结果进行key,value键值对额转换

val rdd3=rdd2.map(wor=>(word,))

　　　　5.对4中的结果进行聚合

val rdd4=rdd3.reduceByKey(_ + _)

　　　　5.查看结果

　　　　6.一步操作

　　　　7.实现单词过滤

对于spark-shell这种环境一般只用于测试和调试

spark复习笔记(3)：使用spark实现单词统计的更多相关文章

Spark学习笔记2（spark所需环境配置
Spark学习笔记2 配置spark所需环境 1.首先先把本地的maven的压缩包解压到本地文件夹中,安装好本地的maven客户端程序,版本没有什么要求不需要最新版的maven客户端. 解压完成之后 ...
spark复习笔记(3)
在windows上实现wordcount单词统计一.编写scala程序,引入spark类库,完成wordcount 1.sparkcontextAPI sparkcontext是spark功能的主要 ...
spark复习笔记(2)
之前工作的时候经常用,隔了段时间,现在学校要用学的东西也忘了,翻翻书谢谢博客吧. 1.什么是spark? Spark是一种快速.通用.可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPL ...
spark复习笔记(7):sparkstreaming
一.介绍 1.sparkStreaming是核心模块Spark API的扩展,具有可伸缩,高吞吐量以及容错的实时数据流处理等.数据可以从许多来源(如Kafka,Flume,Kinesis或TCP套接字 ...
spark复习笔记(7):sparkSQL
一.saprkSQL模块,使用类sql的方式访问Hadoop,实现mr计算,底层使用的是rdd 1.hive //hadoop mr sql 2.phenoix //hbase上构建sql的交互过 ...
Spark学习笔记--Linux安装Spark集群详解
本文主要讲解如何在Linux环境下安装Spark集群,安装之前我们需要Linux已经安装了JDK和Scala,因为Spark集群依赖这些.下面就如何安装Spark进行讲解说明. 一.安装环境操作系统 ...
Spark学习笔记5：Spark集群架构
Spark的一大好处就是可以通过增加机器数量并使用集群模式运行,来扩展计算能力.Spark可以在各种各样的集群管理器(Hadoop YARN , Apache Mesos , 还有Spark自带的独立 ...
Spark学习笔记1：Spark概览
Spark是一个用来实现快速而通用的集群计算的平台. Spark项目包含多个紧密集成的组件.Spark的核心是一个对由很多计算任务组成的,运行在多个工作机器或者是一个计算集群上的应用进行调度,分发以及 ...
spark复习笔记(1)
使用spark实现work count ---------------------------------------------------- (1)用sc.textFile(" &quo ...

随机推荐

JavaScript三元运算符以及运算符顺序
三目运算符(三元运算符) 三目运算符:运算符需要三个操作语法:表达式1?表达式2:表达式3 表达式1是一个条件,值为Boolean类型若表达式1的值为true,则执行表达式2的操作,并且以表达式2 ...
安装VS2017
www.visualstudio.com/zh-hans/downloads/ https://visualstudio.microsoft.com/zh-hans/thank-you-downloa ...
qs的两个用途
qs是npm安装的库 1.qs.stringify() 将对象序列化成URL的形式,以&进行拼接 const Qs = require('qs'); let obj= { method: ...
SpringBoot搭建基于Spring+SpringMvc+Mybatis的REST服务
Maven Plugin管理通常,让你的Maven POM文件继承 spring-boot-starter-parent,并声明一个或多个 Starter POMs依赖即可. spring-boot ...
可恶！学了这么久的LCA，联考的题目却是LCA+树形DP！！！可恶|！！！这几天想学学树形DP吧！先来一道入门题HDU 1520 Anniversary party
题目描述某大学有N个职员,编号为1~N.他们之间有从属关系,也就是说他们的关系就像一棵以校长为根的树,父结点就是子结点的直接上司.现在有个周年庆宴会,宴会每邀请来一个职员都会增加一定的快乐指数Ri, ...
【bzoj1179】[Apio2009]Atm
*题目描述: *输入: 第一行包含两个整数N.M.N表示路口的个数,M表示道路条数.接下来M行,每行两个整数,这两个整数都在1到N之间,第i+1行的两个整数表示第i条道路的起点和终点的路口编号.接下来 ...
北风设计模式课程---单一职责原则（Single Responsibility Principle）
北风设计模式课程---单一职责原则(Single Responsibility Principle) 一.总结一句话总结: 一个类应该有且只有一个变化的原因:单一职责原则(SRP:Single Re ...
php system exexc 立即返回
有时候会用到php调用服务器端的其它可执行文件,system和exec函数都是阻塞执行的,执行完第三方程序再返回. 如果我们需要立即返回,让第三方程序在后台继续执行,调用方式如下: linux,noh ...
查看在linux中下载的图片
1.安装 yum install lrzsz -y 2.找到文件所在的位置选中之后 3.点击那个蓝色的框框里面有一个用ZMODEM下载 4.选择要保存的位置就可以查看了
vi不能使用jk 映射?
vi不能使用jk 映射? 因为vi 不支持inormap 这种键映射! 要安装vim-enhanced后才能使用vim命令, 也才能够使用键映射!

spark复习笔记(3)：使用spark实现单词统计

一、使用命令行实现单词的统计

spark复习笔记(3)：使用spark实现单词统计的更多相关文章

随机推荐

热门专题