二、spark入门之spark shell：文本中发现5个最常用的word

scala> val textFile = sc.textFile("/Users/admin/spark-1.5.1-bin-hadoop2.4/README.md")

scala> val topWord = textFile.flatMap(_.split(" ")).filter(!_.isEmpty).map((_,1)).reduceByKey(_+_).map{case (word,count) =>(count,word)}.sortByKey(false)

scala> topWord.take(5).foreach(println)

redult:

(21,the)
(14,Spark)
(14,to)
(12,for)

(10,a)

原文参考：

下面就是Spark Scala REPL shell的简单实例：

`1`	`scala>` `val` `hamlet` `=` `sc.textFile("~/temp/gutenburg.txt")`

`2`	`hamlet:` `org.apache.spark.rdd.RDD[String]` `=` `MappedRDD[1] at textFile at <console>:12`

　　在上面的代码中，我们读取了文件，并创建了一个String类型的RDD，每一个String代表文件中的每一行。

`1`	`scala>` `val` `topWordCount` `=` `hamlet.flatMap(str=>str.split(" "))`

`2`	`.filter(!_.isEmpty).map(word=>(word,1)).reduceByKey(_+_)`

`3`	`.map{case` `(word, count)` `=> (count, word)}.sortByKey(false)`

4

`5`	`topWordCount:` `org.apache.spark.rdd.RDD[(Int, String)]` `=MapPartitionsRDD[10] at sortByKey at <console>:14`

　　1、通过上述命令我们可以发现这个操作非常简单——通过简单的Scala API来连接transformations和actions。
　　2、可能存在某些words被1个以上空格分隔的情况，导致有些words是空字符串，因此需要使用filter(!_.isEmpty)将它们过滤掉。
　　3、每个word都被映射成一个键值对：map(word=>(word,1))。
　　4、为了合计所有计数，这里需要调用一个reduce步骤——reduceByKey(_+_)。 _+_ 可以非常便捷地为每个key赋值。
　　5、我们得到了words以及各自的counts，下一步需要做的是根据counts排序。在Apache Spark，用户只能根据key排序，而不是值。因此，这里需要使用map{case (word, count) => (count, word)}将(word, count)流转到(count, word)。
　　6、需要计算最常用的5个words，因此需要使用sortByKey(false)做一个计数的递减排序。

`1`	`scala> topWordCount.take(5).foreach(x=>println(x))`

`2`	`(1044,the)`

`3`	`(730,and)`

`4`	`(679,of)`

`5`	`(648,to)`

6 (511,I)

　　上述命令包含了一个.take(5) (an action operation, which triggers computation)和在 ~/temp/gutenburg.txt文本中输出10个最常用的words。

二、spark入门之spark shell：文本中发现5个最常用的word的更多相关文章

三、spark入门：文本中发现5个最常用的word，排除常用停用词
package com.yl.wordcount import java.io.File import org.apache.spark.{SparkConf, SparkContext} impor ...
一、spark入门之spark shell：wordcount
1.安装完spark,进入spark中bin目录: bin/spark-shell scala> val textFile = sc.textFile("/Users/admin/ ...
Spark入门：Spark运行架构(Python版)
此文为个人学习笔记如需系统学习请访问http://dblab.xmu.edu.cn/blog/1709-2/ 基本概念 *  RDD:是弹性分布式数据集(Resilient Distributed ...
【CDN+】 Spark入门---Handoop 中的MapReduce计算模型
前言项目中运用了Spark进行Kafka集群下面的数据消费,本文作为一个Spark入门文章/笔记,介绍下Spark基本概念以及MapReduce模型 Spark的基本概念: 官网: http://s ...
Spark入门实战系列--2.Spark编译与部署（中）--Hadoop编译安装
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .编译Hadooop 1.1 搭建环境 1.1.1 安装并设置maven 1. 下载mave ...
Spark入门实战系列--6.SparkSQL（中）--深入了解SparkSQL运行计划及调优
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 1.1 运行环境说明 1.1.1 硬软件环境线程,主频2.2G,10G内存 l 虚拟软 ...
【Spark篇】---Spark中transformations算子二
一.前述今天继续整理几个Transformation算子如下: mapPartitionWithIndex repartition coalesce groupByKey zip zipWithIn ...
Spark下载与入门（Spark自学二）
2.1 下载Spark 略 2.2 Spark中Python和Scala的shell Spark shell可用来与分布式存储在许多机器的内存或者硬盘上的数据进行交互,并且处理过程的分发由Spark自 ...
Spark入门（二）--如何用Idea运行我们的Spark项目
用Idea搭建我们的Spark环境用IDEA搭建我们的环境有很多好处,其中最大的好处,就是我们甚至可以在工程当中直接运行.调试我们的代码,在控制台输出我们的结果.或者可以逐行跟踪代码,了解spark ...

随机推荐

CSS3自适配手机屏幕[转]
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content ...
Visual Studio 2012使用水晶报表Crystal Report
原文:Visual Studio 2012使用水晶报表Crystal Report SAP在 2013年1月14日 released SAP Crystal Reports,developer ver ...
javascript 学习总结（九）面向对象编程
1.面向对象的工厂方法 function createPerson(name, age, job){ var o = new Object(); o.name = name; o.age = age; ...
nginx 502 Bad Gateway 错误问题收集
nginx 502 Bad Gateway 错误问题收集 (2010-11-18 13:51:37) 转载▼ 标签: 杂谈分类: 工作 nginx 502 Bad Gateway 错误问题收集因为 ...
.net微软消息队列（msmq）简单案例
1.首先我们需要安装消息队列服务,它是独立的消息记录的服务,并保存在硬盘文件中. 我们添加名为:DMImgUpload的私有消息队列. 2.定义消息队列的连接字符串建议采用IP: (1)FormatN ...
Js模块模式
模块模式索引引子什么是模块模式命名空间模式声明依赖私有和特权成员即时函数揭示模块模式结语引子这篇算是对第9篇中内容的发散和补充,当时我只是把模块模式中的一些内容简单的归为函数篇中 ...
Moq 测试属性，常用方法
RhinoMock入门(7)——Do,With和Record-playback 摘要: (一)Do(delegate)有时候在测试过程中只返回一个静态的值是不够的,在这种情况下,Do()方法可以用来在 ...
SugarSync的API总结
SugarSync API App支持SugarSync网盘的前提: 1.AccessKeyID:xxx 2.Private Access Key:xxx 3.AppID:xxx 详细的API总结如下 ...
Trie字典树算法
特性 Trie树属于树形结构,查询效率比红黑树和哈希表都要快.假设有这么一种应用场景:有若干个英文单词,需要快速查找某个单词是否存在于字典中.使用Trie时先从根节点开始查找,直至匹配到给出字符串的最 ...
api的安全问题
在给第三方系统提供api时,我们需要注意下安全问题. 比较常见的接口有http接口.以http接口为例.我们需要注意的几点: 1.只有被允许的系统才可以调用api 2.如果http请求被截获.也不 ...

二、spark入门之spark shell：文本中发现5个最常用的word

二、spark入门之spark shell：文本中发现5个最常用的word的更多相关文章

随机推荐

热门专题