006 Spark中的wordcount以及TopK的程序编写

1.启动

　　启动HDFS

　　启动spark的local模式./spark-shell

2.知识点

　textFile:

  def textFile(
    path: String,
    minPartitions: Int = defaultMinPartitions): RDD[String]

　Filter:　

　　Return a new RDD containing only the elements that satisfy a predicate.

　　def filter(f: T => Boolean): RDD[T],返回里面判断是true的RDD。

　map:

  Return a new RDD by applying a function to all elements of this RDD.

　def map[U: ClassTag](f: T => U): RDD[U],从T到U类型的一个数据转换函数，最终返回的RDD中的数据类型是f函数返回的数据类型

　flatMap：

    Return a new RDD by first applying a function to all elements of this
RDD, and then flattening the results.

    def flatMap[U: ClassTag](f: T => TraversableOnce[U]): RDD[U]
　　从T到集合类型的数据类型转换，集合中的数据类型是U，最终返回的RDD数据类型是f函数返回的集合中的具体的类型数据。

3.编写基础的wordcount程序

 //读取文件

 val rdd=sc.textFile("wc/input/wc.input")

 //过滤数据

 val filterRdd=rdd.filter(len=>len.length>0)

 //数据转换

 val flatMapRdd=filterRdd.flatMap(line=>line.split(" ")

     .map(word=>(word,1)))

 //分组

 val groupByRdd=flatMapRdd.groupBy(tuple=>tuple._1)

 //聚合

 val wordCount=groupByRdd.map(tuple=>{

     val word=tuple._1

     val sum=tuple._2.toList.foldLeft(0)((a,b)=>a+b._2)

     (word,sum)

 })

 //输出

 wordCount.foreach(println)             //控制台上的输出

 wordCount.saveAsTextFile("wc/output6") //HDFS上的输出

4.简化代码（链式编程）

 sc.textFile("wc/input/wc.input").

 //数据过滤

 filter(_.length>0).

 //数据转换

 flatMap(_.split(" ").map((_,1))).

 //分组

 groupByKey().

 //统计

 map(tuple=>(tuple._1,tuple._2.toList.sum)).

 //输出

 saveAsTextFile("wc/output7")

5.最优化程序

　　reduceByKey存在combiner。

　　groupBy在大数据量的情况下，会出现OOM

 sc.textFile("wc/input/wc.input").

 //数据过滤

 filter(_.length>0).

 //数据转换

 flatMap(_.split(" ").map((_,1))).

 //统计

 reduceByKey(_+_).

 //输出

 saveAsTextFile("wc/output8")

6.显示结果

 sc.textFile("wc/input/wc.input").

 //数据过滤

 filter(_.length>).

 //数据转换

 flatMap(_.split(" ").map((_,))).

 //统计

 reduceByKey(_+_).

 collect()

7.排序（第二个数，从大到小）

 sc.textFile("wc/input/wc.input").

 //数据过滤

 filter(_.length>).

 //数据转换

 flatMap(_.split(" ").map((_,))).

 //统计

 reduceByKey(_+_).

 //排序

 sortBy(tuple=>tuple._2,ascending=false).

 collect()

8.TopK(方式一)

 sc.textFile("wc/input/wc.input").

 //数据过滤

 filter(_.length>).

 //数据转换

 flatMap(_.split(" ").map((_,))).

 //统计

 reduceByKey(_+_).

 //排序

 sortBy(tuple=>tuple._2,ascending=false).

 take()

9.TopK（方式二，自定义）

 sc.textFile("wc/input/wc.input").

 //数据过滤

 filter(_.length>).

 //数据转换

 flatMap(_.split(" ").map((_,))).

 //统计

 reduceByKey(_+_).

 //排序

 sortBy(tuple=>tuple._2,ascending=false).

 top()(new scala.math.Ordering[(String,Int)](){

     override def compare(x:(String,Int),y:(String,Int))={

         val tmp=x._2.compare(y._2)

         if(tmp!=) tmp

         else x._1.compare(x._1)

     }

     })

006 Spark中的wordcount以及TopK的程序编写的更多相关文章

Spark中的Wordcount
目录通过scala语言基于local编写spark的Wordcount 基于yarn去调度WordCount 通过scala语言基于local编写spark的Wordcount import org ...
Spark中的wordCount程序实现
import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.s ...
spark 中的RDD编程 -以下基于Java api
1.RDD介绍: RDD,弹性分布式数据集,即分布式的元素集合.在spark中,对所有数据的操作不外乎是创建RDD.转化已有的RDD以及调用RDD操作进行求值.在这一切的背后,Spark会自动 ...
大话Spark(3)-一图深入理解WordCount程序在Spark中的执行过程
本文以WordCount为例, 画图说明spark程序的执行过程 WordCount就是统计一段数据中每个单词出现的次数, 例如hello spark hello you 这段文本中hello出现2次 ...
Spark初步从wordcount开始
Spark初步-从wordcount开始 spark中自带的example,有一个wordcount例子,我们逐步分析wordcount代码,开始我们的spark之旅. 准备工作把README.md ...
【Spark篇】---Spark中Shuffle机制，SparkShuffle和SortShuffle
一.前述 Spark中Shuffle的机制可以分为HashShuffle,SortShuffle. SparkShuffle概念 reduceByKey会将上一个RDD中的每一个key对应的所有val ...
020 Spark中分组后的TopN，以及Spark的优化（重点）
一:准备 1.源数据 2.上传数据二:TopN程序编码 1.程序 package com.ibeifeng.bigdata.spark.core import java.util.concurren ...
intellij-idea打包Scala代码在spark中运行
.创建好Maven项目之后(记得添加Scala框架到该项目),修改pom.xml文件,添加如下内容: <properties> <spark.version></spar ...
spark中的RDD以及DAG
今天,我们就先聊一下spark中的DAG以及RDD的相关的内容 1.DAG:有向无环图:有方向,无闭环,代表着数据的流向,这个DAG的边界则是Action方法的执行 2.如何将DAG切分stage,s ...

随机推荐

Java EE 之Hibernate异常总结【1】org.hibernate.LazyInitializationException: could not initialize proxy - no Session
字面意义就是不能被初始化. 简单理解就是因为,你使用了lazy=true,这样hibernate在从数据库中调数据的时候是不会把关联的对象查出来的,而是保存一个获取值得方法,在你使用getXXX()调 ...
Python3之网络爬虫<0>初级
由于Python3合并URLib与URLlib2统一为URLlib,Python3将urlopen方法放在了urllib.request对象下. 官方文档:https://docs.python.or ...
【文件】java生成PDF文件
package test; import java.awt.Color; import java.io.FileOutputStream; import org.junit.Test; import ...
梯度优化算法总结以及solver及train.prototxt中相关参数解释
参考链接:http://sebastianruder.com/optimizing-gradient-descent/ 如果熟悉英文的话,强烈推荐阅读原文,毕竟翻译过程中因为个人理解有限,可能会有谬误 ...
linux中结构体对齐【转】
转自:https://blog.csdn.net/suifengpiao_2011/article/details/47260085 linux中定义对齐字节 typedef struct sdk_ ...
Linux系统调用的运行过程【转】
本文转自:http://blog.csdn.net/kernel_learner/article/details/7331505 在Linux中,系统调用是用户空间访问内核的唯一手段,它们是内核唯一的 ...
java.sql.SQLException: ORA-28040: 没有匹配的验证协议（12c或者12c rac）
1.plsql可以连接,java程序不能连接,报如下错误: 一直以来用的都是服务器上的Oracle数据库,今天改成连接本地Oracle 12c数据库是出问题了.hibernate连接Oracle12c ...
windows系统上搭建redis集群哨兵及主从复制
搭建master 修改redis配置redis.windows.conf: 修改监听端口: port 26379 修改绑定IP: bind 127.0.0.1 添加redis日志:logfile & ...
java中集合的组成及特点
1:集合 Collection(单列集合) List(有序,可重复) ArrayList 底层数据结构是数组,查询快,增删慢线程不安全,效率高 Vector 底层数据结构是数组,查询快,增删慢线程 ...
《TCP/IP 详解卷1：协议》第 3 章：链路层
在体系结构中,我们知道:链路层(或数据链路层)包含为共享相同介质的邻居建立连接的协议和方法,同时,设计链路层的目的是为 IP 模块发送和接受 IP 数据报,链路层可用于携带支持 IP 的辅助性协议,例 ...

006 Spark中的wordcount以及TopK的程序编写

006 Spark中的wordcount以及TopK的程序编写的更多相关文章

随机推荐

热门专题