rdd简单操作

1.原始数据 Key value Transformations(example: ((1, 2), (3, 4), (3, 6)))

2. flatMap测试示例

object FlatMapTran {

  //与map相似，区别是源rdd中的元素经map处理后只能生成一个元素，而原有的rdd中的元素经过flatmap处理后可以生成多个元素

  def main(args: Array[String]) {

    val spark = SparkSession.builder().appName("FlatMapTran").master("local[1]").getOrCreate()

    val sc = spark.sparkContext;

    val lines = sc.parallelize(Array("hi shao", "scala test", "good", "every"))

    lines.foreach(println)

    val line2 = lines.map(line => line.split(" "))

    line2.foreach(println)

    val line3 = lines.map(line => (line,1))

    line3.foreach(println)

    val line4=lines.flatMap(line => line.split(" "))

    line4.foreach(println)

  }

}

　执行结果：　

hi shao

scala test

good

every

[Ljava.lang.String;@129af42

[Ljava.lang.String;@1c9136

[Ljava.lang.String;@1927273

[Ljava.lang.String;@3b9611

(hi shao,1)

(scala test,1)

(good,1)

(every,1)

hi

shao

scala

test

good

every

3.distinct、reducebykey、groupbykey

object RddDistinct {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder().appName("FlatMapTran").master("local[1]").getOrCreate()

    val sc = spark.sparkContext

    //val datas=sc.parallelize(List(("g","23"),(1,"shao"),("haha","23"),("g","23")))

    val datas=sc.parallelize(Array(("g","23"),(1,"shao"),("haha","23"),("g","23")))

    datas.distinct().foreach(println(_))

    /**结果：

      * (haha,23)

        (1,shao)

        (g,23)

      */

    datas.reduceByKey((x,y)=>x+y).foreach(println)

    /**结果：

      * (haha,23)

        (1,shao)

        (g,2323)

      */

    datas.groupByKey().foreach(println(_))

    /**结果：

      * (haha,CompactBuffer(23))

        (1,CompactBuffer(shao))

        (g,CompactBuffer(23, 23))

      *

      */

  }

}

4.combineByKey(create Combiner, merge Value, merge Combiners, partitioner)

最常用的基于key的聚合函数,返回的类型可以与输入类型不一样许多基于key的聚合函数都用到了它,像 groupbykey0

遍历 partition中的元素,元素的key,要么之前见过的,要么不是。如果是新元素,使用我们提供的 createcombiner()函数如果是这个partition中已经存在的key,

就会使用 mergevalue()函数合计每个 partition的结果的时候,使用 merge Combiners()函数

object CombineByKeyTest {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder().appName("FlatMapTran").master("local[1]").getOrCreate()

    val sc = spark.sparkContext

    val scores=sc.parallelize(Array(("jack",99.0),("jack",80.0),("jack",85.0),("jack",89.0),("lily",95.0),("lily",87.0),("lily",87.0),("lily",77.0)))

    //combineByKey(create Combiner, mergevalue, merge Combiners, partitioner)

    //（创建合并器、合并值、合并合并合并器、分区器）

    val scores2=scores.combineByKey(score=>(,score),

                                   (c1:(Int,Double),newScore)=>(c1._1+,c1._2+newScore),

                                   (c1:(Int,Double),c2:(Int,Double))=>(c1._1+c2._1,c1._2+c2._2))

    /**

      * 结果：

      * (lily,(4,346.0))

        (jack,(4,353.0))

      */

    scores2.foreach(println(_))

    scores2.map(score=>{

      (score._1,score._2,score._2._2/score._2._1)

    }).foreach(println(_))

    /**

      * 结果：

      * (lily,(4,346.0),86.5)

        (jack,(4,353.0),88.25)

      */

    scores2.map{case (name,(num,totalScore))=>{

      (name,num,totalScore,totalScore/num)

    }}.foreach(println(_))

    /**

      * 结果：

      * (lily,4,346.0,86.5)

        (jack,4,353.0,88.25)

      */

  }

}

rdd简单操作的更多相关文章

spark RDD 常见操作
fold 操作区别与 co 1.mapValus 2.flatMapValues 3.comineByKey 4.foldByKey 5.reduceByKey 6.groupByKey 7.so ...
spark sql的简单操作
测试数据 sparkStu.text zhangxs chenxy wangYr teacher wangx teacher sparksql { ,"job":"che ...
spark入门（二）RDD基础操作
1 简述 spark中的RDD是一个分布式的元素集合. 在spark中,对数据的所有操作不外乎创建RDD,转化RDD以及调用RDD操作进行求值,而这些操作,spark会自动将RDD中的数据分发到集群上 ...
x01.MagicCube: 简单操作
看最强大脑,发现魔方还是比较好玩的,便买了一个,对照七步还原法,居然也能成功还原. 为什么不写一个魔方程序呢?在网上找了找,略作修改,进行简单操作,还是不错的,其操作代码如下: protected o ...
js简单操作Cookie
贴一段js简单操作Cookie的代码: //获取指定名称的cookie的值 function getCookie(objName) { var arrStr = document.cookie.spl ...
GitHub学习心得之简单操作
作者:枫雪庭出处:http://www.cnblogs.com/FengXueTing-px/ 欢迎转载前言本文对Github的基本操作进行了总结, 主要基于以下文章: http://gitre ...
Linq对XML的简单操作
前两章介绍了关于Linq创建.解析SOAP格式的XML,在实际运用中,可能会对xml进行一些其它的操作,比如基础的增删该查,而操作对象首先需要获取对象,针对于DOM操作来说,Linq确实方便了不少,如 ...
Linux 中 Vi 编辑器的简单操作
Linux 中 Vi 编辑器的简单操作 Vi 编辑器一共有3种模式:命名模式(默认),尾行模式,编辑模式.3种模式彼此需要切换. 一.进入 Vi 编辑器的的命令 vi filename //打开或新 ...
python（pymysql）之mysql简单操作
一.mysql简单介绍说到数据库,我们大多想到的是关系型数据库,比如mysql.oracle.sqlserver等等,这些数据库软件在windows上安装都非常的方便,在Linux上如果要安装数据库 ...

随机推荐

Python接口测试（第一个接口返回的数据作为第二个参数的入参）
python代码如下 import requests url1="http://localhost:8080/pinter/com/getSku?id=1" respon=requ ...
【Weiss】【第03章】练习3.22、3.23、3.24：无代码题，栈的思考题
[练习3.22] a.提出支持栈的Push和Pop操作以及第三种操作FindMin的数据结构,其中FindMin 返回该数据结构的最小元素,所有操作在最坏情况下的运行时间都是O(1). b.证明,如果 ...
MySQL----DQL(查询数据库表中数据)
##DQL:查询表中的记录 1.语法: select 字段列名 from 表名列表 where 条件列表 group by 分组字段 having 分组之后的条件 order by 排序 lim ...
《数据库优化》- MySQL视图
一.什么是视图视图,是基于一个表或多个表或视图的逻辑表,本身不包含数据,通过它可以对表里面的数据进行查询和修改,视图基于的表称为基表.视图是存储在数据字典里的一条select语句. 通俗地讲,视图就 ...
ASP.NET MVC升级到ASP.NET Core MVC踩坑小结
写在前面 ASP.NET Core是微软新推出的支持跨平台.高性能.开源的开发框架,它的优势不必多说,因为已经说得太多了.当然,现在依然有着数量庞大的系统运行于.NET Framework上,由于有大 ...
FTP服务器与客户端的安装与配置
FTP服务器安装与配置 1. 切换到root用户: su root 2. 查看系统中是否安装了vsftpd,可以通过执行命令 : rpm -qa | grep vsftpd 3. 如果没有安装 v ...
Java生鲜电商平台-电商中"再来一单"功能架构与详细设计(APP/小程序)
Java生鲜电商平台-电商中"再来一单"功能架构与详细设计(APP/小程序) 说明:在实际的业务场景中(无论是TO B还是TO C)不管是休闲食品.餐饮.水果.日用百货.母婴等高频 ...
eureka和zookeeper注册中心的区别
ookeeper与Eureka区别 CPA理论:一个分布式系统不可能同时满足C(一致性).A(可用性)和P(分区容错性).由于分区容错性在是分布式系统中必须要保证的,因此我们只能在A和C之间进行权衡. ...
分享个Class工具类
import java.io.File; import java.io.FileFilter; import java.io.IOException; import java.net.JarURLCo ...
Python python 数据类型的相互转换
# number 之间的相互转换 # int <=> float var1 = 1; print(type(var1)) #<class 'int'> res1 = float ...

rdd简单操作

rdd简单操作的更多相关文章

随机推荐

热门专题