一、打印RDD内容

https://blog.csdn.net/wengyupeng/article/details/52808503

1、方法

2种方式:

1              rdd.collect().foreach {println}
2 rdd.take(10).foreach { println } //take(10) 取前10个

2、例子

     val logData = sparkcontext.textFile(logFile, 2).cache()    

     logData.collect().foreach {println}
logData.take(10).foreach { println }

二、Spark RDD Key-Value基本转换和动作运算实例

https://blog.csdn.net/qq_25948717/article/details/81913523

创建Key-Value RDD

kvRDD1 = sc.parallelize([(3,6),(6,9),(3,4),(5,6),(1,2)])

转换:取key和value

>>> kvRDD1.collect()
[(3, 6), (6, 9), (3, 4), (5, 6), (1, 2)]
>>> kvRDD1.keys().collect()
[3, 6, 3, 5, 1]
>>> kvRDD1.values().collect()
[6, 9, 4, 6, 2]

filter:

>>> kvRDD1.filter(lambda keyValue:keyValue[0]<5).collect()
[(3, 6), (3, 4), (1, 2)]
>>> kvRDD1.filter(lambda keyValue:keyValue[1]<5).collect()
[(3, 4), (1, 2)]

mapValues:针对RDD每一组(Key,Value)进行运算

>>> kvRDD1.mapValues(lambda x:x**2).collect()
[(3, 36), (6, 81), (3, 16), (5, 36), (1, 4)]

sortByKey:默认从小到大按照key排序

>>> kvRDD1.sortByKey(ascending=True).collect()
[(1, 2), (3, 6), (3, 4), (5, 6), (6, 9)]

reduceByKey():按照key值进行reduce运算,将相同的key的value相加

>>> kvRDD1.reduceByKey(lambda x,y:x+y).collect()
[(5, 6), (1, 2), (6, 9), (3, 10)]
多个RDD Key-Value转换运算

>>> kvRDD2 = sc.parallelize([(3,6),(3,8),(6,12)])
>>> kvRDD1 = sc.parallelize([(3,6),(6,9),(3,4),(5,6),(1,2)])

jion:将两个RDD按照相同的key值jion起来

>>> kvRDD1.join(kvRDD2).collect()
[(3, (6, 6)), (3, (6, 8)), (3, (4, 6)), (3, (4, 8)), (6, (9, 12))]

leftOuterJoin:如何左边的key值在右边中没有,那么join时value就显示None

>>> kvRDD1.leftOuterJoin(kvRDD2).collect()
[(1, (2, None)), (3, (6, 6)), (3, (6, 8)), (3, (4, 6)), (3, (4, 8)), (5, (6, None)), (6, (9, 12))]

>>> kvRDD1.rightOuterJoin(kvRDD2).collect()
[(3, (6, 6)), (3, (6, 8)), (3, (4, 6)), (3, (4, 8)), (6, (9, 12))]

subtractByKey:删除相同key的数据

>>> kvRDD1.subtractByKey(kvRDD2).collect()
[(1, 2), (5, 6)]
Key-Value动作运算

>>> kvRDD1.first()
(3, 6)
>>> kvRDD1.take(3)
[(3, 6), (6, 9), (3, 4)]
>>> kvRDD1.first()[0]
3
>>> kvRDD1.first()[1]
6
>>> kvRDD1.countByKey()
defaultdict(<class 'int'>, {3: 2, 6: 1, 5: 1, 1: 1})

查看key值得value有那些?

>>> kvRDD1.lookup(3)
[6, 4]

三、RDD与dataframe的转换

https://blog.csdn.net/lxhandlbb/article/details/52367605

DataFrame是一个带有列名的分布式数据集合。等同于一张关系型数据库中的表或者R/Python中的data frame,不过在底层做了很多优化;我们可以使用结构化数据文件、Hive tables,外部数据库或者RDDS来构造DataFrames。
一、利用反射推断Schema

Spark SQL能够将含Row对象的RDD转换成DataFrame,并推断数据类型。通过将一个键值对(key/value)列表作为kwargs传给Row类来构造Rows。key定义了表的列名,类型通过看第一列数据来推断。(所以这里RDD的第一列数据不能有缺失)未来版本中将会通过看更多数据来推断数据类型,像现在对JSON文件的处理一样。
二、编程指定Schema

通过编程指定Schema需要3步:

1.从原来的RDD创建一个元祖或列表的RDD。
2.用StructType 创建一个和步骤一中创建的RDD中元祖或列表的结构相匹配的Schema。
3.通过SQLContext提供的createDataFrame方法将schema 应用到RDD上。

spark学习(2)---RDD的更多相关文章

  1. Spark学习之RDD编程(2)

    Spark学习之RDD编程(2) 1. Spark中的RDD是一个不可变的分布式对象集合. 2. 在Spark中数据的操作不外乎创建RDD.转化已有的RDD以及调用RDD操作进行求值. 3. 创建RD ...

  2. Spark学习之RDD

    RDD概述 什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行计算的集合 ...

  3. Spark学习之RDD编程总结

    Spark 对数据的核心抽象——弹性分布式数据集(Resilient Distributed Dataset,简称 RDD).RDD 其实就是分布式的元素集合.在 Spark 中,对数据的所有操作不外 ...

  4. Spark学习笔记——RDD编程

    1.RDD——弹性分布式数据集(Resilient Distributed Dataset) RDD是一个分布式的元素集合,在Spark中,对数据的操作就是创建RDD.转换已有的RDD和调用RDD操作 ...

  5. spark学习(10)-RDD的介绍和常用算子

    RDD(弹性分布式数据集,里面并不存储真正要计算的数据,你对RDD的操作,他会在Driver端转换成Task,下发到Executor计算分散在多台集群上的数据) RDD是一个代理,你对代理进行操作,他 ...

  6. Spark学习之RDD的理解

    转自:http://www.infoq.com/cn/articles/spark-core-rdd/ 感谢张逸老师的无私分享 RDD,全称为Resilient Distributed Dataset ...

  7. spark 学习(二) RDD及共享变量

    声明:本文基于spark的programming guide,并融合自己的相关理解整理而成      Spark应用程序总是包括着一个driver program(驱动程序),它运行着用户的main方 ...

  8. spark学习(RDD案例实战)

    练习0(并行化创建RDD) 先启动spark-shell 通过并行化生成rdd scala> val rdd1 = sc.parallelize(List(63,45,89,23,144,777 ...

  9. Spark学习(2) RDD编程

    什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.弹性.里面的元素可并行计算的集合 RDD允 ...

  10. Spark学习摘记 —— RDD行动操作API归纳

    本文参考 参考<Spark快速大数据分析>动物书中的第三章"RDD编程",前一篇文章已经概述了转化操作相关的API,本文再介绍行动操作API 和转化操作API不同的是, ...

随机推荐

  1. Django缓存系统选择之Memcached与Redis的区别与性能对比

    Django支持使用Memcached和Redis这两种流行的内存型数据库作为缓存系统.我们今天来看Memcached和Redis的区别和性能对比. redis和memcached的区别 1.Redi ...

  2. sql server 变量 字符串拼接

    参考:SQL server中null+字符串,isnull以及把查询结果赋给一个字符变量组成另一个查询语句  1.开始定义的字符串都为null.例如:declare @sql,那么@sql就是null ...

  3. (转)ASP.NET 4.0 尚未在 Web 服务器上注册

    安装vs2010的时候忘记先安装IIS7了,导致出现了这个问题.经过网络查询发现解决方法如下: 运行:cmd命令,进入命令管理器, 输入:cd C:\\WINDOWS\\Microsoft.NET\\ ...

  4. 小程序 video 层级,原生组件

    原生组件的层级是最高的,所以页面中的其他组件无论设置 z-index 为多少,都无法盖在原生组件上. 后插入的原生组件可以覆盖之前的原生组件. 原生组件还无法在 scroll-view.swiper. ...

  5. linux 磁盘 分区、格式化、挂载

    将容量结果易读的容量格式显示出来df -h 分区 初次接触仅分成两个分区(“/与Swap”)预留一个备用的剩余磁盘容量 磁盘分区 fdisk #df /找出磁盘文件名#fdisk /dev/hdc#m ...

  6. [USACO 2012 Jan Silver] Delivery Route【拆点】

    传送门:http://www.usaco.org/index.php?page=viewproblem2&cpid=106 这道题还真是完全没思路,真的不知道怎么做,但是看了题解后恍然大悟. ...

  7. 题解报告:hdu 2058 The sum problem

    题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=2058 问题描述 给定一个序列1,2,3,...... N,你的工作是计算所有可能的子序列,其子序列的总 ...

  8. C#内存映射文件学习[转]

    原文链接 内存映射文件是由一个文件到进程地址空间的映射. C#提供了允许应用程序把文件映射到一个进程的函(MemoryMappedFile.CreateOrOpen).内存映射文件与虚拟内存有些类似, ...

  9. 动态生成li标签,并设置点击事件

    今天要解释的是如下界面              主要实现了: 1.模拟后台的json数据,动态生成li标签 2.导航栏的下划线 3.给li标签右边设置图片 4.动态生成的li标签,设置选中的li的点 ...

  10. 开发一个 Web App 必须了解的那些事

    在过去的一年里,我在从头开始开发我的第一个重要的Web应用.经验教会了很多以前不知道的东西,特别是在安全性和用户体验方面. 值得一提的是,我上一次尝试构建的任何合理复杂性是在2005年.所以,在安全防 ...