4 pyspark学习---RDD

开始新的东西，其实很多操作在第二篇的时候就有所介绍啦。在这里继续学习一遍加深一下印象。

1关于RDD

(1) RDD-----Resilient Distributed Dataset，弹性分布式数据集。这些元素在多个节点上运行和操作，以便在集群上进行并行处理。

(2)RDD是弹性得。

比如map操作，可以拆分成对数据块得直接计算而不涉及其他节点。这样得操作只是在一个节点上面直接得操作，不会影响RDD得操作。但是也有比如groupBy，在不完全知道每个key得分布得时候，必须遍历RDD所有得数据块，然后将相同得key汇聚。

(2)转换----->行动

转换操作比如Fileter groupBy，map等

行动操作比如collect

2 例子

 # coding:utf-8

 from pyspark import SparkContext, SparkConf

 from operator import add

 sc = SparkContext()

 words = sc.parallelize (

    ["scala",

    "java",

    "hadoop",

    "spark",

    "akka",

    "spark vs hadoop",

    "pyspark",

    "pyspark and spark"]

 )

 #输出rdd元素个数count

 counts = words.count()

 print counts

 #输出所有得元素collect

 print 'elements in RDD->%s'%(words.collect())

 #输出满足条件得元素foreach

 def f(x):print(x)

 fore = words.foreach(f)

 #返回新的RDD 满足相应得条件 filter

 words_filter = words.filter(lambda x: 'spark' in x).collect()

 print words_filter

 #返回新的RDD 满足相应得条件 map value都为1

 words_map = words.map(lambda x: (x,1))

 #reduce 引入add

 nums = sc.parallelize([1,2,3,4,5])

 adding = nums.reduce(add)#

 #cache 持久RDD 判断是否是持久

 print words.persist().is_cached

好了加油！

4 pyspark学习---RDD的更多相关文章

5 pyspark学习---Broadcast&Accumulator&sparkConf
1 对于并行处理,Apache Spark使用共享变量.当驱动程序将任务发送给集群上的执行者时,集群中的每个节点上都有一个共享变量的副本,这样就可以用于执行任务了. 2 两种支持得类型 (1)Broa ...
3 pyspark学习---sparkContext概述
1 Tutorial Spark本身是由scala语言编写,为了支持py对spark的支持呢就出现了pyspark.它依然可以通过导入Py4j进行RDDS等操作. 2 sparkContext (1) ...
2 pyspark学习----基本操作
1 spark的python环境部署可以参照上面一篇哟.http://www.cnblogs.com/lanjianhappy/p/8705974.html 2 pyspark的基本操作. # cod ...
（2）pyspark建立RDD以及读取文件成dataframe
别人的相关代码文件:https://github.com/bryanyang0528/hellobi/tree/master/pyspark 1.启动spark (1)SparkSession 是 S ...
pyspark学习笔记
记录一些pyspark常用的用法,用到的就会加进来 pyspark指定分区个数通过spark指定最终存储文件的个数,以解决例如小文件的问题,比hive方便,直观有两种方法,repartition, ...
【Spark】【RDD】初次学习RDD 笔记汇总
RDD Author:萌狼蓝天 [哔哩哔哩]萌狼蓝天 [博客]https://mllt.cc [博客园]萌狼蓝天 - 博客园 [微信公众号]mllt9920 [学习交流QQ群]238948804 目录 ...
pyspark 学习笔记
from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark S ...
【Spark】快来学习RDD的创建以及操作方式吧！
目录 RDD的创建三种方式从一个集合中创建从文件中创建从其他的RDD转化而来 RDD编程常用API 算子分类 Transformation 概述帮助文档常用Transformation表 ...
Spark RDD设计学习笔记
本文档是学习RDD经典论文<Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster ...

随机推荐

[Codevs 1230]元素查找(手写哈希表)
题目连接:http://codevs.cn/problem/1230/ 说白了就是要我们自己手写一个哈希表的数据结构来实现加入和查找功能.map也能直接过(我第一次写就是用map骗AC的) 提一下个人 ...
ubuntu 下的中文输入法的安装和配置- ibus
ibus输入法 Chinese语言包安装首先需要给Ubuntu16.04安装Chinese语言包支持. 如上图点击其中的Install/Remove Languages…,这个对话框是通过syst ...
.Net Core表单定义
创建表单 <form asp-controller="Account" asp-action="Login" asp-route-returnurl=&q ...
图像处理之滤波---gabor
http://blog.csdn.net/xiaowei_cqu/article/details/24745945 小魏北大
Android 开发之static引发的冤案
前段时间在android手机系统上开发一个小东西,先介绍一下他吧: 就是当手指点击屏幕不论什么地方的时候会出现点击的特效,就是在你点击屏幕的地方会出现各种效果,比方:雪花纷飞;出现五彩的肥皂泡:鲜花盛 ...
关于wpf中popup跟随鼠标移动显示
最近在做一个画图工具,里面有一个功能是需要实现,当鼠标移动的时候在,鼠标的旁边显示坐标信息. 第一反应是想到了tooltip,但是tooltip有许多的限制,查询资料的过程中看到了popup,popu ...
监控hadoop任务结果shell脚本
需求:每日hadoop结果文件中,找出数据不完整的日期和没有跑出数据的日期,重新进行跑hadoop任务分析:在result/目录生成的文件中数据有2个特点第一:日期有,但是数据不完整第二:日期对 ...
Java类加载器( 死磕 6)
[正文]Java类加载器( CLassLoader )死磕 6: 自定义网络类加载器本小节目录 6.1. 自定义网络类加载器的类设计 6.2. 文件传输Server端的源码 6.3. 文件传输C ...
配置tomcat，访问端口改为80
首先:找到tomcat的的config文件夹下的server.xml文件: 编辑server.xml 保存server.xml文件,重启tomcat服务器,即可. 亲测好使.
linux定期判断网站可否打开
wget http://www.shopindream.de/200.php --timeout=2 c_monitor=$? rm -rf 200.php if [ ! $c_monitor = ...

4 pyspark学习---RDD

4 pyspark学习---RDD的更多相关文章

随机推荐

热门专题