Spark中RDD的常用操作（Python）

弹性分布式数据集（RDD）

Spark是以RDD概念为中心运行的。RDD是一个容错的、可以被并行操作的元素集合。创建一个RDD有两个方法：在你的驱动程序中并行化一个已经存在的集合；从外部存储系统中引用一个数据集。RDD的一大特性是分布式存储，分布式存储在最大的好处是可以让数据在不同工作节点并行存储，以便在需要数据时并行运算。弹性指其在节点存储时，既可以使用内存，也可已使用外存，为使用者进行大数据处理提供方便。除此之外，RDD的另一大特性是延迟计算，即一个完整的RDD运行任务被分为两部分：Transformation和Action

1.Transformation

Transformation用于对RDD的创建，RDD只能使用Transformation创建，同时还提供大量操作方法，包括map，filter，groupBy，join等，RDD利用这些操作生成新的RDD，但是需要注意，无论多少次Transformation，在RDD中真正数据计算Action之前都不可能真正运行。

2.Action

Action是数据执行部分，其通过执行count，reduce，collect等方法真正执行数据的计算部分。实际上，RDD中所有的操作都是Lazy模式进行，运行在编译中不会立即计算最终结果，而是记住所有操作步骤和方法，只有显示的遇到启动命令才执行。这样做的好处在于大部分前期工作在Transformation时已经完成，当Action工作时，只需要利用全部自由完成业务的核心工作。

下面是在python中对RDD的生成，以及一些基本的Transformation，Action操作。

# -*- coding:utf-8 -*-

from pyspark import SparkContext, SparkConf

from pyspark.streaming import StreamingContext

import math

appName ="jhl_spark_1" #你的应用程序名称

master= "local"#设置单机

conf = SparkConf().setAppName(appName).setMaster(master)#配置SparkContext

sc = SparkContext(conf=conf)

# parallelize：并行化数据，转化为RDD

data = [1, 2, 3, 4, 5]

distData = sc.parallelize(data, numSlices=10)  # numSlices为分块数目，根据集群数进行分块

# textFile读取外部数据

rdd = sc.textFile("./c2.txt")  # 以行为单位读取外部文件，并转化为RDD

print rdd.collect()

# map：迭代，对数据集中数据进行单独操作

def my_add(l):

    return (l,l)

data = [1, 2, 3, 4, 5]

distData = sc.parallelize(data)  # 并行化数据集

result = distData.map(my_add)

print (result.collect())  # 返回一个分布数据集

# filter：过滤数据

def my_add(l):

    result = False

    if l > 2:

        result = True

    return result

data = [1, 2, 3, 4, 5]

distData = sc.parallelize(data)#并行化数据集，分片

result = distData.filter(my_add)

print (result.collect())#返回一个分布数据集

# zip：将两个RDD对应元素组合为元组

x = sc.parallelize(range(0,5))

y = sc.parallelize(range(1000, 1005))

print x.zip(y).collect()

#union 组合两个RDD

print x.union(x).collect()

# Aciton操作

# collect：返回RDD中的数据

rdd = sc.parallelize(range(1, 10))

print rdd

print rdd.collect()

# collectAsMap:以rdd元素为元组，以元组中一个元素作为索引返回RDD中的数据

m = sc.parallelize([('a', 2), (3, 4)]).collectAsMap()

print m['a']

print m[3]

# groupby函数：根据提供的方法为RDD分组：

rdd = sc.parallelize([1, 1, 2, 3, 5, 8])

def fun(i):

    return i % 2

result = rdd.groupBy(fun).collect()

print [(x, sorted(y)) for (x, y) in result]

# reduce：对数据集进行运算

rdd = sc.parallelize(range(1, 10))

result = rdd.reduce(lambda a, b: a + b)

print result

　除上述以外，对RDD还存在一些常见数据操作如：

name()返回rdd的名称

min()返回rdd中的最小值

sum()叠加rdd中所有元素

take（n）取rdd中前n个元素

count（）返回rdd的元素个数

Spark中RDD的常用操作（Python）的更多相关文章

spark中RDD的转化操作和行动操作
本文主要是讲解spark里RDD的基础操作.RDD是spark特有的数据模型,谈到RDD就会提到什么弹性分布式数据集,什么有向无环图,本文暂时不去展开这些高深概念,在阅读本文时候,大家可以就把RDD当 ...
超详细！盘点Python中字符串的常用操作
在Python中字符串的表达方式有四种一对单引号一对双引号一对三个单引号一对三个双引号 a = 'abc' b= "abc" c = '''abc''' d = " ...
关于Spark中RDD的设计的一些分析
RDD, Resilient Distributed Dataset,弹性分布式数据集, 是Spark的核心概念. 对于RDD的原理性的知识,可以参阅Resilient Distributed Dat ...
Spark 中 RDD的运行机制
1. RDD 的设计与运行原理 Spark 的核心是建立在统一的抽象 RDD 之上,基于 RDD 的转换和行动操作使得 Spark 的各个组件可以无缝进行集成,从而在同一个应用程序中完成大数据计算任务 ...
[Spark] Pair RDD常见转化操作
本篇博客中的操作都在 ./bin/pyspark 中执行. 对单个 Pair RDD 的转化操作下面会对 Pair RDD 的一些转化操作进行解释.先假设我们有下面这些RDD(在pyspark中操作 ...
.NET中DataTable的常用操作
一.目的在各种.NET开发中,DataTable都是一个非常常见且重要的类型,在与数据打交道的过程中可以说是必不可少的对象. 它功能强大,属性与功能也是相当丰富,用好的话,使我们在处理数据时,减少很 ...
web自动化测试---测试中其他一些常用操作
一些其他常用操作如下: 1.最大化浏览器窗口 driver.maximize_window() 2.后退 driver.back() 3.前进 driver.forward() 4.刷新操作 driv ...
python中字符串(str)常用操作总结
# 字符串的常用操作方法 (都是形成新的字符串,与原字符串没有关系.) 1.字符串的基本操作之切片 s = 'python hello word' # 取首不取尾,取尾要+1 # 切片取出来的字符串与 ...
关于《Selenium 2自动化测试实战基于Python语言》学习过程中键盘的常用操作
下边是自己在学习过程中总结的一些常用键盘的操作

随机推荐

Adobe Acrobat 9 Pro破解方法
首先安装Adobe Acrobat 9 Pro,默认安装在C盘. 如果你的系统盘是C盘,那么就删除:c:/Documents and Settings/All Users/Application Da ...
andriod studio报错 Emulator: emulator: ERROR: x86 emulation currently requires hardware acceleration! Emulator: Process finished with exit code 1
安装即可,再次运行svd,成功
让thinkphp 5 支持pathinfo 的 nginx ,去掉index.php
在TP5.0中查阅tp5官方文档,注意:5.0取消了URL模式的概念,并且普通模式的URL访问不再支持.phthinfo 是什么? PHP中的全局变量$_SERVER['PATH_INFO']是一个很 ...
《DSP using MATLAB》示例Example 6.27
代码: % r = 0.9; theta = (pi/180)*[-55:5:-35, 35:5:55]'; p = r*exp(j*theta); a = poly(p); b = 1; w = [ ...
uva 11237 - Halloween treats(抽屉原理)
版权声明:本文为博主原创文章.未经博主同意不得转载. https://blog.csdn.net/u011328934/article/details/37612503 题目链接:uva 11237 ...
【转】一步一步教你在Ubuntu12.04搭建gstreamer开发环境
原文网址:http://blog.csdn.net/xsl1990/article/details/8333062 闲得蛋疼无聊寂寞冷随便写写弄弄看到网上蛮多搭建gstreamer开 ...
LINK : warning LNK4098: 默认库“LIBCMTD”与其他库的使用冲突；请使用 /NODEFAULTLIB:library
LINK : warning LNK4098: 默认库“LIBCMTD”与其他库的使用冲突:请使用 /NODEFAULTLIB:library 转自:http://blog.csdn.net/pgms ...
c#QQ邮件编程学习（收发邮件）
本次c#实现邮件管理编程的目的是实现第三方邮件管理,邮箱基于QQ邮箱,发送邮件直接采用.NET自带的System.Net.Mail类,接收邮件采用第三方组件Lumisoft.Net.现将基本实现的接收 ...
clientHeight , scrollHeight , offsetHeight之间的区别及兼容方案
clientHeight , scrollHeight , offsetHeight相信每个人都用过,可是每次用都要查一下到底哪个是文档大小哪个是视口大小,还有头疼的兼容问题. 先来官方的了解一下这三 ...
Mac Terminal终端光标的快捷键操作
2016年08月18日 18:26:06 阅读数:4217 Mac Terminal终端和linux上终端光标的快捷键操作是一样的,都是来自Emacs这个神级的编辑器,由于我以前vim用的多,没怎么用 ...

Spark中RDD的常用操作（Python）

弹性分布式数据集（RDD）

Spark中RDD的常用操作（Python）的更多相关文章

随机推荐

热门专题