2 pyspark学习----基本操作

1 spark的python环境部署可以参照上面一篇哟。http://www.cnblogs.com/lanjianhappy/p/8705974.html

2 pyspark的基本操作。

 # coding:utf-8

 from pyspark import SparkContext, SparkConf

 sc = SparkContext()#init contet

 intRDD = sc.parallelize([3,1,2,5,5])#create RDD

 stringRDD = sc.parallelize(['apple','orange','yellow'])

 print intRDD.collect()#transfrom to python

 print stringRDD.collect()

 #每个元素+1

 print intRDD.map(lambda x:x+1).collect()#4,2,3,6,6

 #输出小于3

 print intRDD.filter(lambda x:x<3).collect()#print number<3 in RDD

 print stringRDD.filter(lambda x:'ra' in x).collect()#print contain 'ra'

 print intRDD.distinct().collect()

 #奇数偶数分开

 result = intRDD.groupBy(lambda x:x%2).collect()

 print sorted([(x,sorted(y)) for(x,y) in result])

 #多个RDD并集

 intRDD1 = sc.parallelize([3,1,2,3,5])

 intRDD2 = sc.parallelize([8,2,1,9,5])

 intRDD3 = sc.parallelize([7,1,3,4,7])

 print intRDD1.union(intRDD2).union(intRDD3).collect()

 #交集

 print intRDD1.intersection(intRDD2)

 #差集

 print intRDD1.subtract(intRDD2)

 #笛卡尔集

 print intRDD1.cartesian(intRDD2).collect()#返回10个元素

 #读取元素

 #取第一条数据

 print intRDD.first()

 #取前两条数据

 print intRDD.take(2)

 #升序排列，并取前3条数据

 print intRDD.takeOrdered(3)

 #降序排列，并取前3条数据

 print intRDD.takeOrdered(3,lambda x:-x)

 #统计功能 min max stdev count sum mean

 print intRDD.stats()

 #转换操作

 kvRDDW1 = sc.parallelize([(1,2),(3,4),(5,6),(7,8)])

 #分别得到keys values

 print kvRDDW1.keys().collect()#1 3 5 7

 print kvRDDW1.values().collect()#2 4 6 8

 #筛选元素 筛选小于5的数据 x[0]按照值 x[1]按照键

 print kvRDDW1.filter(lambda x:x[0]<5).collect()

 print kvRDDW1.filter(lambda x:x[1]<5).collect()

 #值运算 mapvalues处理value

 print kvRDDW1.mapValues(lambda  x:x**2).collect()

 #按照key排序

 print kvRDDW1.sortByKey().collect()

 print kvRDDW1.sortByKey(True).collect()

 print kvRDDW1.sortByKey(False).collect()#倒序

 #对具有相同key的进行合并

 print kvRDDW1.reduceByKey(lambda x,y:x+y).collect()

 #多个RDD相同的key进行内连接

 kvRDD1 = sc.parallelize([(3,4),(3,6),(5,6),(1,2)])

 kvRDD2 = sc.parallelize([(3,8)])

 print kvRDD1.join(kvRDD2).collect()#[(3, (4, 8)), (3, (6, 8))]

 #key值统计

 print kvRDD1.countByKey().collect()

 #lookup 根据key查找对应的value

 print kvRDD1.lookup(3)

加油！

2 pyspark学习----基本操作的更多相关文章

Docker 学习基本操作与守护式容器
Docker 学习基本操作与守护式容器容器操作运行容器 docker run --name指定名字 -istdin -ttty虚拟终端在终端中用 exit 即可退出容器,并结束运行查看容器 p ...
5 pyspark学习---Broadcast&Accumulator&sparkConf
1 对于并行处理,Apache Spark使用共享变量.当驱动程序将任务发送给集群上的执行者时,集群中的每个节点上都有一个共享变量的副本,这样就可以用于执行任务了. 2 两种支持得类型 (1)Broa ...
4 pyspark学习---RDD
开始新的东西,其实很多操作在第二篇的时候就有所介绍啦.在这里继续学习一遍加深一下印象. 1关于RDD (1) RDD-----Resilient Distributed Dataset,弹性分布式数据 ...
Neo4j学习——基本操作（一）
由于开始学习知识图谱,因此需要涉及到neo4j的使用一.介绍neo4j是一个图形数据库基于Java开发而成,因此需要配置jvm才可以运行配置请参考我前面的一篇blog:https://www.cnbl ...
关于embedding-深度学习基本操作【Word2vec, Item2vec，graph embedding】
https://zhuanlan.zhihu.com/p/26306795 https://arxiv.org/pdf/1411.2738.pdf https://zhuanlan.zhihu.com ...
3 pyspark学习---sparkContext概述
1 Tutorial Spark本身是由scala语言编写,为了支持py对spark的支持呢就出现了pyspark.它依然可以通过导入Py4j进行RDDS等操作. 2 sparkContext (1) ...
pyspark学习笔记
记录一些pyspark常用的用法,用到的就会加进来 pyspark指定分区个数通过spark指定最终存储文件的个数,以解决例如小文件的问题,比hive方便,直观有两种方法,repartition, ...
pyspark 学习笔记
from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark S ...
C++ 学习路线推荐
相信有非常大一部分学计算机的童鞋都是靠自学,即使本身是计算机专业的同学,也会认为只通过课堂上的学习是远远不够的,并且在上课时所用到的教材也不够好.然而自学的时候有个非常大的问题就是找不到合适的 ...

随机推荐

【每日Scrum】第三天（4.24） TD学生助手Sprint2站立会议
站立会议组员昨天今天困难签到刘铸辉 (组长) 今天主要看了多事件处理的内容然后改了下界面, 和小楠重写架构,使代码更加简洁,并增加了几个界面架构太难,数据库字段总出问题 Y 刘静添加事 ...
测试 MD
上面是一张图片总店?
FALSE_IT
本文讲一个实用的语法糖(suger),很不错,攻克了我实际工作中的问题. 如果你写了这样一个类: class Executor { int step1(); void step2(); int ste ...
caffe训练自己的图片进行分类预测--windows平台
caffe训练自己的图片进行分类预测标签: caffe预测 2017-03-08 21:17 273人阅读评论(0) 收藏举报分类: caffe之旅(4) 版权声明:本文为博主原创文章,未 ...
UVA - 11827 - Maximum GCD,10200 - Prime Time （数学）
两个暴力题.. 题目传送:11827 Maximum GCD AC代码: #include <map> #include <set> #include <cmath> ...
两个经典的文件IO程序示例
前言本文分析两个经典的C++文件IO程序,提炼出其中文件IO的基本套路,留待日后查阅. 程序功能程序一打印用户指定的所有文本文件,程序二向用户指定的所有文本文件中写入数据. 程序一代码及其注释 # ...
九度OJ 1140：八皇后（八皇后问题）
时间限制:1 秒内存限制:32 兆特殊判题:否提交:795 解决:494 题目描述: 会下国际象棋的人都很清楚:皇后可以在横.竖.斜线上不限步数地吃掉其他棋子.如何将8个皇后放在棋盘上(有8 * ...
Redis persistence demystified
https://redis.io/topics/persistence http://oldblog.antirez.com/post/redis-persistence-demystified.ht ...
Javascript - ERR_CONTENT_LENGTH_MISMATCH
不知道做了什么,有两天没有跑vue项目啦,今天突然出现加载脚本的时候出现 ERR_CONTENT_LENGTH_MISMATCH这个错误, 所以我去搜索了一下找到如下答案 http://stac ...
[自动化平台系列] - 初次使用 Macaca-前端自动化测试(1)
1. 所先看一下官方地址,了解一下这个是不是你想要的测试工具 https://macacajs.github.io/macaca/environment-setup.html 2. 去掉sudo -- ...

2 pyspark学习----基本操作

2 pyspark学习----基本操作的更多相关文章

随机推荐

热门专题