6.RDD算子实战

 from pyspark import SparkContext,SparkConf

 import sys

 if __name__ == '__main__':

     if len(sys.argv) != 2:

         print("Usage: wordcount <input>",file=sys.stderr)

         sys.exit(-1)

     conf = SparkConf()

     sc = SparkContext(conf=conf)

     counts = sc.textFile(sys.argv[1])\

         .flatMap(lambda line:line.split(" "))\

         .map(lambda x:(x,1))\

         .reduceByKey(lambda a,b : a+b)

     output = counts.collect()

     for (word,count) in output :

         print("%s: %i" % (word,count))

     sc.stop()

 from pyspark import SparkContext,SparkConf

 import  sys

 if __name__ == '__main__':

     if len(sys.argv) != 2:

         print("Usage: avg <input>",file = sys.stderr)

         sys.exit(-1)

     conf = SparkConf()

     sc = SparkContext(conf=conf)

     ageData = sc.textFile(sys.argv[1]).map(lambda line:line.split(" ")[1])

     totalAge = ageData.map(lambda x:int(x)).reduce(lambda a,b:a+b)

     count = ageData.count()

     avgAge = totalAge / count

     print("totalAge:%s"%totalAge)

     print("count:%s"%count)

     print("avgAge:%s"%avgAge)

     sc.stop()

6.RDD算子实战的更多相关文章

Spark RDD/Core 编程 API入门系列之rdd实战（rdd基本操作实战及transformation和action流程图）（源码）（三）
本博文的主要内容是: 1.rdd基本操作实战 2.transformation和action流程图 3.典型的transformation和action RDD有3种操作: 1. Trandform ...
Spark算子---实战应用
Spark算子实战应用数据集 :http://grouplens.org/datasets/movielens/ MovieLens 1M Datase 相关数据文件 : users.dat --- ...
RDD算子
RDD算子 #常用Transformation(即转换,延迟加载) #通过并行化scala集合创建RDD val rdd1 = sc.parallelize(Array(1,2,3,4,5,6,7,8 ...
RDD 算子补充
一.RDD算子补充 1.mapPartitions mapPartitions的输入函数作用于每个分区, 也就是把每个分区中的内容作为整体来处理. (map是把每一行) mapPa ...
RDD算子、RDD依赖关系
RDD:弹性分布式数据集, 是分布式内存的一个抽象概念 RDD:1.一个分区的集合, 2.是计算每个分区的函数 , 3.RDD之间有依赖关系 4.一个对于key-value的RDD的Partit ...
spark教程(四)-SparkContext 和 RDD 算子
SparkContext SparkContext 是在 spark 库中定义的一个类,作为 spark 库的入口点: 它表示连接到 spark,在进行 spark 操作之前必须先创建一个 Spark ...
Spark性能调优-RDD算子调优篇（深度好文，面试常问，建议收藏）
RDD算子调优不废话,直接进入正题! 1. RDD复用在对RDD进行算子时,要避免相同的算子和计算逻辑之下对RDD进行重复的计算,如下图所示: 对上图中的RDD计算架构进行修改,得到如下图所示的优 ...
Spark中普通集合与RDD算子的sortBy()有什么区别
分别观察一下集合与算子的sortBy()的参数列表普通集合的sortBy() RDD算子的sortBy() 结论:普通集合的sortBy就没有false参数,也就是说只能默认的升序排. 如果需要对普 ...
Spark RDD算子介绍
Spark学习笔记总结 01. Spark基础 1. 介绍 Spark可以用于批处理.交互式查询(Spark SQL).实时流处理(Spark Streaming).机器学习(Spark MLlib) ...

随机推荐

jenkins集成sonar代码审核工具
在项目测试管理过程中,项目上线很多时候时间仓促,导致代码质量不高,测试时间不充分会导致线上出现各种各样的问题,这个时候一方面是增加测试的质量把控,还要从根本上解决开发小哥的代码质量问题.而Sonar这 ...
高级UI晋升之布局ViewGroup（四）
更多Android高级架构进阶视频学习请点击:https://space.bilibili.com/474380680本篇文章将从LinearLayout.RelativeLayout.FrameLa ...
python数据结构之快速排序
def quick_sort(nums): if not nums: return [] else: # 这里取第0个数为基点 flag = nums[0] # 小于flag 的放到左边 left = ...
ArcGis基础——Excel表格插入ArcMap布局视图，记录显示不全的替代解决方法
前几天帮朋友处理了这样一个问题 Excel有200余行记录,插入到ArcMap布局视图,只能显示100行左右. 解决思路 ArcMap要素类的属性表可以插入到布局视图,可否把Excel挂接到要素类的属 ...
利用纯css写三角形，弧度箭头，吃豆人，气泡。放大镜，标签的源码
1. 向上三角形
完美编译街机模拟器MAME（Android版）基于MAME4all
重新编译MAME4droid源码 github上开源项目MAME4all可将MAME模拟器运行在iOS和Android上,还有一个比较有名的叫MAME4droid(MAME for android), ...
Linux 进程间通信有名管道（fifo）
有名管道特点: 1)无名管道只能用于具有亲缘关系的进程之间,这就限制了无名管道的使用范围 2)有名管道可以使互不相关的两个进程互相通信. 3)有名管道可以通过路径名来指出,并且在文件系统中可见,但内容 ...
1 新增硬盘挂载home文件夹。 2 修理扇区
一挂载新硬盘主机磁盘容量不够大时,想新增一颗新磁盘的时候.并将磁盘全部分割成单一分割槽,且将该分割槽挂载到/home目录,你该怎么做呢? 1 安装硬盘. 2 磁盘分区. 3 格式化磁盘 4 将 ...
（PASS）字符数组\字符串数组和字符串的相互转换
1,字符数组转换为字符串 java可以使用两种方法直接将字符数组转为字符串. 方法1:直接在构造String时转换. char[] data = {'a', 'b', 'c'}; String s ...
Python 3.3 IDLE 删除键出现空格卡顿
Python 3.3 IDLE 删除文字时会出现"□",造成删除键卡顿原因:使用的是百度输入法,由于输入法的编码方式不同,对IDLE造成了不兼容换成了搜狗输入法问题解决.... ...

6.RDD算子实战

6.RDD算子实战的更多相关文章

随机推荐

热门专题