6.RDD算子实战

 from pyspark import SparkContext,SparkConf

 import sys

 if __name__ == '__main__':

     if len(sys.argv) != 2:

         print("Usage: wordcount <input>",file=sys.stderr)

         sys.exit(-1)

     conf = SparkConf()

     sc = SparkContext(conf=conf)

     counts = sc.textFile(sys.argv[1])\

         .flatMap(lambda line:line.split(" "))\

         .map(lambda x:(x,1))\

         .reduceByKey(lambda a,b : a+b)

     output = counts.collect()

     for (word,count) in output :

         print("%s: %i" % (word,count))

     sc.stop()

 from pyspark import SparkContext,SparkConf

 import  sys

 if __name__ == '__main__':

     if len(sys.argv) != 2:

         print("Usage: avg <input>",file = sys.stderr)

         sys.exit(-1)

     conf = SparkConf()

     sc = SparkContext(conf=conf)

     ageData = sc.textFile(sys.argv[1]).map(lambda line:line.split(" ")[1])

     totalAge = ageData.map(lambda x:int(x)).reduce(lambda a,b:a+b)

     count = ageData.count()

     avgAge = totalAge / count

     print("totalAge:%s"%totalAge)

     print("count:%s"%count)

     print("avgAge:%s"%avgAge)

     sc.stop()

6.RDD算子实战的更多相关文章

Spark RDD/Core 编程 API入门系列之rdd实战（rdd基本操作实战及transformation和action流程图）（源码）（三）
本博文的主要内容是: 1.rdd基本操作实战 2.transformation和action流程图 3.典型的transformation和action RDD有3种操作: 1. Trandform ...
Spark算子---实战应用
Spark算子实战应用数据集 :http://grouplens.org/datasets/movielens/ MovieLens 1M Datase 相关数据文件 : users.dat --- ...
RDD算子
RDD算子 #常用Transformation(即转换,延迟加载) #通过并行化scala集合创建RDD val rdd1 = sc.parallelize(Array(1,2,3,4,5,6,7,8 ...
RDD 算子补充
一.RDD算子补充 1.mapPartitions mapPartitions的输入函数作用于每个分区, 也就是把每个分区中的内容作为整体来处理. (map是把每一行) mapPa ...
RDD算子、RDD依赖关系
RDD:弹性分布式数据集, 是分布式内存的一个抽象概念 RDD:1.一个分区的集合, 2.是计算每个分区的函数 , 3.RDD之间有依赖关系 4.一个对于key-value的RDD的Partit ...
spark教程(四)-SparkContext 和 RDD 算子
SparkContext SparkContext 是在 spark 库中定义的一个类,作为 spark 库的入口点: 它表示连接到 spark,在进行 spark 操作之前必须先创建一个 Spark ...
Spark性能调优-RDD算子调优篇（深度好文，面试常问，建议收藏）
RDD算子调优不废话,直接进入正题! 1. RDD复用在对RDD进行算子时,要避免相同的算子和计算逻辑之下对RDD进行重复的计算,如下图所示: 对上图中的RDD计算架构进行修改,得到如下图所示的优 ...
Spark中普通集合与RDD算子的sortBy()有什么区别
分别观察一下集合与算子的sortBy()的参数列表普通集合的sortBy() RDD算子的sortBy() 结论:普通集合的sortBy就没有false参数,也就是说只能默认的升序排. 如果需要对普 ...
Spark RDD算子介绍
Spark学习笔记总结 01. Spark基础 1. 介绍 Spark可以用于批处理.交互式查询(Spark SQL).实时流处理(Spark Streaming).机器学习(Spark MLlib) ...

随机推荐

springboot+mybatis+layUI
1.idea快速搭建 2.生成后目录结构 3.引入layui-2.4.5 4.static/新建index.html,页面代码参考https://www.layui.com/doc/element/l ...
【转载】Jmeter业务请求比例1
ps:文章转自订阅号“测试那点事儿”,链接:https://mp.weixin.qq.com/s/qVD4iNO0QqRIwAIq9_E_Kw 在进行综合场景压测时,由于不同的请求,要求所占比例不同, ...
Spark中的多线程并发处理
Spark中的多任务处理 Spark的一个非常常见的用例是并行运行许多作业. 构建作业DAG后,Spark将这些任务分配到多个Executor上并行处理.但这并不能帮助我们在同一个Spark应用程序中 ...
想成为顶尖 Java 程序员？先过了下面这些问题！
作者:rowkey https://zhuanlan.zhihu.com/p/31552882 一.数据结构与算法基础说一下几种常见的排序算法和分别的复杂度. 用Java写一个冒泡排序算法描述一下 ...
EM相关两个算法 k-mean算法和混合高斯模型
转自http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006924.html http://www.cnblogs.com/jerrylead/ ...
python初学者学习工具安装教程&安装步骤详解
一.python安装: 版本:3.6.8 下载地址:https://www.python.org/downloads/ 安装步骤截图: 1.点击python安装包,出现下图所示界面,注意勾选A ...
47-Ubuntu-系统信息-2-df和du查看磁盘和目录空间占用
序号命令作用 01 df -h disk free 显示磁盘剩余空间;-h以人性化的方式显示文件大小 02 du -h [目录名] disk usage 显示目录下的文件大小注:显示磁盘信息的时 ...
1-Navicat无法远程连接Ubuntu上的MySQL（已解决）
转发自: https://jingyan.baidu.com/article/4d58d54156ff069dd4e9c085.html
Codeigniter设置时区
Codeigniter 3.x,在application/config/config.php 末尾加上 date_default_timezone_set("Asia/Shanghai&qu ...
「题解」：Kill
问题 A: Kill 时间限制: 1 Sec 内存限制: 256 MB 题面题面谢绝公开. 题解 80%算法赛时并没有想到正解,而是选择了另一种正确性较对的贪心验证. 对于每一个怪,我们定义它的 ...

6.RDD算子实战

6.RDD算子实战的更多相关文章

随机推荐

热门专题