spark 按照key 分组然后统计每个key对应的最大、最小、平均值思路—

What you're getting back is an object which allows you to iterate over the results. You can turn the results of groupByKey into a list by calling list() on the values, e.g.

example = sc.parallelize([(0, u'D'), (0, u'D'), (1, u'E'), (2, u'F')])

example.groupByKey().collect()

# Gives [(0, <pyspark.resultiterable.ResultIterable object ......]

example.groupByKey().map(lambda x : (x[0], list(x[1]))).collect()

# Gives [(0, [u'D', u'D']), (1, [u'E']), (2, [u'F'])]

# OR:

example.groupByKey().mapValues(list)

Hey Ron, 

It was pretty much exactly as Sean had depicted. I just needed to provide

count an anonymous function to tell it which elements to count. Since I

wanted to count them all, the function is simply "true".

        val grouped = rdd.groupByKey().mapValues { mcs =>

          val values = mcs.map(_.foo.toDouble)

          val n = values.count(x => true)

          val sum = values.sum

          val sumSquares = values.map(x => x * x).sum

          val stddev = math.sqrt(n * sumSquares - sum * sum) / n

          print("stddev: " + stddev)

          stddev

        }

I hope that helps

Just don't. Use reduce by key:

lines.map(lambda x: (x[1][0:4], (x[0], float(x[3])))).map(lambda x: (x, x)) \

    .reduceByKey(lambda x, y: (

        min(x[0], y[0], key=lambda x: x[1]),

        max(x[1], y[1], , key=lambda x: x[1])))

spark 按照key 分组然后统计每个key对应的最大、最小、平均值思路——使用groupby，或者reduceby的更多相关文章

EF GroupBy 根据key 分组再把key求和(取决于每条数据中 arr的条数) arr 中有多少条数据就把多少个key 加起来
List<A> alist = new List<A>{ ,b=,c=,d=,e=}, ,b=,c=,d=,e=}, ,b=,c=,d=,e=}, ,b=,c=,d=,e=}, ...
分享一个Python脚本--统计redis key类型数据大小分布
概述今天主要介绍怎么统计redis key类型数据大小分布. 原理:使用redis命令: scan.pipline.type 和 debug object 来得到 redis key 信息. 脚本 ...
MySQL按日期分组并统计截止当前时间的总数（实例教程）
MySQL按日期分组并统计截止当前时间的总数建表语句 SET NAMES utf8mb4; ; -- ---------------------------- -- Table structure ...
Spark学习笔记1——第一个Spark程序：单词数统计
Spark学习笔记1--第一个Spark程序:单词数统计笔记摘抄自 [美] Holden Karau 等著的<Spark快速大数据分析> 添加依赖通过 Maven 添加 Spark-c ...
Specified key was too long; max key length is 767 bytes解决方案
问题描述: 1. 使用spark sql处理数据逻辑,逻辑处理后使用 df.write.mode(saveMode).jdbc(url, tableName, connectionPropertie ...
spark 例子groupByKey分组计算2
spark 例子groupByKey分组计算2 例子描述: 大概意思为,统计用户使用app的次数排名原始数据: 000041b232,张三,FC:1A:11:5C:58:34,F8:E7:1E:1E ...
setValue:forUndefinedKey this class is not key value coding-compliant for the key
下午开发过程中遇到一个错误,结果被的真惨,从上午 11 点查错一直查到下午 2 点才找到错误的原因,真的郁闷的不行. 关于查错这么久,主要的原因是: 1. 自己对 IOS 开发还不熟悉2. 不知道 ...
数据库操作提示：Specified key was too long; max key length is 767 bytes
操作重现: 法1:新建连接——>新建数据库——>右键数据库导入脚本——>提示:Specified key was too long; max key length is 767 by ...
Mysql Specified key was too long; max key length is 767 bytes
今天导入一个数据库时,看到以下报错信息: Specified key was too bytes 直译就是索引键太长,最大为767字节. 查看sql库表文件,发现有一列定义如下: 列名:cont ...

随机推荐

Java算法——求出两个字符串的最长公共字符串
问题:有两个字符串str1和str2,求出两个字符串中最长公共字符串. 例如:“acbbsdef”和"abbsced"的最长公共字符串是“bbs” 算法思路: 1.把两个字符串分别 ...
Asp.net MVC4 Step By Step（4）-使用Ajax
Ajax技术就是利用Javascript和XML技术实现这样的效果, 可以向Web服务器发送异步请求, 返回更新部分页面的数据, 而不需要全部更新整个页面. Ajax请求两种类型的内容, 一种是服务端 ...
1C课程笔记分享_StudyJams_2017
课程1C 概述课程1C是创建一个生日贺卡应用的实践课程,所以本篇笔记分享主要记录个人的实践过程,此外分享一些比较零散的知识点. Drawable文件夹 Drawable文件夹是Android项目统一 ...
PL/SQL之基础篇
参考文献:<Oracle完全学习手册>第11章 1.PL/SQL概述 PL/SQL(Procedure Language/Structuer Query Language)是Oracle对 ...
备份xx
https://www.tuicool.com/articles/V3EBzev https://www.tuicool.com/topics/11080087?st=0&lang=1& ...
html 表单赋值和时间戳转换
<script> window.onload = function () { var str; // console.log(@ViewBag.ID); $.post("/Ser ...
html formData 数据提交和 .netMVC接收
<form id="uploadForm" enctype="multipart/form-data"> <input type=" ...
pycharm,右键执行run unittests in xx.py后,__main__:后的代码没执行
如图所示:执行py文件后,打印__name__的名是模块名,而非__main__ 查了好久,发现这个问题跟unittest这个类有关系,执行单元测试的py脚本时,不要右键run unittest,在p ...
Js 字符串中提取数字
一 parseInt()方法: 首先想到的是js提供的parseInt方法,例子: var str ="4500元"; var num = parseInt(str); alert ...
[bzoj3029] 守卫者的挑战 (概率期望dp)
传送门 Description 打开了黑魔法师Vani的大门,队员们在迷宫般的路上漫无目的地搜寻着关押applepi的监狱的所在地.突然,眼前一道亮光闪过."我,Nizem,是黑魔法圣殿的守 ...

spark 按照key 分组 然后统计每个key对应的最大、最小、平均值思路——使用groupby，或者reduceby

spark 按照key 分组 然后统计每个key对应的最大、最小、平均值思路——使用groupby，或者reduceby的更多相关文章

随机推荐

热门专题

spark 按照key 分组然后统计每个key对应的最大、最小、平均值思路——使用groupby，或者reduceby

spark 按照key 分组然后统计每个key对应的最大、最小、平均值思路——使用groupby，或者reduceby的更多相关文章