spark 按照key 分组然后统计每个key对应的最大、最小、平均值思路—

What you're getting back is an object which allows you to iterate over the results. You can turn the results of groupByKey into a list by calling list() on the values, e.g.

example = sc.parallelize([(0, u'D'), (0, u'D'), (1, u'E'), (2, u'F')])

example.groupByKey().collect()

# Gives [(0, <pyspark.resultiterable.ResultIterable object ......]

example.groupByKey().map(lambda x : (x[0], list(x[1]))).collect()

# Gives [(0, [u'D', u'D']), (1, [u'E']), (2, [u'F'])]

# OR:

example.groupByKey().mapValues(list)

Hey Ron, 

It was pretty much exactly as Sean had depicted. I just needed to provide

count an anonymous function to tell it which elements to count. Since I

wanted to count them all, the function is simply "true".

        val grouped = rdd.groupByKey().mapValues { mcs =>

          val values = mcs.map(_.foo.toDouble)

          val n = values.count(x => true)

          val sum = values.sum

          val sumSquares = values.map(x => x * x).sum

          val stddev = math.sqrt(n * sumSquares - sum * sum) / n

          print("stddev: " + stddev)

          stddev

        }

I hope that helps

Just don't. Use reduce by key:

lines.map(lambda x: (x[1][0:4], (x[0], float(x[3])))).map(lambda x: (x, x)) \

    .reduceByKey(lambda x, y: (

        min(x[0], y[0], key=lambda x: x[1]),

        max(x[1], y[1], , key=lambda x: x[1])))

spark 按照key 分组然后统计每个key对应的最大、最小、平均值思路——使用groupby，或者reduceby的更多相关文章

EF GroupBy 根据key 分组再把key求和(取决于每条数据中 arr的条数) arr 中有多少条数据就把多少个key 加起来
List<A> alist = new List<A>{ ,b=,c=,d=,e=}, ,b=,c=,d=,e=}, ,b=,c=,d=,e=}, ,b=,c=,d=,e=}, ...
分享一个Python脚本--统计redis key类型数据大小分布
概述今天主要介绍怎么统计redis key类型数据大小分布. 原理:使用redis命令: scan.pipline.type 和 debug object 来得到 redis key 信息. 脚本 ...
MySQL按日期分组并统计截止当前时间的总数（实例教程）
MySQL按日期分组并统计截止当前时间的总数建表语句 SET NAMES utf8mb4; ; -- ---------------------------- -- Table structure ...
Spark学习笔记1——第一个Spark程序：单词数统计
Spark学习笔记1--第一个Spark程序:单词数统计笔记摘抄自 [美] Holden Karau 等著的<Spark快速大数据分析> 添加依赖通过 Maven 添加 Spark-c ...
Specified key was too long; max key length is 767 bytes解决方案
问题描述: 1. 使用spark sql处理数据逻辑,逻辑处理后使用 df.write.mode(saveMode).jdbc(url, tableName, connectionPropertie ...
spark 例子groupByKey分组计算2
spark 例子groupByKey分组计算2 例子描述: 大概意思为,统计用户使用app的次数排名原始数据: 000041b232,张三,FC:1A:11:5C:58:34,F8:E7:1E:1E ...
setValue:forUndefinedKey this class is not key value coding-compliant for the key
下午开发过程中遇到一个错误,结果被的真惨,从上午 11 点查错一直查到下午 2 点才找到错误的原因,真的郁闷的不行. 关于查错这么久,主要的原因是: 1. 自己对 IOS 开发还不熟悉2. 不知道 ...
数据库操作提示：Specified key was too long; max key length is 767 bytes
操作重现: 法1:新建连接——>新建数据库——>右键数据库导入脚本——>提示:Specified key was too long; max key length is 767 by ...
Mysql Specified key was too long; max key length is 767 bytes
今天导入一个数据库时,看到以下报错信息: Specified key was too bytes 直译就是索引键太长,最大为767字节. 查看sql库表文件,发现有一列定义如下: 列名:cont ...

随机推荐

Tomcat 程序无问题的情况下页面打开变慢的原因
看看这写日志的频率就知道我有多闲了.. 前言: 其实关于tomcat,遇到过很多关于“慢”的问题,比如启动慢,比如页面打开慢, 以前太忙也太懒,不愿意花时间分析原因,现在终于肯静下来找原因环境是ec ...
努比亚 N2（Nubia NX575J）解锁BootLoader 并进入临时recovery ROOT
工具下载链接:https://pan.baidu.com/s/1jJoK2Yq 备用下载链接:https://pan.baidu.com/s/1snjwLdz 密码:71rg 本篇教程教你如何傻瓜式解 ...
MAVEN - 生命周期（1）
三套生命周期: MAVEN拥有三套互相独立的生命周期,分别是:clean.default和site. clean - 清理项目 default - 构建项目 site - 简历项目站点这其中 ...
SLAM: 图像角点检测的Fast算法（时间阈值实验）
作为角点检测的一种快速方法,FastCornerDetect算法比Harris方法.SIft方法都要快一些,应用于实时性要求较高的场合,可以直接应用于SLAM的随机匹配过程.算法来源于2006年的Ed ...
关于vuex
希望初学者可以初步理解vuex的日志: 示意图: 一.图例: 1.Vue Components:Vue组件.HTML页面上,负责接收用户操作等交互行为,执行dispatch方法触发对应action进行 ...
react工具库
采用了react框架后,需要找到一些常用的库,常见的需求比如: 1)react生成二维码 2)react的轮播banner图随着react的社区的壮大,以上的需求都有专门的库帮我们做这个: 1)re ...
PAT_A1140#Look-and-say Sequence
Source: PAT A1140 Look-and-say Sequence (20 分) Description: Look-and-say sequence is a sequence of i ...
vue scss 安装
1.开始在vue项目中使用sass,在命令行输入一下命令进行安装(使用git命令行要用shift+insert 进行粘贴否则粘贴不上) cnpm install node-sass --save-de ...
【剑指Offer】21、栈的压入、弹出序列
题目描述: 输入两个整数序列,第一个序列表示栈的压入顺序,请判断第二个序列是否可能为该栈的弹出顺序.假设压入栈的所有数字均不相等.例如序列1,2,3,4,5是某栈的压入顺序,序列4,5,3,2 ...
Java实验环境搭建
1.JDK的下载一.JDK的下载及安装 (1).网站网址搜索http://www.oracle.com/technetwork/java,进入浏览页(2)找到Trials and Download 点 ...

spark 按照key 分组 然后统计每个key对应的最大、最小、平均值思路——使用groupby，或者reduceby

spark 按照key 分组 然后统计每个key对应的最大、最小、平均值思路——使用groupby，或者reduceby的更多相关文章

随机推荐

热门专题

spark 按照key 分组然后统计每个key对应的最大、最小、平均值思路——使用groupby，或者reduceby

spark 按照key 分组然后统计每个key对应的最大、最小、平均值思路——使用groupby，或者reduceby的更多相关文章