spark 例子count(distinct 字段)

例子描述：

有个网站访问日志，有4个字段：（用户id，用户名，访问次数，访问网站）

需要统计：

1.用户的访问总次数去重

2.用户一共访问了多少种不同的网站

这里用sql很好写

select id,name,count(distinct url) from table group by id,name

其实这个题目是继官方和各种地方讲解聚合函数（aggregate）的第二个例子，第一个例子是使用aggregate来求平均数。

我们先用简易版来做一遍，后续我更新一份聚合函数版

原始数据：

id1,user1,2,http://www.baidu.com

id1,user1,2,http://www.baidu.com

id1,user1,3,http://www.baidu.com

id1,user1,100,http://www.baidu.com

id2,user2,2,http://www.baidu.com

id2,user2,1,http://www.baidu.com

id2,user2,50,http://www.baidu.com

id2,user2,2,http://www.sina.com

结果数据：

((id1,user1),4,1)

((id2,user2),4,2)

代码片段：

val sparkConf = new SparkConf().setAppName("DisFie").setMaster("local")

val sc = new SparkContext(sparkConf)

val source = Source.fromFile("C:\\10.txt").getLines.toArray

val RDD0 = sc.parallelize(source)

RDD0

  .map {

    lines =>

      val line = lines.split(",")

      ((line(0), line(1)), (1, line(3)))

  }

  .groupByKey()

  .map {

    case (x, y) =>

      val(n,url) = y.unzip

    (x,n.size,url.toSet.size)

  }

  .foreach(println)

spark 例子count(distinct 字段)的更多相关文章

Oracle-distinct()用法、count(distinct( 字段A || 字段B))是什么意思？distinct多个字段
0.distinct用法在oracle中distinct的使用主要是在查询中去除重复出现的数据直接在字段前加distinct关键字即可,如:select distinct 名字 from tabl ...
数据库面试题之COUNT(*),COUNT(字段),CONUT(DISTINCT 字段)的区别
COUNT(*).明确的返回数据表中的数据个数,是最准确的 COUNT(列),返回数据表中的数据个数,不统计值为null的字段 COUNT(DISTINCT 字段) 返回数据表中不重复的的数据个数,不 ...
PostgreSQL的查询技巧: 零除, GENERATED STORED, COUNT DISTINCT, JOIN和数组LIKE
零除的处理用NULLIF(col, 0)可以避免复杂的WHEN...CASE判断, 例如 ROUND(COUNT(view_50.amount_in)::NUMERIC / NULLIF(COUNT ...
关于MySQL count(distinct) 逻辑的一个bug【转】
本文来自:http://dinglin.iteye.com/blog/1976026#comments 背景客户报告了一个count(distinct)语句返回结果错误,实际结果存在值,但是用cou ...
SQL server 中 COUNT DISTINCT 函数
目的:统计去重后表中所有项总和. 直观想法: SELECT COUNT(DISTINCT *) FROM [tablename] 结果是:语法错误. 事实上,我们可以一同使用 DISTINCT 和 C ...
使用子查询可提升 COUNT DISTINCT 速度 50 倍
注:这些技术是通用的,只不过我们选择使用Postgres的语法.使用独特的pgAdminIII生成解释图形. 很有用,但太慢 Count distinct是SQL分析时的祸根,因此它是我第一篇博客的不 ...
Mysql中count(*),DISTINCT的使用方法和效率研究
在处理一个大数据量数据库的时候突然发现mysql对于count(*)的不同处理会造成不同的结果比如执行 SELECT count(*) FROM tablename 即使对于千万级别的数据mysq ...
SQL COUNT DISTINCT 函数
定义和用法可以一同使用 DISTINCT 和 COUNT 关键词,来计算非重复结果的数目. 语法 SELECT COUNT(DISTINCT column(s)) FROM table 例子注意: ...
【优化】COUNT(1)、COUNT(*)、COUNT(常量)、COUNT(主键)、COUNT(ROWID)、COUNT(非空列)、COUNT(允许为空列)、COUNT(DISTINCT 列名)
[优化]COUNT(1).COUNT(*).COUNT(常量).COUNT(主键).COUNT(ROWID).COUNT(非空列).COUNT(允许为空列).COUNT(DISTINCT 列名) 1. ...

随机推荐

Java学习---IO操作
基础知识 1．文件操作 Java语言统一将每个文件都视为一个顺序字节流.每个文件或者结束于一个文件结束标志,或者根据系统维护管理数据中所纪录的具体字节数来终止.当一个文件打开时,一个对象就被创建,同时 ...
乘风破浪：LeetCode真题_001_TwoSum
乘风破浪:LeetCode真题_001_TwoSum 一.前言沉寂了很长时间,也悟出了很多的道理,写作是一种业余的爱好,是一种自己以后学习的工具,是对自己过往的经验积累的佐证,是检验自己理解深入度的 ...
相同数据源情况下，使用Kafka实时消费数据 vs 离线环境下全部落表后处理数据，结果存在差异
原因分析: 当某个consumer宕机时,消费位点(例如2s提交一次)尚未提交到zookeeper,此时Kafka集群自动rebalance后另一consumer来接替该宕机consumer继续消费, ...
Alpha Scrum7
Alpha Scrum7 牛肉面不要牛肉不要面 Alpha项目冲刺(团队作业5) 各个成员在 Alpha 阶段认领的任务林志松:项目发布陈远军.陈彬:播放器各环境的测试项目的发布说明本版本的新 ...
有关js弹出提示框几种方法
1直接提示只有确定功能的提示框只显示提示信息 alert(“提示信息”); alert ();的参数只有一个就是提示信息,无返回值 2 弹出输入框让你输入内容 prompt() ; 有两个参数:第一 ...
Static和static block（静态块）的用法
一.用法:是一个修饰符,用于修饰成员(成员变量成员函数)被动态所共享当成员被静态修饰后,就多了一种调用方式,除了可以被对象调用外,还可以直接被类名调用. 类名.静态成员二.static特点: 1 ...
苹果浏览器样式重置submit
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/XTQueen_up/article/details/34446541 大家刚接触写手机页面也许都会 ...
adb命令篇（转载）
转自:https://www.cnblogs.com/ailiailan/p/7896534.html 1.抓log方法 (bat文件) mkdir D:\logcat set /p miaosh ...
Java50道经典习题-程序21 求阶乘
题目:求1+2!+3!+...+20!的和分析:使用递归求解 0的阶乘和1的阶乘都为1 public class Prog21{ public static void main(String[] ar ...
【bbs】logout.php
字体大小通过js设定,并结合@media,可实现自适应. 图片自适应窗口实现流水灯手机端不滚动,script嵌套多余文字省略号显示 http://www.cnblogs.com/yujihang ...

spark 例子count(distinct 字段)

spark 例子count(distinct 字段)

spark 例子count(distinct 字段)的更多相关文章

随机推荐

热门专题