RDD实例

实例一：

teacher.log

http://bigdata.baidu.cn/zhangsan

http://bigdata.baidu.cn/zhangsan

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/wangwu

http://bigdata.baidu.cn/wangwu

http://javaee.baidu.cn/xiaoxu

http://javaee.baidu.cn/xiaoxu

http://javaee.baidu.cn/laoyang

http://javaee.baidu.cn/laoyang

http://javaee.baidu.cn/laoyang

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/wangwu

http://bigdata.baidu.cn/wangwu

http://javaee.baidu.cn/xiaoxu

http://javaee.baidu.cn/xiaoxu

http://javaee.baidu.cn/laoyang

http://javaee.baidu.cn/laoyang

http://javaee.baidu.cn/laoyang

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/wangwu

http://bigdata.baidu.cn/wangwu

http://javaee.baidu.cn/xiaoxu

http://javaee.baidu.cn/xiaoxu

http://javaee.baidu.cn/laoyang

http://javaee.baidu.cn/laoyang

http://javaee.baidu.cn/laoyang

http://php.baidu.cn/laoli

http://php.baidu.cn/laoliu

http://php.baidu.cn/laoli

http://php.baidu.cn/laoli

全局topn 组内topn

代码：

package dayo1

import java.net.URL

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object teacher2 {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf ()

      .setAppName ( this.getClass.getSimpleName )

      .setMaster ( "local[1]" )

    val sc = new SparkContext ( conf )

    val lines = sc.textFile ( "E:\\teacher.log" )

    val overAll: RDD[((String, String), Int)] = lines.map ( tp => {

      val teacher: String = tp.split ( "/" ).last

      val host = new URL ( tp ).getHost

      val subject = host.substring ( , host.indexOf ( "." ) )

      ((teacher, subject), )

    } )

    //所有科目和老师的前三

    val topOverAll = overAll.reduceByKey ( _ + _ ).sortBy ( -_._2 ).take (  ).foreach ( println )

    //每个科目前两名的老师

    val topGroup = overAll.reduceByKey ( _ + _ ).groupBy ( _._1._2 ).mapValues ( _.toList.sortBy ( -_._2 ).take (  ) ).foreach ( println )

    sc.stop ()

  }

}

实例二：

去重

file1:

-- a

-- b

-- c

-- d

-- a

-- b

-- c

-- c

file2:

-- b

-- a

-- b

-- d

-- a

-- c

-- d

-- c

代码：

package dayo1

import org.apache.spark.{SparkConf, SparkContext}

object distinct {

  def main(args: Array[String]): Unit = {

    val cof = new SparkConf ()

      .setAppName ( this.getClass.getSimpleName )

      .setMaster ( "local[1]" )

    val sc = new SparkContext ( cof )

    val file1 = sc.textFile ( "E:\\file1.txt" )

    val file2 = sc.textFile ( "E:\\file2.txt" )

    val list = file1.union ( file2 ).distinct ().sortBy ( tp => tp )

    list.foreach ( println )

    sc.stop ()

  }

}

实例三：

temperature.txt

0067011990999991950051507004888888889999999N9++

0067011990999991950051512004888888889999999N9++

0067011990999991950051518004888888889999999N9-+

0067011990999991949032412004888888889999999N9++

0067011990999991950032418004888888880500001N9++

0067011990999991950051507004888888880500001N9++

需求：分析每年的最高温度

代码：

package dayo1

import org.apache.spark.{SparkConf, SparkContext}

/**

  * 0067011990999991950051507004888888889999999N9+00001+9999999999999999999999

  * 0067011990999991950051512004888888889999999N9+00221+9999999999999999999999

  * 0067011990999991950051518004888888889999999N9-00111+9999999999999999999999

  * 0067011990999991949032412004888888889999999N9+01111+9999999999999999999999

  * 0067011990999991950032418004888888880500001N9+00001+9999999999999999999999

  * 0067011990999991950051507004888888880500001N9+00781+9999999999999999999999

  *

  * 12345678911234567892123456789312345678941234567895123456789612345678971234

  * 需求：分析每年的最高温度

  * 数据说明：

  *

  *

  * 第15-19个字符是year 6-9

  *

  * 第45-50位是温度表示，+表示零上 -表示零下，且温度的值不能是9999，9999表示异常数据

  *

  * 第50位值只能是0、1、4、5、9几个数字

  */

object temperature {

  def main(args: Array[String]): Unit = {

    val cof = new SparkConf ()

      .setAppName ( this.getClass.getSimpleName )

      .setMaster ( "local[*]" )

    val sc = new SparkContext ( cof )

    val lines = sc.textFile ( "E:\\temperature.txt" )

    val yearAndTemp = lines.filter ( tp => {

      var temp =

      val query = tp.charAt (  ).toString //val query=tp.subString(50,51)

      if (tp.charAt (  ).equals ( "+" )) {

        temp = tp.substring ( ,  ).toInt

      } else {

        temp = tp.substring ( ,  ).toInt

      }

      temp !=  && query.matches ( "[01459]" )

    } ).map ( tp => {

      val year = tp.substring ( ,  )

      var temp =

      if (tp.charAt (  ).equals ( "+" )) {

        temp = tp.substring ( ,  ).toInt

      } else {

        temp = tp.substring ( ,  ).toInt

      }

      (year, temp)

    } )

    val res = yearAndTemp.reduceByKey ( (x, y) => if (x > y) x else y )

    res.foreach ( tp => println ( "year:" + tp._1 + "  temp:" + tp._2 ) )

    sc.stop ()

  }

}

RDD实例的更多相关文章

Spark RDD编程核心
一句话说,在Spark中对数据的操作其实就是对RDD的操作,而对RDD的操作不外乎创建.转换.调用求值. 什么是RDD RDD(Resilient Distributed Dataset),弹性分布式 ...
Spark RDD 操作
1. Spark RDD 创建操作 1.1 数据集合 parallelize 可以创建一个能够并行操作的RDD.其函数定义如下: ) scala> sc.defaultParallelism ...
spark streaming之三 rdd,job的动态生成以及动态调度
前面一篇讲到了,DAG静态模板的生成.那么spark streaming会在每一个batch时间一到,就会根据DAG所形成的逻辑以及物理依赖链(dependencies)动态生成RDD以及由这些RDD ...
spark 源码分析之一 -- RDD的四种依赖关系
RDD的四种依赖关系 RDD四种依赖关系,分别是 ShuffleDependency.PrunDependency.RangeDependency和OneToOneDependency四种依赖关系.如 ...
Spark入门实战系列--7.Spark Streaming（上）--实时流计算Spark Streaming原理介绍
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Spark Streaming简介 1.1 概述 Spark Streaming 是Spa ...
Spark Streaming揭秘 Day15 No Receivers方式思考
Spark Streaming揭秘 Day15 No Receivers方式思考在前面也有比较多的篇幅介绍了Receiver在SparkStreaming中的应用,但是我们也会发现,传统的Recei ...
spark 启动job的流程分析
从WordCount開始分析编写一个样例程序编写一个从HDFS中读取并计算wordcount的样例程序: packageorg.apache.spark.examples importorg.ap ...
《图解Spark：核心技术与案例实战》作者经验谈
1,看您有维护博客,还利用业余时间著书,在技术输出.自我提升以及本职工作的时间利用上您有没有什么心得和大家分享?(也可以包含一些您写书的小故事.)回答:在工作之余能够写博客.著书主要对技术的坚持和热爱 ...
SparkStreaming流处理
一.Spark Streaming的介绍 1. 流处理流式处理(Stream Processing).流式处理就是指源源不断的数据流过系统时,系统能够不停地连续计算.所以流式处理没有什么 ...

随机推荐

Android Multiple dex files define 解决包冲突
这段时间有一个新需求,安卓App通过URL在线预览PDF.选择使用并倒入PdfViewPager库时,报了如下异常: jdmerchants:transformDexArchiveWithExtern ...
DevExpress Blazor组件全新来袭！增强Data Grid、TreeView API
点击获取DevExpress v19.1.7最新完整版试用下载 DevExpress UI for Blazor即将在最新的v19.1.8中可用,此次更新发布包括DevExpress Blazor组件 ...
Ubuntu：笔记本计算机屏幕合盖后进入/不进入休眠设置
造冰箱的大熊猫,本文在Ubuntu 18.04上验证通过@cnblogs 2019/5/12 1.问题描述安装有Ubuntu的笔记本计算机与KVM控制器相连,同时一台台式机也与KVM相连.启动笔记本 ...
51 Nod 1402 最大值
1402 最大值题目来源: TopCoder 基准时间限制:1 秒空间限制:131072 KB 分值: 20 难度:3级算法题收藏关注一个N长的数组s[](注意这里的数组初始下标设为1 ...
洛谷 P1135 奇怪的电梯（dfs）
题目描述呵呵,有一天我做了一个梦,梦见了一种很奇怪的电梯.大楼的每一层楼都可以停电梯,而且第i层楼(1<=i<=N)上有一个数字Ki(0<=Ki<=N).电梯只有四个按钮:开 ...
灰度图像--频域滤波傅里叶变换之离散傅里叶变换(DFT)
学习DIP第23天转载请标明本文出处:http://blog.csdn.net/tonyshengtan,欢迎大家转载,发现博客被某些论坛转载后,图像无法正常显示,无法正常表达本人观点,对此表示很不 ...
Plx9030通讯卡驱动开发与接口封装
在学校的时候,曾经采用DDK+Driverstudio+VC6.0环境做过9054视频采集卡的驱动开发,回想起调试过程,记得最清楚的就是过无数次的计算机蓝屏重启....今天第一天来到新公司,老大就说你 ...
php写入文件来调试接口数据
$fp = fopen('write.txt', 'a+b'); //a+读写方式打开,将文件指针指向文件末尾.b为强制使用二进制模式. 如果文件不存在则尝试创建之. fwrite($fp, prin ...
这一次，彻底弄懂「Java字节码文件」
提前祝福各位读者
Count the Buildings
K - Count the Buildings 参考:Count the Buildings 思路可以借鉴,但是代码略有问题写的时候 re 了 9 发,然后把变量定义的顺序换了一下居然 A 了,以为 ...

RDD实例

RDD实例的更多相关文章

随机推荐

热门专题