Spark练习代码

1、scalaWordCount

package com._51doit.spark.day1

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object ScalaWorldCount {

def main(args: Array[String]): Unit = {

//第一步：创建SparkContext
val conf: SparkConf = new SparkConf().setAppName("ScalaWorldCount")
val sc = new SparkContext(conf)

//第二步，指定以后从hdfs中读取数据创建RDD（神奇的大集合）
//正确但是不建议sc.textFile(args(0)).flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).saveAsTextFile(args(1))
val lines: RDD[String] = sc.textFile(args(0))

//切分压平
val words: RDD[String] = lines.flatMap(_.split(""))

//将单词和1组合在一起
val wordAndOne: RDD[(String, Int)] = words.map((_,1))

//聚合
val reduced: RDD[(String, Int)] = wordAndOne.reduceByKey(_+_,1)

//排序
val sorted: RDD[(String, Int)] = reduced.sortBy(_._2,false)

//将数据保存到HDFS中
sorted.saveAsTextFile(args(1))

//最后释放资源
sc.stop()

}
}

2、FavTeacherInSubject

package com._51doit.spark.day2

import java.net.URL

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object FavTeacherInSubject {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName(this.getClass.getSimpleName)

    val sc = new SparkContext(conf)

    val lines: RDD[String] = sc.textFile(args(0))

    //处理数据
    val subjectTeacherAndOne: RDD[((String, String), Int)] = lines.map(line => {
      val teacher = line.substring(line.lastIndexOf("/") + 1)
      val url = new URL(line)
      val host = url.getHost
      val subject = host.substring(0, host.indexOf("."))
      ((subject, teacher), 1)
    })

    //聚合
    val reduced: RDD[((String, String), Int)] = subjectTeacherAndOne.reduceByKey(_+_)

    //按照学科进行分组
    val grouped: RDD[(String, Iterable[((String, String), Int)])] = reduced.groupBy(_._1._1)

    //组内排序
    val sorted: RDD[(String, List[((String, String), Int)])] = grouped.mapValues(_.toList.sortBy(-_._2).take(2))

    //把数据保存到hdfs
    sorted.saveAsTextFile(args(1))

    sc.stop()

  }
}

3、(根据IP规则，计算用户的地区分布数量)

package com._51doit.spark.day3

import com._51doit.spark.utils.MyUtil
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

import scala.collection.mutable.ArrayBuffer

object IpLocation {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName(this.getClass.getSimpleName)

    val sc = new SparkContext(conf)

    //指定以后从哪里读取数据创建RDD
    val accessLog: RDD[String] = sc.textFile(args(0))

    //对数据进行处理
    val provinceAndOne: RDD[(String, Int)] = accessLog.map(line => {
      val fields = line.split("[|]")
      val ip = fields(1)
      val ipNum = MyUtil.ip2Long(ip)
      val province = IpRulesUtil.binarySearch(ipNum)
      (province, 1)
    })

    //聚合
    val reudced: RDD[(String, Int)] = provinceAndOne.reduceByKey(_+_)

    reudced.saveAsTextFile(args(1))

    sc.stop()
  }

}

package com._51doit.spark.day3

import java.io.{BufferedReader, InputStreamReader}
import java.net.URI

import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs.{FSDataInputStream, FileSystem, Path}

import scala.collection.mutable.ArrayBuffer

object IpRulesUtil {

  //初始化一个集合
  val ipRules = new ArrayBuffer[(Long, Long, String)]()

  //hdfs的读取数据的过程
  val conf = new Configuration()
  val fs: FileSystem = FileSystem.get(URI.create("hdfs://node-1.51doit.com:9000"), conf)
  val in: FSDataInputStream = fs.open(new Path("/iprules/ip.txt"))
  val reader = new BufferedReader(new InputStreamReader(in))

  var line = reader.readLine()

  while (line != null) {
    val fields = line.split("[|]")
    val startNum = fields(2).toLong
    val endNum = fields(3).toLong
    val province = fields(6)
    ipRules.append((startNum, endNum, province))

    line = reader.readLine()
  }

  def binarySearch(ip: Long) : String = {
    var low = 0
    var high = ipRules.length - 1
    while (low <= high) {
      val middle = (low + high) / 2
      if ((ip >= ipRules(middle)._1) && (ip <= ipRules(middle)._2))
        return ipRules(middle)._3
      if (ip < ipRules(middle)._1)
        high = middle - 1
      else {
        low = middle + 1
      }
    }
    "未知"
  }
}

Spark练习代码的更多相关文章

Spark SQL 代码简要阅读（基于Spark 1.1.0）
Spark SQL允许相关的查询如SQL,HiveQL或Scala运行在spark上.其核心组件是一个新的RDD:SchemaRDD,SchemaRDDs由行对象组成,并包含一个描述此行对象的每一列的 ...
整合Kafka到Spark Streaming——代码示例和挑战
作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术主管.本文,Michael详细的演示了如 ...
合并Spark社区代码的正确姿势
原创文章,转载请保留出处最近刚刚忙完Spark 2.2.0的性能测试及Bug修复,社区又要发布2.1.2了,国庆期间刚好有空,过了一遍2.1.2的相关JIRA,发现有不少重要修复2.2.0也能用上, ...
Spark测试代码
测试代码: import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.hive.HiveContext ...
Spark算子代码实践
package com.dingxin.datainit import org.apache.log4j.{Level, Logger} import org.apache.spark.sql.Spa ...
Idea 编写 Spark 示例代码并打包成Jar
说明:本人是在Linux下搭建的单机Spark环境,也是在Linux下使用Idea14.02进行代码编辑 1. 打开IDEA,在欢迎界面从右下角的Configure -> Plugins进入,安 ...
python+spark程序代码片段
处理如此的字符串: time^B1493534543940^Aid^B02CD^Aasr^B叫爸爸^Anlp^B{"domain":"com.abc.system.cha ...
spark java 代码example
https://github.com/apache/spark/tree/master/examples/src/main/java/org/apache/spark/examples
Spark菜鸟学习营Day6 分布式代码运行调试
Spark菜鸟学习营Day6 分布式代码运行调试作为代码调试,一般会分成两个部分语法调试,也就是确定能够运行结果调试,也就是确定程序逻辑的正确其实这个都离不开运行,所以我们说一下如何让开发的S ...

随机推荐

包含复杂函数的excel 并下载
POI 版本: <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi</a ...
$q的基本用法
angularjs的http是异步的没有同步,一般都会遇到一个场景,会把异步请求的参数作为条件执行下一个函数,之前一直在看其他人的博客理论太多看了很久才看懂 http({ method:'post', ...
OpenCV基础知识介绍
1.图像与矩阵一般来说,图像是一个标准的矩形,有着宽度(width)和高度(height).而矩阵有着行(row)和列(column),矩阵的操作在数学和计算机中的处理都很常见且成熟,于是很自然的就 ...
Do More With These Great Plugins for Windows Live Writer(old)
This article is out of day,now we use open live wirter, but we don’t have so much works great plugin ...
Weex是如何让JS调用产生原生UIView的？
从官方的Demo,我们知道,要在客户端显示Weex页面,是通过WXSDKInstance的实例实现的.我们先来看看这个类里面都有什么: @interface WXSDKInstance : NSObj ...
Thinking in Java from Chapter 11
From Thinking in Java 4th Edition 持有对象 // Simple container example (produces compiler warnings.) // ...
maya2016卸载/安装失败/如何彻底卸载清除干净maya2016注册表和文件的方法
maya2016提示安装未完成,某些产品无法安装该怎样解决呢?一些朋友在win7或者win10系统下安装maya2016失败提示maya2016安装未完成,某些产品无法安装,也有时候想重新安装maya ...
利用SSH反向隧道，连接内网服务器
前言公司有一台文件服务器(内部使用,无外网IP),上面主要安装了SVN服务,用来存储和共享各部门的文档,因为都是内网,直接远程(mstsc)上去就可以方便维护,但最近公司租了新的办公室,部分员工被分 ...
Java Web(三) 会话机制，Cookie和Session详解（转载）
https://www.cnblogs.com/whgk/p/6422391.html 很大一部分应该知道什么是会话机制,也能说的出几句,我也大概了解一点,但是学了之后几天不用,立马忘的一干二净,原因 ...
Devops流程规范
芯盾时代_Devops_Docker操作说明及使用规范北京芯盾时代科技有限公司 2019年1月修订记录版本号修订人修订日期修订描述 v0.1 芯盾 2019/1/15 初次创建 v0.2 ...

Spark练习代码

Spark练习代码的更多相关文章

随机推荐

热门专题