scala Wordcount

package my.bigdata.scala08

import scala.collection.mutable
import scala.collection.mutable.ArrayBuffer
import scala.io.Source

/** scala word count
  * Created by lq on 2017/8/7.
  */
object Task2 {

  /**
    * basic 核心是外部变量 + map.getOrElse
    */
  def scalaWC0(): Unit ={
    val in = new java.util.Scanner(new java.io.File("myfile.txt"))
    //var tt = null;
    val words = new ArrayBuffer[String]
    while(in.hasNext())
    {
      words ++= in.next().split("\\s+")
    }
    var map = Map[String,Int]()
    for(key <- words) {
      map +=(key -> (map.getOrElse(key, 0)+1))
      println((key -> (map.getOrElse(key, 0)+1)))
      //
    }
    print(map)
  }

  /**
    * basic 核心是外部变量 + map.getOrElse
    */
  def scalaWC1(): Unit ={
    val lines = Source.fromFile("myfile.txt").getLines();
    val resMap = new mutable.HashMap[String,Long]()
    //lines.map(line=>{line.split("\\s+")}).
    for(line <- lines){
      val fields = line.split("\\s+")
      for(f <- fields){
        val v =  resMap.getOrElse(f,0L);
        resMap.put(f,v+1L)
      }
    }
    resMap.foreach(println(_))
  }

  /**
    * 利用遍历+外部变量map实现
    */
  def scalaWC5(): Unit = {
    val lines = Source.fromFile("myfile.txt").getLines();
    val resMap = new mutable.HashMap[String, Long]()
    val res = lines.flatMap(_.split("\\s+")).map(t=>{resMap+=((t,resMap.getOrElse(t,0L)+1L))})
    println(resMap)
  }

  /**
    * 利用遍历+外部变量map实现
    */
  def scalaWC4(): Unit = {
    val lines = Source.fromFile("myfile.txt").getLines();
    val resMap = new mutable.HashMap[String, Long]()
    val res = lines.flatMap(line => {
      line.split("\\s+")}).foldLeft(resMap)((x,y:String)=>{
      resMap+=((y,resMap.getOrElse(y,0L)+1L))
    })
    println(resMap)
  }

  /**
    * advance 没有用到外部变量, foldLeft 传入一个map,然后传入一个偏函数,偏函数结合遍历的数据处理map返回一个map,最后整个函数返回一个map
    */
  def scalaWC41(): Unit = {
    val lines = Source.fromFile("myfile.txt").getLines();
    val res = lines.flatMap(_.split("\\s+")).foldLeft(mutable.Map[String,Long]())((m,y:String)=>{
      m += ((y,m.getOrElse(y,0L)+1L))
    })
    println(res)
  }

  /**
    * advance 没有用到外部变量, foldLeft的遍历所有的功能
    */
  def scalaWC2(): Unit ={
    val lines = Source.fromFile("myfile.txt").getLines();
    //val resMap = new mutable.HashMap[String,Long]()
    val res = lines.map(line=>{line.split("\\s+").toBuffer})
      .toList.flatMap(x=>x).map((_,1)).groupBy(_._1)
      .map(x=>(x._1,x._2.foldLeft(0)((sum,t) =>{sum + t._2})))
    println(res)
  }

  /**
    * advance 没有用到外部变量, reduceLeft的遍历所有的功能
    */
  def scalaWC3(): Unit ={
    val lines = Source.fromFile("myfile.txt").getLines();
    val res = lines.map(line=>{line.split("\\s+").toBuffer})
      .toList.flatMap(x=>x).map((_,1)).groupBy(_._1)
      .map(x=>(x._2.reduceLeft((x,y)=>{
        (x._1,x._2+y._2)
      })))
    //出现
    println(res)
  }

  /**
    * 主函数
    *
    * @param args
    */
  def main(args: Array[String]): Unit = {
    // arrFun2()
    // printJavaProp()
    //customMap()
    scalaWC41()
  }
  /*
  总结:wc的实现思路
  1.循环+外部map变量+map特性
  2.利用集合的方法,通过各种变换,的到结果
  3.集合具有遍历的方法有map,filter,foreach,reduceLeft,foldLeft,这些加上外部map变量+map特性都能实现WordCount

   */
}

scala Wordcount的更多相关文章

scala wordcount kmeans
scala wordcount kmeans k-means算法的输入对象是d维向量空间的一些点,对一个d维向量的点集进行聚类. k-means聚类算法会将集合D划分成k个聚簇.
scala WordCount案例
数据样例: java,spark,hadoop,python,datax java,spark,hadoop,spark,python,datax java,spark,hadoop,python,d ...
Scala Spark WordCount
Scala所需依赖 <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-l ...
Flink单机版安装与wordCount
Flink为大数据处理工具,类似hadoop,spark.但它能够在大规模分布式系统中快速处理,与spark相似也是基于内存运算,并以低延迟性和高容错性主城,其核心特性是实时的处理流数据.从此大数据生 ...
2019/2/23Scala学习开始（Scala简介）
Scala简介 Scala是一门多范式(multi-paradigm)的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性. Scala运行在Java虚拟机上,并兼容现有的Java程序 ...
大数据入门到精通9-真正得wordcount
本章节实现一个真正得wordcount 得spark程序. 一.从本地获得一个数据集 val speechRdd= sc.parallelize(scala.io.Source.fromFile(&q ...
Spark学习笔记——在远程机器中运行WordCount
1.通过realy机器登录relay-shell ssh XXX@XXX 2.登录了跳板机之后,连接可以用的机器 XXXX.bj 3.在本地的idea生成好程序的jar包(word-count_2.1 ...
Spark学习笔记——安装和WordCount
1.去清华的镜像站点下载文件spark-2.1.0-bin-without-hadoop.tgz,不要下spark-2.1.0-bin-hadoop2.7.tgz 2.把文件解压到/usr/local ...
spark之 spark 2.2.0 Standalone安装、wordCount演示
说明:前提安装好hadoop集群,可参考 http://blog.csdn.net/zhang123456456/article/details/77621487 一. scala 安装 1.下载 s ...

随机推荐

idea maven 报-source 1.5 中不支持 diamond 运算符
需要修改 project setting 中的
检测任意日期字符串是否属于当天的java实现方案
有时候我们会遇到很多形式的日期判断,甚至是并不常见的日期形式,比如20161212之类的日期,下面就此来进行代码是否处于当天的日期校验的代码实现来做一个整理. public static boolea ...
PHP的代理模式
php的代理模式的实现: 理解一种模式,可以融会贯通,和其它的模式进行对比.找出为什么要代理模式呢?跟父类.接口的区别是什么? 为什么需要这种模式?存在的价值? 原文:https://www.cnb ...
java Socket通信使用BufferedReader和BufferedWriter的注意事项
注意事项:readLine()要求有换行标识,write()要输出换行标识,要调用flush()刷新缓冲区. 以下是取自java socket通信中的一小段代码. BufferedReader rea ...
总结一些Android好用的开源库
1.android-viewFlow https://github.com/pakerfeldt/android-viewflow 2. android-viewbadger https://gith ...
KineticJS教程（7）
KineticJS教程(7) 作者: ysm 7.图形变换 7.1.线性变化 Kinetic提供了一个图形对象的transitionTo(config)方法实现图形的线性变换,也就是从原始的状态线性变 ...
环境变量之执行文件路径的变量PATH
当我们执行一个命令时,系统会依据PATH的设置去PATH定义的每个目录下查寻该命令的可执行文件,如果在PATH定义的目录中含有多个文件名为我们要执行的命令的可执行文件时,那么先查询到的同名命令先被执行 ...
log4cplus的安装与使用初步
1. 简单介绍 log4cplus是C++编写的开源的日志系统,The purpose of this project is to port the excellentLog for Java (lo ...
Hadoop-2.2.0中文文档—— 从Hadoop 1.x 迁移至 Hadoop 2.x
简单介绍本文档对从 Apache Hadoop 1.x 迁移他们的Apache Hadoop MapReduce 应用到 Apache Hadoop 2.x 的用户提供了一些信息. 在 Apache ...
xampp集成包如何重置mysql的密码
转自:http://blog.sina.com.cn/s/blog_4b2bcac501013s4l.html 安装使用xampp,装好后root默认没有密码,phpmyadmin是用config文件 ...

scala Wordcount

scala Wordcount的更多相关文章

随机推荐

热门专题