Spark- Action实战

package cn.rzlee.spark.core

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object ActionOperation {

  def main(args: Array[String]): Unit = {

    //reduce()

    //collect()

    //count()

    //take()

    //saveAsTextFile()

    countByKey()

  }

  def reduce(): Unit ={

    val conf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local[1]")

    val sc = new SparkContext(conf)

    val numbersList = Array(1,2,3,4,5,6,7,8,9,10)

    val numbersRdd: RDD[Int] = sc.parallelize(numbersList,1)

    val sum: Int = numbersRdd.reduce(_+_)

    println(sum)

  }

  def collect(): Unit ={

    val conf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local[1]")

    val sc = new SparkContext(conf)

    val numbersList = Array(1,2,3,4,5,6,7,8,9,10)

    val numbersRdd: RDD[Int] = sc.parallelize(numbersList,1)

    val doubleNumbers: RDD[Int] = numbersRdd.map(num=>num*2)

    for(num <- doubleNumbers){

      println(num)

    }

  }

  def count(): Unit ={

    val conf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local[1]")

    val sc = new SparkContext(conf)

    val numbersList = Array(1,2,3,4,5,6,7,8,9,10)

    val numbersRdd: RDD[Int] = sc.parallelize(numbersList,1)

    val count: Long = numbersRdd.count()

    println(count)

  }

  def take(): Unit ={

    val conf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local[1]")

    val sc = new SparkContext(conf)

    val numbersList = Array(1,2,3,4,5,6,7,8,9,10)

    val numbersRdd: RDD[Int] = sc.parallelize(numbersList,1)

    val top3Numners = numbersRdd.take(3)

    for (num <- top3Numners){

      println(num)

    }

  }

  def saveAsTextFile(): Unit ={

    val conf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local[1]")

    val sc = new SparkContext(conf)

    val numbersList = Array(1,2,3,4,5,6,7,8,9,10)

    val numbersRdd: RDD[Int] = sc.parallelize(numbersList,1)

    numbersRdd.saveAsTextFile("C:\\Users\\txdyl\\Desktop\\log\\out\\saveAsTest\\")

  }

  def countByKey(): Unit ={

    val conf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local[1]")

    val sc = new SparkContext(conf)

    val studentList = Array(Tuple2("class1","tom"),Tuple2("class2","leo"), Tuple2("class1","jeo"),Tuple2("class2","jime"))

    val students: RDD[(String, String)] = sc.parallelize(studentList, 1)

    val studentsCounts: collection.Map[String, Long] = students.countByKey()

    println(studentsCounts)

  }

  // foreach是在远程机器上执行的，而不是将数据拉取到本地一条条执行，所以性能要比collect要高很多。

}

Spark- Action实战的更多相关文章

Spark入门实战系列--1.Spark及其生态圈简介
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .简介 1.1 Spark简介年6月进入Apache成为孵化项目,8个月后成为Apache ...
Spark入门实战系列--3.Spark编程模型（上）--编程模型及SparkShell实战
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Spark编程模型 1.1 术语定义 l应用程序(Application): 基于Spar ...
Spark入门实战系列--4.Spark运行架构
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 1. Spark运行架构 1.1 术语定义 lApplication:Spark Appli ...
Spark入门实战系列--6.SparkSQL（下）--Spark实战应用
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .运行环境说明 1.1 硬软件环境线程,主频2.2G,10G内存 l 虚拟软件:VMwa ...
Spark入门实战系列--8.Spark MLlib（下）--机器学习库SparkMLlib实战
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .MLlib实例 1.1 聚类实例 1.1.1 算法说明聚类(Cluster analys ...
【Todo】【读书笔记】大数据Spark企业级实战版 & Scala学习
下了这本<大数据Spark企业级实战版>, 另外还有一本<Spark大数据处理:技术.应用与性能优化(全)> 先看前一篇. 根据书里的前言里面,对于阅读顺序的建议.先看最后的S ...
《大数据Spark企业级实战》
基本信息作者: Spark亚太研究院王家林丛书名:决胜大数据时代Spark全系列书籍出版社:电子工业出版社 ISBN:9787121247446 上架时间:2015-1-6 出版日期:20 ...
倾情大奉送--Spark入门实战系列
这一两年Spark技术很火,自己也凑热闹,反复的试验.研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家.这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介.编译.部署,再到编 ...
Spark入门实战系列--10.分布式内存文件系统Tachyon介绍及安装部署
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Tachyon介绍 1.1 Tachyon简介随着实时计算的需求日益增多,分布式内存计算 ...
Spark入门实战系列--2.Spark编译与部署（上）--基础环境搭建
[注] 1.该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取: 2.Spark编译与部署将以CentOS 64位操作系统为基础,主要是考虑到实际应用 ...

随机推荐

PDO中捕获SQL语句中的错误
使用默认模式-----PDO::ERRMODE_SILENT 在默认模式中设置PDOStatement对象的errorCode属性,但不进行其它不论什么操作. 比如: 通过prepare()和exec ...
oracle海量数据中提升创建索引的速度
基本信息情况: 数据库版本:Oracle Database 11g Enterprise Edition Release 11.2.0.1.0 - 64bit Production 操作系统版本:Ce ...
"下列引导或系统启动驱动程序无法加载: cdrom"的解决方案
1.进入注册表(开始->运行->regedit) 2.展开HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\services\cdrom 3.把Sta ...
第四篇： Ansible 常用模块使用
一. command | shell 模块该模块为:执行命令模块 (由于命令模块较为强大,可根据自身对操作系统的熟练程度而增加.所以这里不再介绍类似可以实现同功能模块,比如service模块,需要重 ...
laravel学习之路4artisan
php artisan list php artisan help migrate Tinker 让你可以在命令行中与 Laravel 应用进行交互php artisan tinker 在routes ...
TSharding源码阅读-MapperShardingInitializer
/** * 增强Mapper处理总入口:Mapper被mybatis初始化后,在这里做进一步的处理和增强 * * @author qigong on 5/1/15 */ public class Ma ...
mongodb 指南
mongodb概述 mongodb安装 mongodb启动参数 mongodb权限体系 mongodb管理命令 mongodb备份恢复
Lumen开发：如何向 IoC 容器中添加自己定义的类
版权声明:本文为博主原创文章,未经博主允许不得转载. 先在起始文件bootstrap/app.php加上$app->register(App\Providers\User\UserService ...
【php】global的使用与php的全局变量
php的全局变量和其余编程语言是不同的,在大多数的编程语言中,全局变量在其下的函数.类中自己主动生效.除非被局部变量覆盖,或者根本就不同意再声明同样名称与类型的局部变量.可是php中的全局变量不是默认 ...
elasticsearch从入门到出门-04-入门的几个需求练手
第一个分析需求:计算每个tag下的商品数量 GET /ecommerce/product/_search{ "aggs": { "group_by_tags&qu ...

Spark- Action实战

Spark- Action实战的更多相关文章

随机推荐

热门专题