大数据笔记（二十八）——执行Spark任务、开发Spark WordCount程序

一、执行Spark任务: 客户端
1、Spark Submit工具：提交Spark的任务（jar文件）
（*）spark提供的用于提交Spark任务工具
（*）example：/root/training/spark-2.1.0-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.1.0.jar
（*）SparkPi.scala 例子：蒙特卡罗求PI

bin/spark-submit --master spark://bigdata11:7077 --class org.apache.spark.examples.SparkPi examples/jars/spark-examples_2.11-2.1.0.jar 100

Pi is roughly 3.1419547141954713

bin/spark-submit --master spark://bigdata11:7077 --class org.apache.spark.examples.SparkPi examples/jars/spark-examples_2.11-2.1.0.jar 300

Pi is roughly 3.141877971395932

2、Spark Shell 工具：交互式命令行工具、作为一个Application运行
两种模式：（1）本地模式
在spark解压目录/bin下执行：./spark-shell
日志：

创建一个文件hellospark.txt

读文件：

（2）集群模式
bin/spark-shell --master spark://bigdata11:7077
日志：

Spark context available as 'sc' (master = spark://bigdata11:7077, app id = app-20180209210815-0002).

对象：Spark context available as 'sc'
Spark session available as 'spark' ---> 在Spark 2.0后，新提供
是一个统一的访问接口：Spark Core、Spark SQL、Spark Streaming

sc.textFile("hdfs://bigdata11:9000/input/data.txt") 通过sc对象读取HDFS的文件

.flatMap(_.split(" ")) 分词操作、压平

.map((_,1)) 每个单词记一次数

.reduceByKey(_+_) 按照key进行reduce，再将value进行累加

.saveAsTextFile("hdfs://bigdata11:9000/output/spark/day0209/wc")

多说一句：
.reduceByKey(_+_)
完整
.reduceByKey((a,b) => a+b)

3、开发WordCount程序
http://spark.apache.org/docs/2.1.0/api/scala/index.html#org.apache.spark.package
（1）Scala版本: 在IDEA中

package mydemo

/*

提交

bin/spark-submit --master spark://bigdata11:7077 --class mydemo.MyWordCount /root/temp/MyWordCount.jar hdfs://bigdata11:9000/input/data.txt hdfs://bigdata11:9000/output/spark/day0209/wc1

 */

import org.apache.spark.{SparkConf, SparkContext}

//开发一个Scala版本的WordCount

object MyWordCount {

  def main(args: Array[String]): Unit = {

    //创建一个Config

    val conf = new SparkConf().setAppName("MyScalaWordCount")

    //核心创建SparkContext对象

    val sc = new SparkContext(conf)

    //使用sc对象执行相应的算子（函数）

    sc.textFile(args(0))

      .flatMap(_.split(" "))

      .map((_,1))

      .reduceByKey(_+_)

      .saveAsTextFile(args(1))

    //停止SparkContext对象

    sc.stop()

  }

}

分析WordCount程序执行的过程

Spark 提交任务的流程

大数据笔记（二十八）——执行Spark任务、开发Spark WordCount程序的更多相关文章

大数据笔记（十八）——Pig的自定义函数
Pig的自定义函数有三种: 1.自定义过滤函数:相当于where条件 2.自定义运算函数: 3.自定义加载函数:使用load语句加载数据,生成一个bag 默认:一行解析成一个Tuple 需要MR的ja ...
大数据笔记（十二）——使用MRUnit进行单元测试
package demo.wc; import java.util.ArrayList; import java.util.List; import org.apache.hadoop.io.IntW ...
Java基础学习笔记二十八管家婆综合项目
本项目为JAVA基础综合项目,主要包括: 熟练View层.Service层.Dao层之间的方法相互调用操作.熟练dbutils操作数据库表完成增删改查. 项目功能分析查询账务多条件组合查询账务添 ...
大数据笔记（十五）——Hive的体系结构与安装配置、数据模型
一．常见的数据分析引擎 Hive:Hive是一个翻译器,一个基于Hadoop之上的数据仓库,把SQL语句翻译成一个 MapReduce程序.可以看成是Hive到MapReduce的映射器. Hive ...
大数据笔记（十）——Shuffle与MapReduce编程案例（A）
一.什么是Shuffle yarn-site.xml文件配置的时候有这个参数:yarn.nodemanage.aux-services:mapreduce_shuffle 因为mapreduce程序运 ...
angular学习笔记(二十八-附2)-$http,$resource中的promise对象
下面这种promise的用法,我从第一篇$http笔记到$resource笔记中,一直都有用到: HttpREST.factory('cardResource',function($resource) ...
Java学习笔记二十八:Java中的接口
Java中的接口一:Java的接口: 接口(英文:Interface),在JAVA编程语言中是一个抽象类型,是抽象方法的集合,接口通常以interface来声明.一个类通过继承接口的方式,从而来继承 ...
论文阅读笔记二十八：You Only Look Once: Uniﬁed,Real-Time Object Detection(YOLO v1 CVPR2015)
论文源址:https://arxiv.org/abs/1506.02640 tensorflow代码:https://github.com/nilboy/tensorflow-yolo 摘要该文提出 ...
大数据笔记（十九）——数据采集引擎Sqoop和Flume安装测试详解
一.Sqoop数据采集引擎采集关系型数据库中的数据用在离线计算的应用中强调:批量 (1)数据交换引擎: RDBMS <---> Sqoop <---> HDFS.HBas ...
大数据笔记（十六）——Hive的客户端及自定义函数
一.Hive的Java客户端 JDBC工具类:JDBCUtils.java package demo.jdbc; import java.sql.DriverManager; import java. ...

随机推荐

HDU-4507-吉哥系列故事-恨7不成妻
题目描述单身! 依然单身! 吉哥依然单身! DS级码农吉哥依然单身! 所以,他生平最恨情人节,不管是214还是77,他都讨厌! 吉哥观察了214和77这两个数,发现: 2+1+4=7 7+7=7*2 ...
怎么编写properties文件
1. 注释在properties中注释是采用#号开头的方式来进行注释的 2. 编写properties文件在properties中,一行就是一个键值对,简单的理解就是一行可以保存一个变量,键和值之 ...
scrapy之360图片爬取
#今日目标 **scrapy之360图片爬取** 今天要爬取的是360美女图片,首先分析页面得知网页是动态加载,故需要先找到网页链接规律, 然后调用ImagesPipeline类实现图片爬取 *代码实 ...
Win7(64位)下安装Anaconda+Tensorflow(CPU)
一.安装Python 3.5 下载Anaconda网址:https://www.anaconda.com/download/ 安装:Anaconda3-4.2.0-Windows-x86_64.exe ...
LeetCode 338. 比特位计数
338. 比特位计数题目描述给定一个非负整数 num.对于 0 ≤ i ≤ num 范围中的每个数字 i ,计算其二进制数中的 1 的数目并将它们作为数组返回. 示例示例 1: 输入: 2 输出 ...
npm学习（八）之如何使用语义化版本
npm的语义化版本控制——Semantic versioning 在新发布的代码中传达更改的程度非常重要,因为有时更新会破坏包需要的代码(称为依赖项).语义化版本控制(semver)是一个旨在解决这个 ...
javaSql面试题（10题）
有如下四张表: 学生表Student(stuId,stuName,stuAge,stuSex): 课程表Course(courseId,courseName,teacherId): 成绩表Scores ...
php 中英文混合字符串长度计算
(strlen($string) + mb_strlen($string,'UTF8')) / 2;tw 这样计算的
java数据结构03
1.求二叉树的深度 https://www.cnblogs.com/xudong-bupt/p/4036190.html class TreeNode { char val; TreeNode lef ...
22_1mybaits入门
1.什么是框架? 它是我们软件开发中的一套解决方案,不同的框架解决的是不同的问题. 使用框架的好处: 框架封装了很多的细节,使开发者可以使用极简的方式实现功能.大大提高开发效率. 2.三层架构表现层 ...

大数据笔记（二十八）——执行Spark任务、开发Spark WordCount程序

大数据笔记（二十八）——执行Spark任务、开发Spark WordCount程序的更多相关文章

随机推荐

热门专题