一、前期准备

　　前期的环境准备，在Linux系统下要有Hadoop系统，spark伪分布式或者分布式，具体的教程可以查阅我的这两篇博客：

Spark2.4.0伪分布式环境搭建

　　然后在spark伪分布式的环境下必须出现如下八个节点才算spark环境搭建好。

　　然后再在本地windows系统下有一个简单的词频统计程序。

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import org.apache.spark.rdd.RDD

object ScalaSparkDemo {

  def main(args: Array[String]) {

    /**

     * 第一步：创建Spark的配置对象SparkConf，设置Spark程序的运行时的配置信息，

     * 例如说通过setMaster来设置程序要连接的Spark集群的Master的URL，

     * 如果设置为local，则代表Spark程序在本地运行，特别适合于机器配置条件非常差

     * （例如只有1G的内存）的初学者

     */

    val conf = new SparkConf() //创建SparkConf对象，由于全局只有一个SparkConf所以不需要工厂方法

    conf.setAppName("wow,my first spark app") //设置应用程序的名称，在程序的监控界面可以看得到名称

    //conf.setMaster("local") //此时程序在本地运行，不需要安装Spark集群

    /**

     * 第二步：创建SparkContext对象

     * SparkContext是Spark程序所有功能的唯一入口，无论是采用Scala、Java、Python、R等都必须要有一个

     * SparkContext

     * SparkContext核心作用：初始化Spark应用程序运行所需要的核心组件，包括DAGScheduler，TaskScheduler，SchedulerBacked，

     * 同时还会负责Spark程序往Master注册程序等

     * SparkContext是整个Spark应用程序中最为至关重要的一个对象

     */

    val sc = new SparkContext(conf) //创建SpackContext对象，通过传入SparkConf实例来定制Spark运行的具体参数的配置信息

    /**

     * 第三步：根据具体的数据来源（HDFS，HBase，Local，FileSystem，DB，S3）通过SparkContext来创建RDD

     * RDD的创建基本有三种方式，（1）根据外部的数据来源（例如HDFS）（2）根据Scala集合（3）由其它的RDD操作

     * 数据会被RDD划分为成为一系列的Partitions，分配到每个Partition的数据属于一个Task的处理范畴

     */

    //读取本地文件并设置为一个Partition

    // val lines = sc.textFile("words.txt", 1) //第一个参数为为本地文件路径，第二个参数minPartitions为最小并行度，这里设为1

    sc.setLogLevel("WARN")

    val lines = sc.parallelize(List("pandas","i like pandas"))

    //类型推断 ,也可以写下面方式

    // val lines : RDD[String] =sc.textFile("words.txt", 1)

    /**

     * 第四步：对初始的RDD进行Transformation级别的处理，例如map，filter等高阶函数

     * 编程。来进行具体的数据计算

     * 第4.1步：将每一行的字符串拆分成单个的单词

     */

    //对每一行的字符串进行单词拆分并把所有行的结果通过flat合并成一个大的集合

    val words = lines.flatMap { line => line.split(" ") }

    /**

     * 第4.2步在单词拆分的基础上，对每个单词实例计数为1，也就是word=>（word,1）tuple

     */

    val pairs = words.map { word => (word, 1) }

    /**

     * 第4.3步在每个单词实例计数为1的基础之上统计每个单词在文中出现的总次数

     */

    //对相同的key进行value的累加（包括local和Reduce级别的同时Reduce）

    val wordCounts = pairs.reduceByKey(_ + _)

    //打印结果

    wordCounts.foreach(wordNumberPair => println(wordNumberPair._1 + ":" + wordNumberPair._2))

    //释放资源

    sc.stop()

  }

}

二、导出jar包

　　这里注意词频统计程序的包名为test,类名为ScalaSparkDemo。

　　注意这里勾选要打包所依赖的一些文件。当然可以选择把整个工程打包。还要注意这里打包后的文件名为test.jar。

　　然后上传到Ubuntu中，使用这个命令 bin/spark-submit --class test.ScalaSparkDemo --master local /home/xiaow/test.jar 即可运行。/home/xiaow/test.jar：指明此jar包在主节点上的位置。关于打包到集群的详细命令，可以查阅我的这一篇博客：Spark学习之在集群上运行Spark

　　如此，搞定收工！！！

在local模式下的spark程序打包到集群上运行的更多相关文章

Spark学习之在集群上运行Spark（6）
Spark学习之在集群上运行Spark(6) 1. Spark的一个优点在于可以通过增加机器数量并使用集群模式运行,来扩展程序的计算能力. 2. Spark既能适用于专用集群,也可以适用于共享的云计算 ...
Spark学习之在集群上运行Spark
一.简介 Spark 的一大好处就是可以通过增加机器数量并使用集群模式运行,来扩展程序的计算能力.好在编写用于在集群上并行执行的 Spark 应用所使用的 API 跟本地单机模式下的完全一样.也就是说 ...
Spark学习笔记——在集群上运行Spark
Spark运行的时候,采用的是主从结构,有一个节点负责中央协调, 调度各个分布式工作节点.这个中央协调节点被称为驱动器( Driver) 节点.与之对应的工作节点被称为执行器( executor) 节 ...
012 Spark在IDEA中打jar包，并在集群上运行（包括local模式，standalone模式，yarn模式的集群运行）
一:打包成jar 1.修改代码 2.使用maven打包但是目录中有中文,会出现打包错误 3.第二种方式 4.下一步 5.下一步 6.下一步 7.下一步 8.下一步 9.完成二:在集群上运行(loc ...
[MapReduce_add_1] Windows 下开发 MapReduce 程序部署到集群
0. 说明 Windows 下开发 MapReduce 程序部署到集群 1. 前提在本地开发的时候保证 resource 中包含以下配置文件,从集群的配置文件中拷贝在 resource 中新建 ...
[Spark Core] 在 Spark 集群上运行程序
0. 说明将 IDEA 下的项目导出为 Jar 包,部署到 Spark 集群上运行. 1. 打包程序 1.0 前提搭建好 Spark 集群,完成代码的编写. 1.1 修改代码 [添加内容,判断参数 ...
将java开发的wordcount程序提交到spark集群上运行
今天来分享下将java开发的wordcount程序提交到spark集群上运行的步骤. 第一个步骤之前,先上传文本文件,spark.txt,然用命令hadoop fs -put spark.txt /s ...
06、部署Spark程序到集群上运行
06.部署Spark程序到集群上运行 6.1 修改程序代码修改文件加载路径在spark集群上执行程序时,如果加载文件需要确保路径是所有节点能否访问到的路径,因此通常是hdfs路径地址.所以需要修改 ...
spark在集群上运行
1.spark在集群上运行应用的详细过程 (1)用户通过spark-submit脚本提交应用 (2)spark-submit脚本启动驱动器程序,调用用户定义的main()方法 (3)驱动器程序与集群管 ...

随机推荐

第09组 Alpha冲刺（5/6）
队名:观光队组长博客作业博客组员实践情况王耀鑫过去两天完成了哪些任务文字/口头描述完成服务器连接数据库部分代码展示GitHub当日代码/文档签入记录接下来的计划服务器网络请求,前端 ...
【BigData】Java基础_冒泡排序
1.实现需求根据已经存在的数组,使用冒泡排序将数组中的元素排序后输出. 2.代码 package cn.test.logan.day02; /** * 冒泡排序在数组上的实现 * @author Q ...
Mongoose 预定义模式修饰符 Getters 与 Setters 自定义修饰符
mongoose 预定义模式修饰符 mongoose 提供的预定义模式修饰符,可以对我们增加的数据进行一些格式化,主要有:lowercase.uppercase .trim,这里不一一演示,对trim ...
二分法递归版本（c++）
利用二分法求解在区间[0,π/2]上的根 #include<iostream> #include <cmath> using namespace std; double dic ...
js svg转图片格式
1.情景展示闲来无事的时候,发现chrome扩展程序里面有图像,本想下载下来,却发现文件格式是svg格式,如何将svg文件改成图片格式? chrome-extension://jlgkpaici ...
E4A碰到打开自动闪退又自动打开又闪退一直循环的问题
E4A碰到打开自动闪退又自动打开又闪退一直循环的问题这几天写了一个脚本,自己手机上,模拟器上,均测试没有问题,可以正常操作发给另一个人,他那边居然没有一个设备能运行成功! 而且一直闪退,闪退后又打 ...
jmeter(四十六)参数化与断言实战
概述今天用jmeter做一次参数化实战.通过计数器遍历参数表,然后查询jdbc进行beanshell断言. 涉及元件用户参数,计数器,正则表达式,jdbc,beanshell脚本详细过程在我们 ...
Inno setup 判断系统32位还是64位
[Files] ; Install MyProg-x64.exe -bit mode (x64; see above), ; Check: Is64BitInstallMode 表示是64位windo ...
Cesium原理篇：6 Render模块(6: Instance实例化)【转】
https://www.cnblogs.com/fuckgiser/p/6027520.html 最近研究Cesium的实例化,尽管该技术需要在WebGL2.0,也就是OpenGL ES3.0才支持. ...
【laravel5.5+Passport】laravel5的前后端分离之Passport设计
项目中使用到了laravel5的passport组件,进行前后端分离的 api认证部分: 前后端分离的api认证,我们用的是: [密码授权令牌],需要用户登录->指定client_id/clie ...

在local模式下的spark程序打包到集群上运行

一、前期准备

二、导出jar包

在local模式下的spark程序打包到集群上运行的更多相关文章

随机推荐

热门专题