Spark学习笔记——在远程机器中运行WordCount

1.通过realy机器登录relay-shell

ssh XXX@XXX

2.登录了跳板机之后，连接可以用的机器

XXXX.bj

3.在本地的idea生成好程序的jar包（word-count_2.11-1.0.jar）之后，把jar包和需要put到远程机器的hdfs文件系统中的文件通过scp命令从开发机传到远程的机器中

scp 开发机用户名@开发机ip地址:/home/XXXXX/文件 .    #最后一个.表示cd的根目录下

object WordCount {

  def main(args: Array[String]) {

//    val inputFile =  "file:///home/mi/coding/coding/Scala/word-count/input/README.txt"

//    val inputFile =  "file://README.txt"

    val inputFile =  "/user/XXXX/lintong/README.txt"

    val conf = new SparkConf().setAppName("WordCount").setMaster("yarn-client")

    val sc = new SparkContext(conf)

    val textFile = sc.textFile(inputFile)

    val wordCount = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)

//    wordCount.foreach(println)

//    wordCount.saveAsTextFile("file:///home/mi/coding/coding/Scala/word-count/output/READMEOUT.txt")

    wordCount.saveAsTextFile("/user/XXXX/lintong/READMEOUT.txt")

  }

}

4.通过put命令将远程机器中的txt文件，传到远程机器的hdfs文件系统

hadoop fs -put /homeXXX/文件名 ./lintong    #.注意.的目录地址是用户的根目录

5.这时可以使用下面命令查看文件

hadoop fs -ls ./lintong

6.接下来写shell脚本，来运行spark-submit命令，写完shell脚本只要运行shell脚本就行，shell脚本的目录和jar包的目录保持一致

yarn-client 调试模式

yarn-cluster 生产模式

spark-submit --cluster XXXXX \

    --master yarn-client \

    --num-executors 3 \

    --class "包名.类名" \

    --queue XXXXX \

    word-count_2.11-1.0.jar

7.最后在hdfs文件系统中查看生成的文件，注意

wordCount.saveAsTextFile("/user/XXXX/lintong/READMEOUT.txt")

会是一个READMEOUT.txt目录，这个目录下面有part文件

hadoop fs -ls ./lintong/READMEOUT.txt

输出

lintong/READMEOUT.txt/_SUCCESS

lintong/READMEOUT.txt/part-00000

Spark学习笔记——在远程机器中运行WordCount的更多相关文章

Spark学习笔记——在集群上运行Spark
Spark运行的时候,采用的是主从结构,有一个节点负责中央协调, 调度各个分布式工作节点.这个中央协调节点被称为驱动器( Driver) 节点.与之对应的工作节点被称为执行器( executor) 节 ...
Spark学习笔记3（IDEA编写scala代码并打包上传集群运行）
Spark学习笔记3 IDEA编写scala代码并打包上传集群运行我们在IDEA上的maven项目已经搭建完成了,现在可以写一个简单的spark代码并且打成jar包上传至集群,来检验一下我们的sp ...
Spark学习笔记0——简单了解和技术架构
目录 Spark学习笔记0--简单了解和技术架构什么是Spark 技术架构和软件栈 Spark Core Spark SQL Spark Streaming MLlib GraphX 集群管理器受 ...
Spark学习笔记2——RDD（上）
目录 Spark学习笔记2--RDD(上) RDD是什么? 例子创建 RDD 并行化方式读取外部数据集方式 RDD 操作转化操作行动操作惰性求值 Spark学习笔记2--RDD(上) 笔记摘 ...
Spark学习笔记之SparkRDD
Spark学习笔记之SparkRDD 一. 基本概念 RDD(resilient distributed datasets)弹性分布式数据集. 来自于两方面 ① 内存集合和外部存储系统 ② ...
spark学习笔记总结-spark入门资料精化
Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用. ...
Spark学习之在集群上运行Spark（6）
Spark学习之在集群上运行Spark(6) 1. Spark的一个优点在于可以通过增加机器数量并使用集群模式运行,来扩展程序的计算能力. 2. Spark既能适用于专用集群,也可以适用于共享的云计算 ...
Spark学习笔记3——RDD（下）
目录 Spark学习笔记3--RDD(下) 向Spark传递函数通过匿名内部类通过具名类传递通过带参数的 Java 函数类传递通过 lambda 表达式传递(仅限于 Java 8 及以上) 常 ...
Spark学习笔记1——第一个Spark程序：单词数统计
Spark学习笔记1--第一个Spark程序:单词数统计笔记摘抄自 [美] Holden Karau 等著的<Spark快速大数据分析> 添加依赖通过 Maven 添加 Spark-c ...

随机推荐

(转）【Java线程】Java内存模型总结
Java的并发采用的是共享内存模型(而非消息传递模型),线程之间共享程序的公共状态,线程之间通过写-读内存中的公共状态来隐式进行通信.多个线程之间是不能直接传递数据交互的,它们之间的交互只能通过共享变 ...
【洛谷】1600：天天爱跑步【LCA】【开桶】【容斥】【推式子】
P1600 天天爱跑步题目描述小c同学认为跑步非常有趣,于是决定制作一款叫做<天天爱跑步>的游戏.<天天爱跑步>是一个养成类游戏,需要玩家每天按时上线,完成打卡任务. 这个 ...
Reactor 3 学习笔记(1)
Reactor 3 与之前学习的RxJava是同一类(反应式编程)框架,基本概念大致差不多,简单记录一下: Reactor 3 利用了java 8中的CompletableFuture.Stream. ...
NSURLSession 相关清单
浅析 NSURLSession http://boboshone.com/blog/2013/10/21/nsurlsession-tutorial/ 介绍整体流程结构. iOS NSURL ...
几款流行的HTML5 UI 框架比较
手机HTML5开发,大部分都使用现有的框架,这里简单比较几个流行的UI 框架.作者(启明星工作室 http://www.dotnetcms.org) 比较一下几款流行的HTML5框架,个人意见,仅供参 ...
java 集合框架 Java集合&List的实现
原文: https://blog.csdn.net/u012658346/article/details/50917068 一.java集合类图如下所示: 上述类图中,实线边框的是实现类,比如Arra ...
CMD递归文件夹
SET dir=%~dp0 SET /a cnt=0 echo dir is: %dir% cd /d %dir% for /R %dir% %%i in (*.apk) do ( set /a cn ...
C#调用存储过程详解(带返回值、参数输入输出等)
CREATE PROCEDURE [dbo].[GetNameById] @studentid varchar(8), @studentname nvarchar(50) OUTPUT AS BEGI ...
将R非时间序列的data.frame转变为时序格式
将R非时间序列的data.frame转变为时序格式,常常会用到,尤其是股票数据处理中, 举例:dailyData包括两列数据:Date Close10/11/2013 871.9910/10/2013 ...
input框触发回车事件
window.event只能在IE下运行,不能在firefox下运行,这是因为firefox的event只能在事件发生的现场使用. 在firefox里直接调用event对象会报undefined. ...

Spark学习笔记——在远程机器中运行WordCount

Spark学习笔记——在远程机器中运行WordCount的更多相关文章

随机推荐

热门专题