1. 上传文件到hdfs

# 前提挂载了 -v ~/bilibili/input_files:/input_files

# hdfs创建input文件夹

docker exec namenode hdfs dfs -mkdir /input

# 将容器内input_files文件夹下的1.txt上传到 hdfs的 /input下

docker exec namenode hdfs dfs -put /input_files/1.txt /input

查看浏览器中是否有指定文件

2. 运行wordCount

2.1 spark-shell运行

# 进入spark master容器内的spark-shell

docker exec -ti master spark-shell --executor-memory 1024M --total-executor-cores 2

# 执行wordCount

sc.textFile("hdfs://namenode:8020/input/1.txt").flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_ + _).collect

2.2 spark-submit运行example(stand-alone)

这里使用官方默认的example jar运行

docker exec master \

bin/spark-submit \

--class org.apache.spark.examples.SparkPi \

--master 'spark://master:7077' \

--executor-memory 1G \

--total-executor-cores 2 \

./examples/jars/spark-examples_2.12-3.2.1.jar \

10

参数	解释	可选值
--class	Spark程序中包含主函数的类
--master	Spark程序运行的模式(环境)	local[*] spark://master:7077 yarn
--executor-memory	每个executor可用内存为1G
--total-executor-cores	所有executor使用的cpu核数
application-jar	打包好的应用jar, 包含依赖。这个URL在集群中全局可见	本地路径的jar包或者`hdfs://`路径
application-arguements	传给程序的参数

2.3 spark-submit运行example(yarn)

docker exec master \

bin/spark-submit \

--class org.apache.spark.examples.SparkPi \

--master yarn \

--deploy-mode cluster \

./examples/jars/spark-examples_2.12-3.2.1.jar \

10

2.4 spark-submit运行自定义的jar包(stand-alone)

2.4.1 自定义spark任务

package com.lzw.bigdata.spark.core.wordcount

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object Spark03_WordCount {

  def main(args: Array[String]): Unit = {

    println("---------------start word_count----------------")

    // Spark框架步骤

    // 1. 建立和Spark框架的链接

    val sparkConfig: SparkConf = new SparkConf()

      //      .setMaster("local")

      .setAppName("WordCount")

    val ctx = new SparkContext(sparkConfig)

    println("----------------new SparkContext done---------------")

    // 2. 执行业务逻辑

    // 2.1 读取文件，获取一行一行的数据

    val inputPath: String = args(0)

    val lines: RDD[String] = ctx.textFile(inputPath)

    //    val lines: RDD[String] = ctx.textFile("hdfs://namenode:9000/input")

    println("----------------ctx.textFile done---------------")

    // 2.2 分词，此处按照空格spilt

    val words: RDD[String] = lines.flatMap(line => line.split(" "))

    val wordToOne: RDD[(String, Int)] = words.map(word => (word, 1))

    // Spark框架提供了更多的功能，可以将分组和聚合使用一个方法实现

    // 相同的key会对value做reduce

    val tuple: RDD[(String, Int)] = wordToOne.reduceByKey((t1, t2) => t1 + t2)

    val coll: Array[(String, Int)] = tuple.collect()

    coll.foreach(println)

    println(s"""----------------tuple.foreach(println) done len ${coll.length}---------------""")

    // 3. 关闭连接

    ctx.stop()

    println("----------------ctx.stop() done---------------")

  }

}

2.4.2 生成jar包

参考: https://www.cnblogs.com/moonlightml/p/9312192.html

2.4.3 复制到挂载的jars文件夹内

2.4.4 运行spark-submit

docker exec master \

bin/spark-submit \

--class com.lzw.bigdata.spark.core.wordcount.Spark03_WordCount \

--master 'spark://master:7077' \

--executor-memory 1G \

--total-executor-cores 2 \

/jars/spark_core.jar \

'hdfs://namenode:9000/input'

spark (三) hadoop上传文件并运行spark的更多相关文章

hadoop上传文件失败解决办法
hadoop上传文件到web端hdfs显示hadoop could only be replicated to 0 nodes instead of 1解决办法错误状态:在hadoop-2.7.2目 ...
【大数据系列】hadoop上传文件报错_COPYING_ could only be replicated to 0 nodes
使用hadoop上传文件 hdfs dfs -put XXX 17/12/08 17:00:39 WARN hdfs.DFSClient: DataStreamer Exception org.ap ...
三种上传文件不刷新页面的方法讨论：iframe/FormData/FileReader
发请求有两种方式,一种是用ajax,另一种是用form提交,默认的form提交如果不做处理的话,会使页面重定向.以一个简单的demo做说明: html如下所示,请求的路径action为"up ...
三 : spring-uploadify上传文件
一 : applicationContext.xml中:必须声明不然获取不到 <bean id="multipartResolver&quo ...
Hadoop上传文件时报错： could only be replicated to 0 nodes instead of minReplication (=1)....
问题上传文件到Hadoop异常,报错信息如下: org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /home/inpu ...
hadoop上传文件报错
19/06/06 16:09:26 INFO hdfs.DFSClient: Exception in createBlockOutputStream java.io.IOException: Bad ...
Hadoop上传文件的报错
baidu了很多,都说防火墙,datanode没有正常启动的问题,可是检查了都是正常,后来还是在老外的网站上找到了解决的方法修改了/etc/security/limits.conf文件,上传成功这 ...
hadoop上传文件失败报错（put: Cannot create file/eclipse.desktop._COPYING_. Name node is in safe mode.）
解决办法: 离开安全模式方法:执行以下命令即可 bin/hadoop dfsadmin -safemode leave 若不处理安全模式的话,web服务无法启动,dfsadmin report结果异 ...
C#远程执行Linux系统中Shell命令和SFTP上传文件
一.工具:SSH.Net 网址:https://github.com/sshnet/SSH.NET 二.调用命令代码: Renci.SshNet.SshClient ssh = "); ss ...
CentOS7中利用Xshell6向虚拟机本地上传文件
环境交代 Linux系统:CentOS7, Xshell版本:6 操作步骤下面我们以一个文件上传来演示用法第一步建立连接,这里不多说在Xshell中点击如下图标,或者直接按 Alt+Ctrl+ ...

随机推荐

云原生爱好者周刊：KubeKey v2.1.0 alpha 版发布！
KubeKey v2.1.0-alpha.0 发布啦!该版本的主要特性: 支持三种使用场景的 Etcd 集群(二进制部署,Kubeadm 部署,连接外置已存在的 Etcd 集群). 支持部署 Cont ...
云原生爱好者周刊：为 DevOps 流水线准备的 macOS 虚拟化工具
开源项目推荐 Tart Tart 是一个虚拟化工具集,用于构建.运行和管理 Apple Silicon 芯片 macOS 上的虚拟机,主要目的是为 CI 流水线的特殊任务提供运行环境.主要亮点: 使用 ...
DataDream：调一调更好，基于LoRA微调SD的训练集合成新方案 | ECCV'24
尽管文本到图像的扩散模型已被证明在图像合成方面达到了最先进的结果,但它们尚未证明在下游应用中的有效性.先前的研究提出了在有限的真实数据访问下为图像分类器训练生成数据的方法.然而,这些方法在生成内部分布 ...
听说过Paas、Saas和Iaas，那你听说过Apaas吗？
互联网行业就喜欢搞一些单词的缩写,在云计算行业,前者有SaaS.PaaS.IaaS,最近两三年APaaS的概念又开始被关注.APaaS到底是什么意思,有什么用,与前三者的区别是什么?本文将对这些问题进 ...
css动画（仿微信聊天页面）
微信聊天框以其简洁直观的界面和流畅的交互体验而广受欢迎.本文将展示如何利用HTML和CSS技术,在自己的网页上实现类似微信的聊天框效果.我们将一步步指导您完成,让网站或应用也能拥有专业且用户友好的聊天 ...
【斩虫】Hadoop中作业执行刚开始就挂掉的两种情况
开门见山. 最近在搭建基于 Hadoop 3.3.6 的高可用集群时,遇到了虽然守护进程能正常启动,但是提交 WordCount 示例程序后作业没有办法启动执行的情况(刚开始就挂了),查看日志发现主要 ...
Java Z 垃圾收集器如何彻底改变内存管理
大家好,我是 V 哥,今天的内容来聊一聊 ZGC,Java Z Garbage Collector(ZGC)是一个低延迟垃圾收集器,旨在优化内存管理,主要用于大内存应用场景.它通过以下几个关键创新,彻 ...
Go语言单元测试的执行
Go 语言推荐测试文件和源代码文件放在同一目录下,测试文件以 _test.go 结尾.比如,当前 package 有 calc.go 一个文件,我们想测试 calc.go 中的 Add 和 Mul 函 ...
gearman任务分发改进
基于我上次在这里发现的问题,就是一次性投递20个消息,用sleep等待后发现,最后一个任务需要等前面19个都跑完才能执行,所以这里做一下改进. client.php <?php $client ...
Java的多线程编程模型5--从AtomicInteger开始(自增长实现)
AtomicInteger,一个提供原子操作的Integer的类.在Java语言中,++i和i++操作并不是线程安全的,在使用的时候,不可避免的会用到synchronized关键字.而AtomicIn ...

spark (三) hadoop上传文件并运行spark

1. 上传文件到hdfs

2. 运行wordCount

2.1 spark-shell运行

2.2 spark-submit运行example(stand-alone)

2.3 spark-submit运行example(yarn)

2.4 spark-submit运行自定义的jar包(stand-alone)

2.4.1 自定义spark任务

2.4.2 生成jar包

2.4.3 复制到挂载的jars文件夹内

2.4.4 运行spark-submit

spark (三) hadoop上传文件并运行spark的更多相关文章

随机推荐

热门专题