Spark教程——（3）编写spark-shell测试Demo

创建一个文件aa.txt，随便写点内容：

hello world!
aa aa
d
d
dg
g

登录HDFS文件系统：

[root@node1 ~]# su hdfs

在HDFS文件系统中创建文件目录保存要上传的数据：

bash-4.2$ hdfs dfs -mkdir -p /user/cf

然后将CentOS文件系统上的aa.txt文件上传到HDFS文件系统中：

bash-4.2$ hdfs dfs -put /home/cf/aa.txt /user/cf

执行以下命令，进入spark-shell环境：

bash-4.2$ spark-shell

在spark-shell环境中用scala编写spark程序，按空格分割数据

scala> sc.textFile()).reduceByKey(_+_).saveAsTextFile("/user/cf/out")

执行后得到结果文件：

bash-4.2$ hadoop fs -ls /user/cf/out
Found  items
-rw-r--r--    hdfs supergroup           -- : /user/cf/out/_SUCCESS
-rw-r--r--    hdfs supergroup          -- : /user/cf/out/part-
-rw-r--r--    hdfs supergroup          -- : /user/cf/out/part-

需要更改CentOS系统中文件目录的访问权限，以便将文件从HDFS文件系统中下载到CentOS文件系统：

[root@node1 ~]#  /home/cf

下载结果文件：

bash-4.2$ hadoop fs -get /user/cf/out/_SUCCESS /home/cf
bash- /home/cf
bash- /home/cf

查看结果文件：

[root@node1 ~]# cat /home/cf/_SUCCESS
[root@node1 ~]#
(d,)
(aa,)
(hello,)
[root@node1 ~]#
(world!,)
(dg,)
(g,)

参考：https://blog.csdn.net/csdnliuxin123524/article/details/80630174

Spark教程——（3）编写spark-shell测试Demo的更多相关文章

Spark&Hadoop:scala编写spark任务jar包，运行无法识别main函数，怎么办?
昨晚和同事一起看一个scala写的程序,程序都写完了,且在idea上debug运行是ok的.但我们不能调试的方式部署在客户机器上,于是打包吧.打包时,我们是采用把外部引入的五个包(spark-asse ...
在IDEA中编写Spark的WordCount程序
1:spark shell仅在测试和验证我们的程序时使用的较多,在生产环境中,通常会在IDE中编制程序,然后打成jar包,然后提交到集群,最常用的是创建一个Maven项目,利用Maven来管理jar包 ...
[大数据从入门到放弃系列教程]第一个spark分析程序
[大数据从入门到放弃系列教程]第一个spark分析程序原文链接:http://www.cnblogs.com/blog5277/p/8580007.html 原文作者:博客园--曲高终和寡 **** ...
使用Scala编写Spark程序求基站下移动用户停留时长TopN
使用Scala编写Spark程序求基站下移动用户停留时长TopN 1. 需求:根据手机基站日志计算停留时长的TopN 我们的手机之所以能够实现移动通信,是因为在全国各地有许许多多的基站,只要手机一开机 ...
小白学习Spark系列二：spark应用打包傻瓜式教程（IntelliJ+maven 和 pycharm+jar）
在做spark项目时,我们常常面临如何在本地将其打包,上传至装有spark服务器上运行的问题.下面是我在项目中尝试的两种方案,也踩了不少坑,两者相比,方案一比较简单,本博客提供的jar包适用于spar ...
spark教程(12)-生态与原理
spark 是目前非常流行的大数据计算框架. spark 生态 Spark core:包含 spark 的基本功能,定义了 RDD 的 API,其他 spark 库都基于 RDD 和 spark co ...
使用IDEA开发及测试Spark的环境搭建及简单测试
一.安装JDK(具体安装省略) 二.安装Scala(具体安装省略) 三.安装IDEA 1.打开后会看到如下,然后点击OK
使用Eclipse开发及测试Spark的环境搭建及简单测试
一.下载专门开发的Scala的Eclipse 1.下载地址:http://scala-ide.org/download/sdk.html,或链接:http://pan.baidu.com/s/1hre ...
spark之JDBC开发（连接数据库测试）
spark之JDBC开发(连接数据库测试) 以下操作属于本地模式操作: 1.在Eclipse4.5中建立工程RDDToJDBC,并创建一个文件夹lib用于放置第三方驱动包 [hadoop@CloudD ...

随机推荐

web渗透（转）
某天比较无聊,听一个朋友推荐httpscan这款工具,于是就下载下来试试. 首先对某学校网段开始进行测试. 1 python httpscan.py **.**.**.0/24 测试时发现有个比较 ...
Servlet的基本使用
1.pom.xml导入包 <dependency> <groupId>javax.servlet</groupId> <artifactId>javax ...
io异常
针对异常,JVM默认的处理方案: 一旦遇到程序出现了问题,就会把问题的类名,错误原因,错误的位置等信息打印在控制台,以便我们观察. 并且,会自动从当前出问题的地方停止掉.这种处理方案虽然可以,但是不够 ...
Laravel 6.X 数据库迁移创建表与修改表
数据库迁移创建表本篇文章中使用的是mysql数据库,其他数据库需要修改env文件和app配置,请其他地方搜索一下就会找到. 创建示例 1.创建users表: 命令行键入 php artisan ma ...
Java自学-集合框架 HashMap和Hashtable的区别
HashMap和Hashtable之间的区别步骤 1 : HashMap和Hashtable的区别 HashMap和Hashtable都实现了Map接口,都是键值对保存数据的方式区别1: Hash ...
Servlet部署项目和项目起别名
一.部署项目: ① 单机MyEclipse导航栏下方Deploy MyEclipse J2EE Project to Server... ②单机Add,选择Service,点击Ok 二.给项目起别名: ...
JAVA高级编程数据源datasource
原文链接数据源通过jdbc连接数据库,多建立几条连接放在数据源里面.可以设置数据源的最大连接数,同时活跃的连接数,最少空闲的连接数,能够同时接收处理的连接数等等. dbcp数据源需要的jar包: ...
对象和Map转化gongju
package czc.superzig.modular.utils; import java.lang.reflect.Field; import java.util.HashMap; import ...
Vue中关于 ‘...mapGetters’的了解
首先,我们应该知道getters是vuex中的特殊表达部分不使用map辅助函数: computed: { test:()=> this.$store.getters.doSome } 使用ma ...
记录下 k8s （1.14.2）使用kubeadm方式搭建和rancher搭建需要的镜像清单
kubeadm方式之前一直用的1.12.2版本的,最近想试一下新的版本1.14.2 当然相应的组件镜像版本也需要更新了.镜像版本如下(网络插件使用flannel) k8s.gcr.io/kube-p ...

Spark教程——（3）编写spark-shell测试Demo

Spark教程——（3）编写spark-shell测试Demo的更多相关文章

随机推荐

热门专题