Spark教程——(3)编写spark-shell测试Demo
创建一个文件aa.txt,随便写点内容:
hello world! aa aa d d dg g
登录HDFS文件系统:
[root@node1 ~]# su hdfs
在HDFS文件系统中创建文件目录保存要上传的数据:
bash-4.2$ hdfs dfs -mkdir -p /user/cf
然后将CentOS文件系统上的aa.txt文件上传到HDFS文件系统中:
bash-4.2$ hdfs dfs -put /home/cf/aa.txt /user/cf
执行以下命令,进入spark-shell环境:
bash-4.2$ spark-shell
在spark-shell环境中用scala编写spark程序,按空格分割数据
scala> sc.textFile()).reduceByKey(_+_).saveAsTextFile("/user/cf/out")
执行后得到结果文件:
bash-4.2$ hadoop fs -ls /user/cf/out Found items -rw-r--r-- hdfs supergroup -- : /user/cf/out/_SUCCESS -rw-r--r-- hdfs supergroup -- : /user/cf/out/part- -rw-r--r-- hdfs supergroup -- : /user/cf/out/part-
需要更改CentOS系统中文件目录的访问权限,以便将文件从HDFS文件系统中下载到CentOS文件系统:
[root@node1 ~]# /home/cf
下载结果文件:
bash-4.2$ hadoop fs -get /user/cf/out/_SUCCESS /home/cf bash- /home/cf bash- /home/cf
查看结果文件:
[root@node1 ~]# cat /home/cf/_SUCCESS [root@node1 ~]# (d,) (aa,) (hello,) [root@node1 ~]# (world!,) (dg,) (g,)
参考:https://blog.csdn.net/csdnliuxin123524/article/details/80630174
Spark教程——(3)编写spark-shell测试Demo的更多相关文章
- Spark&Hadoop:scala编写spark任务jar包,运行无法识别main函数,怎么办?
昨晚和同事一起看一个scala写的程序,程序都写完了,且在idea上debug运行是ok的.但我们不能调试的方式部署在客户机器上,于是打包吧.打包时,我们是采用把外部引入的五个包(spark-asse ...
- 在IDEA中编写Spark的WordCount程序
1:spark shell仅在测试和验证我们的程序时使用的较多,在生产环境中,通常会在IDE中编制程序,然后打成jar包,然后提交到集群,最常用的是创建一个Maven项目,利用Maven来管理jar包 ...
- [大数据从入门到放弃系列教程]第一个spark分析程序
[大数据从入门到放弃系列教程]第一个spark分析程序 原文链接:http://www.cnblogs.com/blog5277/p/8580007.html 原文作者:博客园--曲高终和寡 **** ...
- 使用Scala编写Spark程序求基站下移动用户停留时长TopN
使用Scala编写Spark程序求基站下移动用户停留时长TopN 1. 需求:根据手机基站日志计算停留时长的TopN 我们的手机之所以能够实现移动通信,是因为在全国各地有许许多多的基站,只要手机一开机 ...
- 小白学习Spark系列二:spark应用打包傻瓜式教程(IntelliJ+maven 和 pycharm+jar)
在做spark项目时,我们常常面临如何在本地将其打包,上传至装有spark服务器上运行的问题.下面是我在项目中尝试的两种方案,也踩了不少坑,两者相比,方案一比较简单,本博客提供的jar包适用于spar ...
- spark教程(12)-生态与原理
spark 是目前非常流行的大数据计算框架. spark 生态 Spark core:包含 spark 的基本功能,定义了 RDD 的 API,其他 spark 库都基于 RDD 和 spark co ...
- 使用IDEA开发及测试Spark的环境搭建及简单测试
一.安装JDK(具体安装省略) 二.安装Scala(具体安装省略) 三.安装IDEA 1.打开后会看到如下,然后点击OK
- 使用Eclipse开发及测试Spark的环境搭建及简单测试
一.下载专门开发的Scala的Eclipse 1.下载地址:http://scala-ide.org/download/sdk.html,或链接:http://pan.baidu.com/s/1hre ...
- spark之JDBC开发(连接数据库测试)
spark之JDBC开发(连接数据库测试) 以下操作属于本地模式操作: 1.在Eclipse4.5中建立工程RDDToJDBC,并创建一个文件夹lib用于放置第三方驱动包 [hadoop@CloudD ...
随机推荐
- Spring 的 Bean 生命周期,11 张高清流程图及代码,深度解析
在网上已经有跟多Bean的生命周期的博客,但是很多都是基于比较老的版本了,最近吧整个流程化成了一个流程图.待会儿使用流程图,说明以及代码的形式来说明整个声明周期的流程.注意因为代码比较多,这里的流程图 ...
- 《Web安全攻防 渗透测试实战指南 》 学习笔记 (五)
Web安全攻防 渗透测试实战指南 学习笔记 (五) 第四章 Web安全原理解析 (一) (一)SQL注入的原理 1.web应用程序对用户输入数据的合法性没有判断. 2.参数用户可控:前端传给 ...
- kudu-master服务启动失败
执行service kudu-master start , 提示启动失败failed. 进入报错日志目录 (cd /var/log/kudu/),看到报错信息(vim kudu-master.ER ...
- LinkQueue(链队)
今天学习了队列,因为前面写了好几个链表实现的数据结构基本上都懂了,然后大致了解了一下队列的特点,便决定用自己的理解来实现一个,然后实现了. (2018-02-14 代码更新) Head file: # ...
- Airless Pump Bottle For The Rise Of Cosmetic Packaging Solutions
Airless Pump Bottle are used in the rise of cosmetic packaging solutions. According to the suppli ...
- ubuntu 18.04 上安装 docker
命令安装 docker 1.直接从 ubuntu 仓库安装,打开终端,输入: 2.启动 docker 服务 . 设置开机自启动 docker 服务 3.免 sudo 配置:
- 13 JavaScript Array对象&Boolean对象&Math对象&RegExp对象
万物皆对象,数组是对象,数组可以存储元素,函数,数组等对象 创建数组的三个方式: 常规方式:var myCars = new Array(); 简介方式:var myCars = new Arrray ...
- ES5-严格模式
在es5中可以开启一种严格模式的代码形式,开启方式是:将全局或者函数的第一条语句定义为:'use strict';. 如果浏览器不支持,会将其解析为一条普通语句,没有任何的副作用. 开启全局模式后会有 ...
- 2019暑期集训第二讲 - 组合数学&概率&数学期望
A - 容斥原理(CodeForces - 451E) 二进制状态压缩暴力枚举哪几个花选的个数超过了总个数,卢卡斯定理求组合数,容斥原理求答案 可以先把每个花的数量当成无限个,这样就是一个多重集的组合 ...
- 解题报告:luogu P1196 [NOI2002]银河英雄传说
由于并查集让我很自闭(其实是我太弱了),所以学习了加权并查集,这是例题: 题目链接:P1196 [NOI2002]银河英雄传说 不是很简单,但对于大佬还是签到题. 合并与路径压缩时直接维护\(dis[ ...