Spark入门(一)--用Spark-Shell初尝Spark滋味
Spark-Shell的使用
执行scala命令的spark-shell
进入spark的sbin目录,打开键入
./spark-shell
即可进入spark-shell的目录
spark-shell运行过程从上层来看,每一个spark应用都是由驱动器程序发起集群上的并行操作,在spark-shell中驱动器程序就是spark-shell本身。驱动器通过SparkContext对象来访问spark。事实上在shell启动时就创建了一个SparkContext的对象,其变量是sc,通过shell来查看sc如下
通过sc来读取文件:
hello文件中的内容为
u'you,jump
i,jump
you,jump
i,jump
u,jump
我们在命令行键入
val lines = sc.textFile("/spark/hello”)
lines.count()
lines.first()

这里注意到,由于我的sapark是在hadoop集群环境下的,所以这里完整的目录可以理解成hdfs:///spark/hello。
以上这条命令,就把spark目录下hello文件装载到sc当中,但事实上,由于spark的懒加载,此时的文件只有在被操作时才会真正被读取,即lines.count()和lines.first()被执行时,才回去读取内容
执行python命令的spark-shell
当然我们也可以用进入执行python命令的spark-shell。方法如下 进入spark的sbin目录,打开键入
./pyspark-shell
通过python-shell统计hadoop文件目录下的 /spark/hello文件,如下
lines = sc.textFile('/spark/hello’)
lines.count()
lines.first()
结果如下:
到这里我们的spark-shell就算是正常执行,其中
读取/spark/hello文件:
lines = sc.textFile('/spark/hello’)
获取总行数:
lines.count()
第一行内容:
lines.first()
转自:https://juejin.im/post/5c73dee0518825628c30f1d0
Spark入门(一)--用Spark-Shell初尝Spark滋味的更多相关文章
- Spark入门——什么是Hadoop,为什么是Spark?
		
#Spark入门#这个系列课程,是综合于我从2017年3月分到今年7月份为止学习并使用Spark的使用心得感悟,暂定于每周更新,以后可能会上传讲课视频和PPT,目前先在博客园把稿子打好.注意:这只是一 ...
 - Spark入门(1-4)安装、运行Spark
		
如何安装Spark 安装和使用Spark有几种不同方式.你可以在自己的电脑上将Spark作为一个独立的框架安装或者从诸如Cloudera,HortonWorks或MapR之类的供应商处获取一个Spar ...
 - Spark入门到精通--(第一节)Spark的前世今生
		
最近由于公司慢慢往spark方面开始转型,本人也开始学习,今后陆续会更新一些spark学习的新的体会,希望能够和大家一起分享和进步. Spark是什么? Apache Spark™ is a fast ...
 - Spark入门实战系列--4.Spark运行架构
		
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1. Spark运行架构 1.1 术语定义 lApplication:Spark Appli ...
 - Spark入门实战系列--2.Spark编译与部署(下)--Spark编译安装
		
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .编译Spark .时间不一样,SBT是白天编译,Maven是深夜进行的,获取依赖包速度不同 ...
 - Spark入门PPT分享
		
本篇PPT是我在公司内部进行Spark入门的分享,内容包含了Spark基本概念.原理.Streaming.SparkSQL等内容,现在分享出来. 下载请点击这里
 - Spark入门:第1节 Spark概述:1 - 4
		
2.spark概述 2.1 什么是spark Apache Spark™ is a unified analytics engine for large-scale data processing. ...
 - Spark 入门
		
Spark 入门 目录 一. 1. 2. 3. 二. 三. 1. 2. 3. (1) (2) (3) 4. 5. 四. 1. 2. 3. 4. 5. 五. Spark Shell使用 ...
 - Spark入门实战系列--1.Spark及其生态圈简介
		
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .简介 1.1 Spark简介 年6月进入Apache成为孵化项目,8个月后成为Apache ...
 
随机推荐
- 创建框架链接--frameset的连接方法
			
首先看下小编的目录架构 1.html将作为主页面 2.html将作为目录页面,里面有2个目录,分别是目录一和目录二 3.html为目录一将要链接的页面 4.html为目录二将要链接的页面 然后,看下1 ...
 - Java IO: 字符流的Piped和CharArray
			
作者: Jakob Jenkov 译者: 李璟(jlee381344197@gmail.com) 本章节将简要介绍管道与字符数组相关的reader和writer,主要涉及PipedReader.Pip ...
 - 吴裕雄--天生自然 R语言开发学习:图形初阶
			
# ----------------------------------------------------# # R in Action (2nd ed): Chapter 3 # # Gettin ...
 - from PIL import image报错
			
python中import PIL可以,但是from PIL import Image就报错? ’‘ 大家在安装pillow的时候,可能会安装成功,但是当运行from pIL import image ...
 - Android  一个3D相册源码
			
我们专业课有Android的学习,最后老师让做一个简单的Android应用程序.我在网上找些资料,加上自己改造一下做了一个3D相册. 程序仿照Android的相册功能,调用Gallery类对相片进行浏 ...
 - Centos7上pkg-config的安装
			
1.官网下载自己想要的版本,我这里下载的是目前最新版 https://www.freedesktop.org/wiki/Software/pkg-config/ 2.安装 tar xf XXX.tgz ...
 - 【原创】(三)Linux进程调度器-进程切换
			
背景 Read the fucking source code! --By 鲁迅 A picture is worth a thousand words. --By 高尔基 说明: Kernel版本: ...
 - 【Java】Map总结和源码注释
			
前言 Map为一个Java中一个重要的数据结构,主要表示<key, value>的映射关系对.本文包括了相关Map数据结构的总结和源码的阅读注释. HashMap 初始化,可以选择第二个初 ...
 - 从头认识js-js的发展历史
			
JavaScript简介 JavaScript诞生于1995年,当时,它的主要目的是处理以前有服务端语言(如Perl)负责的一些输入验证操作. JavaScript简史 1995年2月当时就职于Net ...
 - 网络流媒体协议的联系与区别(RTP RTCP RTSP RTMP HLS)
			
目录 网络流媒体协议的联系与区别(RTP RTCP RTSP RTMP HLS) 简结 RTP RTCP RTSP 区别与联系 RTSP.RTMP.HLS 区别与联系 关于直播 流媒体各协议层次图 基 ...