Spark Shell & Spark submit

Spark 的 shell 是一个强大的交互式数据分析工具。

1. 搭建Spark

2. 两个目录下面有可执行文件：

bin 包含spark-shell 和 spark-submit

sbin 包含

sbin/start-master.sh：在机器上启动一个master实例
sbin/start-slaves.sh：在每台机器上启动一个slave实例
sbin/start-all.sh：同时启动一个master实例和所有slave实例
sbin/stop-master.sh：停止master实例
sbin/stop-slaves.sh：停止所有slave实例
sbin/stop-all.sh：停止master实例和所有slave实例

注意，这些脚本必须在你的Spark master运行的机器上执行，而不是在你的本地机器上面。

3.在 Spark 目录里运行spark-shell 和 spark-submit：

./bin/spark-shell

./bin/spark-submit   可以在集群上启动应用程序。

3. Spark SQL的入口是 SQLContext类或者它的子类：

val sqlContext = new org.apache.spark.sql.SQLContext(sc)

HiveContext:

从SQLContext继承而来，它增加了在MetaStore中发现表以及利用HiveSql写查询的功能.

4. Graphx 的打印输出 output

graph.vertices.collect.foreach(println(_))

graph.edges.collect.foreach(println(_))

5. Spark 配置

Spark提供三个位置用来配置系统：

Spark properties控制大部分的应用程序参数，可以用SparkConf对象或者java系统属性设置
Environment variables可以通过每个节点的conf/spark-env.sh脚本设置每台机器的设置。例如IP地址
Logging可以通过log4j.properties配置

Spark Shell & Spark submit的更多相关文章

Spark之 spark简介、生态圈详解
来源:http://www.cnblogs.com/shishanyuan/p/4700615.html 1.简介 1.1 Spark简介Spark是加州大学伯克利分校AMP实验室(Algorithm ...
Spark记录-spark编程介绍
Spark核心编程 Spark 核心是整个项目的基础.它提供了分布式任务调度,调度和基本的 I/O 功能.Spark 使用一种称为RDD(弹性分布式数据集)一个专门的基础数据结构,是整个机器分区数据的 ...
[Spark内核] 第36课：TaskScheduler内幕天机解密：Spark shell案例运行日志详解、TaskScheduler和SchedulerBackend、FIFO与FAIR、Task运行时本地性算法详解等
本課主題通过 Spark-shell 窥探程序运行时的状况 TaskScheduler 与 SchedulerBackend 之间的关系 FIFO 与 FAIR 两种调度模式彻底解密 Task 数据 ...
Spark shell的原理
Spark shell是一个特别适合快速开发Spark原型程序的工具,可以帮助我们熟悉Scala语言.即使你对Scala不熟悉,仍然可以使用这个工具.Spark shell使得用户可以和Spark集群 ...
Spark:使用Spark Shell的两个示例
Spark:使用Spark Shell的两个示例 Python 行数统计 ** 注意: **使用的是Hadoop的HDFS作为持久层,需要先配置Hadoop 命令行代码 # pyspark >& ...
Spark源码分析之Spark Shell（上）
终于开始看Spark源码了,先从最常用的spark-shell脚本开始吧.不要觉得一个启动脚本有什么东东,其实里面还是有很多知识点的.另外,从启动脚本入手,是寻找代码入口最简单的方法,很多开源框架,其 ...
Spark源码分析之Spark Shell（下）
继上次的Spark-shell脚本源码分析,还剩下后面半段.由于上次涉及了不少shell的基本内容,因此就把trap和stty放在这篇来讲述. 上篇回顾:Spark源码分析之Spark Shell(上 ...
【原创 Hadoop&Spark 动手实践 5】Spark 基础入门，集群搭建以及Spark Shell
Spark 基础入门,集群搭建以及Spark Shell 主要借助Spark基础的PPT,再加上实际的动手操作来加强概念的理解和实践. Spark 安装部署理论已经了解的差不多了,接下来是实际动手实 ...
[Spark Core] Spark Shell 实现 Word Count
0. 说明在 Spark Shell 实现 Word Count RDD (Resilient Distributed dataset), 弹性分布式数据集. 示意图 1. 实现 1.1 分步实现 ...

随机推荐

HTML 学习笔记 JavaScript（数据类型）
字符串数字布尔数组对象 Null Undefined JavaScript 拥有动态类型 JavaScript拥有动态类型这意味着相同的变量可用作不同的类型: 实例: var x // x ...
nfs服务部署记录
一.概念介绍NFS 是Network File System的缩写,即网络文件系统.一种使用于分散式文件系统的协定,由Sun公司开发,于1984年向外公布.功能是通过网络让不同的机器.不同的操作系统能 ...
定时取数据库的schema，并推送到git服务器
写了个脚本,定时去数据库取schema,并推送到公司的git里. #daily_schema.py #/usr/bin/env python import os import datetime,tim ...
[NOIP2010初赛]烽火传递+单调队列详细整理
P1313 [NOIP2010初赛]烽火传递时间: 1000ms / 空间: 131072KiB / Java类名: Main 描述烽火台又称烽燧,是重要的防御设施,一般建在险要处或交通要道上 ...
Linux Linux程序练习十六（进程间的通信信号版）
/* * 题目: * 编写程序,要去实现如下功能: 父进程创建子进程1和子进程2.子进程1向子进程2发送可靠信号,并传送额外数据为子进程1的pid*2; 子进程2接受可靠信号的值,并发送给父进程,父进 ...
解决Cannot change version of project facet Dynamic web module to 2.5
我们用Eclipse创建Maven结构的web项目的时候选择了Artifact Id为maven-artchetype-webapp,由于这个catalog比较老,用的servlet还是2.3的,而一 ...
让时间处理简单化【第三方扩展类库org.apache.commons.lang.time】
JAVA的时间日期处理一直是一个比较复杂的问题,大多数程序员都不能很轻松的来处理这些问题.首先Java中关于时间的类,从 JDK 1.1 开始,Date的作用很有限,相应的功能已由Calendar与D ...
MPLS
Multiprotocol Label Switching From Wikipedia, the free encyclopedia "MPLS" redirects here. ...
深入理解拉格朗日乘子法（Lagrange Multiplier) 和KKT条件
[整理] 在求解最优化问题中,拉格朗日乘子法(Lagrange Multiplier)和KKT(Karush Kuhn Tucker)条件是两种最常用的方法.在有等式约束时使用拉格朗日乘子法,在有 ...
Social Emotional Computing
from:数理情感学 http://choudh.blogchina.com/2556171.html 第五节情感的三要素人对于某一事物的情感,不仅取决于该事物的品质特性(如物理特性.化学特性. ...