Spark安装部署

原创文章，转载请注明：转载自www.cnblogs.com/tovin/p/3820979.html

一、系统环境配置

　　参照http://www.cnblogs.com/tovin/p/3818908.html文章的第一、二部分配置好基本环境

　　在集群所有节点下载并解压spark的安装包：

　　　　su hdp

　　　　cd /home/hdp

　　　　wget http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0-bin-hadoop2.tgz

　　　　sudo mv /home/hdp/spark-1.0.0-bin-hadoop2.tgz /usr/local/

　　　　cd /usr/local/

　　　　sudo tar zxvf spark-1.0.0-bin-hadoop2.tgz

　　　　sudo ln -s spark-1.0.0-bin-hadoop2 spark

　　　　sudo chown -R hdp:hdp spark-1.0.0-bin-hadoop2

　　　　sudo rm -rf spark-1.0.0-bin-hadoop2.tgz

二、Spark部署（spark standalone模式）

　　以node01为master节点，node02、node03为slave节点安装为例说明：

　　1、修改集群所有节点spark环境配置文件
   　　　cd /usr/local/spark/conf/
   　　　mv spark-env.sh.template spark-env.sh
   　　vim spark-env.sh 添加如下内容：　　　　　　

　　　　上面参数可以根据机器实际资源情况进行设置其中：
       　　　　SPARK_WORKER_CORES表示每个Worker进程使用core数目
              　 SPARK_WORKER_MEMORY表示每个Worker进程使用内存
           　　　 SPARK_WORKER_INSTANCES表示每台机器Worker数目

　　2、启动集群

　　　　 /usr/local/spark/sbin/start-all.sh

　　3、验证集群是否启动成功

　　　 node01节点：（出现Master进程）
　　

　　node02节点：（出现Worker进程）
　　

　　 node03节点：（出现Worker进程）
　　

4、集群web ui
　　访问http://node01:8080查看集群管理页面

　　5、执行SparkPi测试程序

　　　　/usr/local/spark/bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://node01:7077 /usr/local/spark/lib/spark-examples-1.0.0-hadoop2.2.0.jar

　　　　注意：红色node01必须与配置文件中配置的SPARK_MASTER_IP保持一样，否则会出现问题

三、Spark部署（spark on yarn模式）

　　此模式部署只需要把安装包解压放到yarn集群所有机器即可

　　Client Driver部署：

　　　　1、下载spark、hadoop安装包
       　　　　参照系统环境配置部分进行设置
   　　　2、修改配置文件
       　　　　hadoop配置文件使用与集群一致的文件
       　　　　su hdp
       　　　　cd /usr/local/spark

　　　　 vim conf/spark-env.sh添加内容

　　　　　　3、spark测试程序
　　　　　　 /usr/local/spark/bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster /usr/local/spark/lib/spark-examples-1.0.0-hadoop2.2.0.jar

原创文章，转载请注明：转载自www.cnblogs.com/tovin/p/3820979.html

Spark安装部署的更多相关文章

Spark安装部署（local和standalone模式）
Spark运行的4中模式: Local Standalone Yarn Mesos 一.安装spark前期准备 1.安装java $ sudo tar -zxvf jdk-7u67-linux-x64 ...

Spark 安装部署与快速上手
Spark 介绍核心概念 Spark 是 UC Berkeley AMP lab 开发的一个集群计算的框架,类似于 Hadoop,但有很多的区别. 最大的优化是让计算任务的中间结果可以存储在内存中, ...

Spark安装部署| 运行模式
Spark 一种基于内存的快速.通用.可扩展的大数据分析引擎: 内置模块: Spark Core(封装了rdd.任务调度.内存管理.错误恢复.与存储系统交互): Spark SQL(处理结构化数据). ...

spark2.10安装部署（集成hadoop2.7+）
这里默认你的hadoop是已经安装好的,master是node1,slaver是node2-3,hdfs启动在node1,yarn启动在node2,如果没安装好hadoop可以看我前面的文章因为这里 ...

【Spark学习】Spark 1.1.0 with CDH5.2 安装部署
[时间]2014年11月18日 [平台]Centos 6.5 [工具]scp [软件]jdk-7u67-linux-x64.rpm spark-worker-1.1.0+cdh5.2.0+56-1.c ...

Spark、Shark集群安装部署及遇到的问题解决
1.部署环境 OS:Red Hat Enterprise Linux Server release 6.4 (Santiago) Hadoop:Hadoop 2.4.1 Hive:0.11.0 JDK ...

使用docker安装部署Spark集群来训练CNN（含Python实例）
使用docker安装部署Spark集群来训练CNN(含Python实例) http://blog.csdn.net/cyh_24/article/details/49683221 实验室有4台神服务器 ...

【原创 Hadoop&Spark 动手实践 1】Hadoop2.7.3 安装部署实践
目录: 第一部分:操作系统准备工作: 1. 安装部署CentOS7.3 1611 2. CentOS7软件安装(net-tools, wget, vim等) 3. 更新CentOS7的Yum源,更新软 ...

Spark介绍及安装部署
一.Spark介绍 1.1 Apache Spark Apache Spark是一个围绕速度.易用性和复杂分析构建的大数据处理框架(没有数据存储).最初在2009年由加州大学伯克利分校的AMPLab开 ...

随机推荐

Java 多线程的基本概念
一.线程介绍多线程同时运行时,单CPU系统实际上是分给每个线程固定的时间片,用这种方式使得线程“看起来像是并行的”.在多CPU系统中,每个CPU可以单独运行一个线程,实现真正意义上的并行,但是如果线 ...

打造自己的3D全景漫游
three.js 示例: 打造H5里的"3D全景漫游"秘籍 - 腾讯ISUX QQ物联星球计划通过pano2vr直接将鱼眼全景图生成立体空间的六个面:也可通过Photos ...

借Windows说明Linux分区和挂载点[转]
在介绍Linux分区和挂载点前,我想先说一个Windows的例子,Windows大家都比较熟,再借这个例子来说明什么是Linux分区和挂载点. 1.消失了的分区在WinPE下,我将一块硬盘分成一个主 ...

mysql主从复制-linux版本
来自:http://www.osyunwei.com/archives/7269.html,改版 mysql主从复制本文采用的是centos6.5+mysql-5.6.23版本之前在 windows7 ...

hbase meta表的结构
下面看下hbase:meta 表的结构,hbase:meta表中,保存了每个表的region地址,还有一些其他信息,例如region的名字,HRegionInfo,服务器的信息.hbase:meta表 ...

Mongodb学习教程汇总
1.MongoDB权威指南 - 学习笔记地址:http://www.cnblogs.com/refactor/category/394801.html 2.8天学通MongoDB 地址:http:/ ...

Delphi XE5教程3：实例程序
内容源自Delphi XE5 UPDATE 2官方帮助<Delphi Reference>,本人水平有限,欢迎各位高人修正相关错误! 也欢迎各位加入到Delphi学习资料汉化中来,有兴趣者 ...

MVC学习系列——RazorViewEngine扩展
有时候,我们的项目涉及到多种风格,我们可以通过扩展RazorViewEngine,这样就可以保持后台代码不发生变化. 新建类ThemeViewEngine继承于RazorViewEngine publ ...

Daject初探 - 一个开源关系型数据库对象关系映射（ORM）模型
Daject简介 Daject是用php写的一个关系型数据库抽象模型,通过该模型,可以在不写任何SQL或写很少的SQL就能执行大多数数据库查询操作.Daject具有面向对象,跨数据库的优点,通过数据库 ...

mysql_fetch_row,mysql_fetch_array,mysql_fetch_assoc的区别
<?php $link=mysql_connect('localhost','root',”); mysql_select_db('abc',$link); $sql = “select * f ...

Spark安装部署

Spark安装部署的更多相关文章

随机推荐

热门专题