Ubuntu 14.10 下Spark on yarn安装

1 服务器分布

服务器	说明
192.168.1.100	NameNode
192.168.1.101	DataNode
192.168.1.102	DataNode

2 软件环境

　　2.1 安装JDK，添加环境变量

　　2.2 安装Scala，添加环境变量

　　2.3 SSH免密码登陆，A登陆A，A登陆B，可参考http://blog.csdn.net/codepeak/article/details/14447627

ssh-keygen -t rsa -P ''

cat ~./ssh/id_rsa.pub >> ~/.ssh/authorized_keys

scp ~/.ssh/id_rsa.pub username@ipaddress:/location

cat id_rsa.pub >> authorized_keys

　　2.4 主机名设置

sudo nano /etc/hosts

192.168.1.100 cloud001

192.168.1.101 cloud002

192.168.1.102 cloud003

3 Hadoop集群配置（各个机器相同配置）

　　3.1 Hadoop环境安装，环境变量配置

export HADOOP_HOME=/home/hadoop/hadoop-2.2.

export HADOOP_COMMON_HOME=$HADOOP_HOME

export HADOOP_HDFS_HOME=$HADOOP_HOME

export HADOOP_MAPRED_HOME=$HADOOP_HOME

export HADOOP_YARN_HOME=$HADOOP_HOME

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export SCALA_HOME=/home/hadoop/software/spark/scala-2.11.

export SPARK_EXAMPLES_JAR=/home/hadoop/software/spark/spark-1.0./examples/target/scala-2.11./spar$

export SPARK_HOME=/home/hadoop/software/spark/spark-1.0.

export IDEA_HOME=/home/hadoop/software/dev/idea-IU-139.1117.

export PATH=$PATH:$SCALA_HOME/bin:$SPARK_HOME/bin:$IDEA_HOME/bin:$HADOOP_HOME/bin:$HADOOP/sbin:$M2_HOME/bin

　　3.2 core.site.xml配置

<configuration>

    <property>

        <name>fs.defaultFS</name>

        <value>hdfs://cloud001:9000</value>

    </property>

    <property>

        <name>hadoop.tmp.dir</name>

        <value>/home/hadoop/hadoop-2.2.0/tmp</value>

    </property>

<!--    <property>

        <name>io.file.buffer.size</name>

        <value>131072</value>

    </property>

    <property>

        <name>hadoop.proxyuser.hadoop.hosts</name>

        <value>*</value>

    </property>

    <property>

        <name>hadoop.proxyuser.hadoop.groups</name>

        <value>*</value>

    </property>-->

</configuration>

　　3.3 hdfs-site.xml 配置

<configuration>

    <property>

        <name>dfs.namenode.secondary.http-address</name>

        <value>cloud001:9001</value>

    </property>

    <property>

        <name>dfs.namenode.name.dir</name>

        <value>file:/home/hadoop/hadoop-2.2.0/dfs/name</value>

    </property>

    <property>

        <name>dfs.datanode.data.dir</name>

        <value>file:/home/hadoop/hadoop-2.2.0/dfs/data</value>

    </property>

    <property>

        <name>dfs.replication</name>

        <value>3</value>

    </property>

    <property>

        <name>dfs.webhdfs.enabled</name>

        <value>true</value>

    </property>

</configuration>

　　3.4 mapred-site.xml 配置

<configuration>

    <property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>

<!--    <property>

        <name>mapreduce.jobhistory.address</name>

        <value>hadoopmaster:10020</value>

    </property>

    <property>

        <name>mapreduce.jobhistory.webapp.address</name>

        <value>hadoopmaster:19888</value>

    </property>-->

</configuration>

　　3.5 yarn-site.xml 配置

<configuration>

<!-- Site specific YARN configuration properties -->

    <property>

        <name>yarn.nodemanager.aux-services</name>

        <value>mapreduce_shuffle</value>

    </property>

<!--    <property>

        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

        <value>org.apache.hadoop.mapred.ShuffleHandler</value>

    </property>-->

    <property>

        <name>yarn.resourcemanager.address</name>

        <value>cloud001:8032</value>

    </property>

    <property>

        <name>yarn.resourcemanager.scheduler.address</name>

        <value>cloud001:8030</value>

    </property>

    <property>

        <name>yarn.resourcemanager.resource-tracker.address</name>

        <value>cloud001:8031</value>

    </property>

<!--    <property>

        <name>yarn.resourcemanager.admin.address</name>

        <value>hadoopmaster:8033</value>

    </property>

    <property>

        <name>yarn.resourcemanager.webapp.address</name>

        <value>hadoopmaster:8088</value>

    </property> -->

</configuration>

　　3.6 配置hadoop-env.sh、mapred-env.sh、yarn-env.sh，在开头添加

export JAVA_HOME=/usr/lib/jvm/java-1.7.-openjdk-amd64

　　3.7 数据节点配置

nano slaves

cloud002

cloud003

4 Spark集群配置（各个机器相同配置）

　　4.1 Spark安装部署

　　下载Spark二进制包，配置环境变量

export SCALA_HOME=/home/hadoop/software/spark/scala-2.11.

export SPARK_EXAMPLES_JAR=/home/hadoop/software/spark/spark-1.0./examples/target/scala-2.11./spar$

export SPARK_HOME=/home/hadoop/software/spark/spark-1.0.

　　配置spark-env.sh，添加如下

export JAVA_HOME=/usr/lib/jvm/java-1.7.-openjdk-amd64

export SCALA_HOME=/home/hadoop/software/spark/scala-2.11.

export HADOOP_HOME=/home/hadoop/hadoop-2.2.

　　配置slaves

cloud002

cloud003

5 集群启动

　　5.1 格式化NameNode节点

hdfs namenode -format

　　5.2 启动Hadoop

sbin/start-all.sh

　　5.3 启动Spark

sbin/start-all.sh

6 测试

　　6.1 本地测试

# bin/run-exampleorg.apache.spark.examples.SparkPi local

　　6.2 普通集群测试

# bin/run-exampleorg.apache.spark.examples.SparkPi spark://cloud001:7077

# bin/run-exampleorg.apache.spark.examples.SparkLR spark://cloud001:7077

# bin/run-exampleorg.apache.spark.examples.SparkKMeans spark://cloud001:7077 file:/usr/local/spark/data/kmeans_data.txt 2 1

　　6.3 结合HDFS的集群模式

# hadoop fs -put README.md .

# MASTER=spark://cloud001:7077bin/spark-shell

scala> val file =sc.textFile("hdfs://cloud001:9000/user/root/README.md")

scala> val count = file.flatMap(line=> line.split(" ")).map(word => (word, )).reduceByKey(_+_)

scala> count.collect()

scala> :quit

　　6.4 基于YARN模式

#SPARK_JAR=assembly/target/scala-2.10/spark-assembly_2.10-0.9.0-incubating-hadoop2.2.0.jar

bin/spark-class org.apache.spark.deploy.yarn.Client 

--jar examples/target/scala-2.10/spark-examples_2.-assembly-0.9.-incubating.jar 

--class org.apache.spark.examples.SparkPi 

--args yarn-standalone 

--num-workers  

--master-memory 4g 

--worker-memory 2g 

--worker-cores

Ubuntu 14.10 下Spark on yarn安装的更多相关文章

Ubuntu 14.10下基于Nginx搭建mp4/flv流媒体服务器(可随意拖动)并支持RTMP/HLS协议(含转码工具)
Ubuntu 14.10下基于Nginx搭建mp4/flv流媒体服务器(可随意拖动)并支持RTMP/HLS协议(含转码工具) 最近因为项目关系,收朋友之托,想制作秀场网站,但是因为之前一直没有涉及到这 ...
Ubuntu 14.10 下安装Ganglia监控集群
关于 Ganglia 软件,Ganglia是一个跨平台可扩展的,高性能计算系统下的分布式监控系统,如集群和网格.它是基于分层设计,它使用广泛的技术,如XML数据代表,便携数据传输,RRDtool用于数 ...
Ubuntu 14.10 下安装java反编译工具 jd-gui
系统环境,Ubuntu 14.10 ,64位 1 下载JD-GUI,网址http://221.3.153.126/1Q2W3E4R5T6Y7U8I9O0P1Z2X3C4V5B/jd.benow.ca/ ...
Ubuntu 14.10 下DokuWiki安装
环境说明: Ubuntu 14.10 64位 1 下载DokuWiki:http://download.dokuwiki.org/ 2 解压到 /var/www/html下面 3 如果没有安装Apac ...
Ubuntu 14.10 下ZooKeeper+Hadoop2.6.0+HBase1.0.0 的HA机群高可用配置
1 硬件环境 Ubuntu 14.10 64位 2 软件环境 openjdk-7-jdk hadoop 2.6.0 zookeeper-3.4.6 hbase-1.0.0 3 机群规划 3.1 zoo ...
Ubuntu 14.10 下Hive配置
1 系统环境 Ubuntu 14.10 JDK-7 Hadoop 2.6.0 2 安装步骤 2.1 下载Hive 我第一次安装的时候,下载的是Hive-1.2.1,配置好之后,总是报错 [ERROR] ...
Ubuntu 14.10 下安装rabbitvcs-版本控制
在Windows下用惯了TortoiseSVN这只小乌龟,到了Ubuntu下很不习惯命令行的SVN,于是经过一番寻找安装了RabbitVCS这款SVN图形化前端工具(官方网站:http://rabbi ...
Ubuntu 14.10 下Server版本中文乱码问题
在安装Ubuntu server 14.10 时候选择了中文版,但是装好系统发现,里面的中文有乱码,解决办法打开 /etc/default/locale sudo nano /etc/default ...
ubuntu 14.04 下利用apt-get方式安装opencv
转载,请注明出处:http://blog.csdn.net/tina_ttl 目录(?)[+] 标签(空格分隔): Linux学习 OpenCV ubuntu 1404 下利用apt-get方式安装O ...

随机推荐

golang 六宫格、九宫格头像生成
图片示例就不传了,在原WordPress上. //Merge6Grid 6宫格 //rule NO1:至少3张图最多6张图 // NO2:第一张大小 60*60 其他大小 28*28 间隔4px 合 ...
J - FatMouse's Speed
p的思路不一定要到最后去找到ans:也可以设置成在中间找到ans:比如J - FatMouse's Speed 这个题,如果要是让dp[n]成为最终答案的话,即到了i,最差的情况也是dp[i-1],就 ...
if else的使用以及如何从键盘获取数值
if-else的使用顺序结构顺序从上到下执行,中间没有判断和跳转分支结构根据条件,选择性地执行某段代码有if-else和switch两种分支语句循环结构根据循环,重复性地执行某段代码有 ...
mtail 提取应用日志数据到时序数据库的工具-支持prometheus
mtail 是谷歌开源的一款很不错的应用日志提取工具,我们可以方便的用来提取应用的数据到常见的监控系统(prometheus,stats,collectd,gragphite....) 说明: de ...
curl常用传参方式
1.传header参数curl --header 'Token:40d7c342c110414888cc2a0e1284c636' "127.0.0.1/api/user/baseInfo& ...
C# to IL 8 Methods(方法)
The code of a data type is implemented by a method, which is executed by the ExecutionEngine. The CL ...
oracle-sql优化器
优化器optimizer Oracle 执行计划(Explain Plan) 说明 http://langgufu.iteye.com/blog/2158163 explain plan是一个dml语 ...
notify和notifyAll的区别
转自:http://www.importnew.com/16453.html 如果某些线程在等待某些条件触发,那当那些条件为真时,你可以用 notify 和 notifyAll 来通知那些等待中的线程 ...
sql server 无法用sql server身份验证
1)首先,用windows身份验证进入服务器. 2)其次找到安全性,点击进入后,找到登录名为sa,然后右击属性. 3)在属性中找到常规,然后检查下自己的账号和密码,并且在状态中将登陆状态改成启用,否则 ...
MySQL 术语
MySQL 术语: MySQL 术语含义 B-树英文:Balance Tree:读音:B树(中间的横线,是分隔符的意思:注意:不读"B减树")

Ubuntu 14.10 下Spark on yarn安装

Ubuntu 14.10 下Spark on yarn安装的更多相关文章

随机推荐

热门专题