本人实际安装经验,目的是为以后高速安装。仅供自己參考。

一、Hadoop

1、操作系统一如既往:①setup关掉防火墙、②vi /etc/sysconfig/selinux,改SELINUX=disabled 。

(3)安装时自己定义不要JAVA。④系统安装后,直接创建用户hadoop,password同username。

2、ssh。①在master上以hadoop用户运行ssh-keygen。

②ssh-copy-id -i ~/.ssh/id_rsa.pub 主机2。③同2,传到其它主机。

这样,仅仅有master能控制其它主机。

3、上传我制作的包括:hadoop,spark,scala,jdk,以及hosts文件、profile文件的压缩文件。用命令scp sparkok.tar.gz 主机2:/home/hadoop ,并 tar -zxvf到当前文件夹 。

4、设置/etc/profile。这里一下在文件最后设置很多变量,方便等下复制到全部的机器,之后要source /etc/profile使之生效。

export JAVA_HOME=/opt/jdk
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export HADOOP_HOME=/home/hadoop/hadoop2.7
#export HBASE_HOME=/home/hadoop/hbase
#export ZOOKEEPER_HOME=/home/hadoop/zookeeper
export SCALA_HOME=/home/hadoop/scala
export SPARK_HOME=/home/hadoop/spark
#export KAFKA_HOME=/home/hadoop/kafka
#export HIVE_HOME=/home/hadoop/hive
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin

5、改动hadoop參数文件。在当中一台用户文件夹下解压hadoop,结果可如:hadoop2.7 。

hadoop会默认很多參数,假设是单机測试,甚至都不用改动參数。但我们是集群,须要改动几个必需的。默认配置能够查找 **default.xml,找到core-default.xml,hdfs-default.xml,mapred-default.xml,这些就是默认配置,能够參考这些配置的说明和key(网上也有默认:http://hadoop.apache.org/docs)。

以下是尽量少配。

(1)core-site.xml ,2个配置

<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/tmp</value>
<description>配了这个。以后hdfs-site.xml就不用配data和name文件夹了。连建立都不用</description>
</property> <property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
<description>这个也应该是必须的,并且必须写主机名,连IP都不行</description>
</property>
</configuration>

(2)hdfs-site.xml ,假设server大于3台就不用了

<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
<description>复制几份?默认3。假设大于3台server。就不用了 </description>
</property>
</configuration>

(3)mapred-site.xml

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
<description>The runtime framework for executing MapReduce jobs.
Can be one of local, classic or yarn.默认是local。适合单机
</description>
</property>
</configuration>

(4)yarn-site.xml

<configuration>
<property>
<description>既然选择了yarn,就得填,这个就是曾经的master配置了</description>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
</configuration>

(5)slaves。 每行一个slave主机名。

(6)hadoop-env.sh 和 yarn-env.sh 。其内容尽管看着有JAVA_HOME的配置。但好像不生效。还得再写一遍JAVA_HOME配置。

以上尽管看起来非常多,但实际就是告诉他:数据的存放文件夹(core)。MR要用yarn,yarn的master是谁。如此而已。 把以上文件存起来,以后稍加改动后,就可反复利用了。

5、启动与測试

(1)格式化HDFS:$HADOOP_HOME/bin/hdfs namenode -format

(2)启动集群: $HADOOP_HOME/sbin/start-all.sh

(3)在master和slaver的sbin下运行jps。

(4)hdfs dfs -mkdir /xxx

hdfs dfs -ls /

6、UI訪问

(1)状态:netstat -nap | grep 54310

(2)http://master-ip:8088

NameNode:http://master-ip:50070

JobTracker:http://master-ip:50030

所以。安装简单来说就是:ssh、配JAVA_HOME / HADOOP_HOME等profile參数、配 数据存放文件夹 / MR要用yarn 及 master是谁

我还将上面涉及到的文件打包成文件,可 下载 反复使用。

以上是Hadoop的配置。

二、SPARK 安装

1、下载scala,这个是spark的安装前提条件。解压到每台机器,能够和上面的hadoop一个用户和文件夹。至于profile。上面已经一次性写完了。所以这次都不用写了,好方便吧^_^

2、spark下载并解压,profile也不用重写了。须要改conf文件夹下的配置:

(1)slaves 文件。每行一个IP地址或主机名。

(2)运行 mv spark-env.sh.template spark-env.sh :JAVA_HOME仍然必须填。

export JAVA_HOME=/opt/jdk18
export SCALA_HOME=/home/spark/opt/scala-2.11.4 #这行我没写也行
export SPARK_MASTER_IP=192.168.128.131
export SPARK_WORKER_MEMORY=2g
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

3、然后将此文件复制到各个server上即可了。

4、启动和測试:

(1)和hadoop一样: /sbin/start-all.sh

(2)master:8080

SPARK安装就是:配scala,SPARK_MASTER_IP 。HADOOP_CONF_DIR ,slaves 。

就是这么简单,当然不管哪个,都不要忘了写JAVA_HOME到配置文件。

                                      河南省公安厅:党玉龙

Hadoop Spark 集群简便安装总结的更多相关文章

  1. hadoop+spark 集群的安装

    1.安装连接 https://www.cnblogs.com/zengxiaoliang/p/6478859.html

  2. hadoop+spark集群搭建入门

    忽略元数据末尾 回到原数据开始处 Hadoop+spark集群搭建 说明: 本文档主要讲述hadoop+spark的集群搭建,linux环境是centos,本文档集群搭建使用两个节点作为集群环境:一个 ...

  3. Hadoop教程(五)Hadoop分布式集群部署安装

    Hadoop教程(五)Hadoop分布式集群部署安装 1 Hadoop分布式集群部署安装 在hadoop2.0中通常由两个NameNode组成,一个处于active状态,还有一个处于standby状态 ...

  4. Hadoop记录-Apache hadoop+spark集群部署

    Hadoop+Spark集群部署指南 (多节点文件分发.集群操作建议salt/ansible) 1.集群规划节点名称 主机名 IP地址 操作系统Master centos1 192.168.0.1 C ...

  5. Hadoop+Spark:集群环境搭建

    环境准备: 在虚拟机下,大家三台Linux ubuntu 14.04 server x64 系统(下载地址:http://releases.ubuntu.com/14.04.2/ubuntu-14.0 ...

  6. Spark系列—01 Spark集群的安装

    一.概述 关于Spark是什么.为什么学习Spark等等,在这就不说了,直接看这个:http://spark.apache.org, 我就直接说一下Spark的一些优势: 1.快 与Hadoop的Ma ...

  7. hadoop HA集群的安装

    1.hadoop集群规化 ip 主机名 安装软件 角色 运行进程 10.124.147.22 hadoop1 jdk.zookeeper.hadoop namenode/zookeeper/jobhi ...

  8. Mac OS下搭建Hadoop + Spark集群

    首先注意版本兼容问题!!!本文采用的是Scala 2.11.8 + Hadoop 2.7.5 + Spark 2.2.0 请在下载Spark时务必看清对应的Scala和Hadoop版本! 一.配置JD ...

  9. hadoop+spark集群搭建

    1.选取三台服务器(CentOS系统64位) 114.55.246.88 主节点 114.55.246.77 从节点 114.55.246.93 从节点 之后的操作如果是用普通用户操作的话也必须知道r ...

随机推荐

  1. 设计模式六大原则(2):里氏替换原则(Liskov Substitution Principle)

    肯定有不少人跟我刚看到这项原则的时候一样,对这个原则的名字充满疑惑.事实上原因就是这项原则最早是在1988年,由麻省理工学院的一位姓里的女士(Barbara Liskov)提出来的. 定义1:假设对每 ...

  2. Stripe

    Description Once Bob took a paper stripe of n squares (the height of the stripe is 1 square). In eac ...

  3. HTML5,微信开发原码社区

    HTML5开发助手,快速查看HTML及javascript接口文档 http://www.9miao.com/thread-60966-1-1.html 简洁的手机wap公司产品展示网站模板下载htm ...

  4. 4.Swift教程翻译系列——Swift基本运算符

    英文版PDF下载地址http://download.csdn.net/detail/tsingheng/7480427 运算符是指一个特殊的符号,能够用来查看.更改值或者相加.比方说加法运算符+能够讲 ...

  5. ZeroMQ:云计算时代最好的通讯库

    还在学socket编程吗?还在研究为什么epoll比select更好吗? 噢,不必了! 在复杂的云计算环境中,我们面临的难题远比这个复杂得多. 庞大的服务器集群作为计算云,对来来看或许只是一个简单的搜 ...

  6. ActiveX控件的安全初始化和脚本操作 和 数字签名SIGN

    摘要:数字签名SIGN保证控件在下载时候的安全性.如果你的代码已经经过数字签名,即使用户IE的安全设置很高也能下载,安装并登记.但是在页面上初始化,或者用脚本运行这个控件,为了保证安全性,还需要进行M ...

  7. 【Demo 0005】Java基础-类继承性

    本章学习要点:       1.  了解Java继承特性;       2.  掌握继承实现方法;       3.  掌握override规则: 一.类继承特性       1.  继承定义:使用己 ...

  8. UNICODE和ANSI字符串的转换(解释了MultiByteToWideChar,WideCharToMultiByte,GetTextCharsetInfo,GetTextCharset,IsDBCSLeadByte,IsDBCSLeadByteEx,IsTextUnicode一共7个函数)

    继上集故事<多字符集(ANSI)和UNICODE及字符串处理方式准则 >,我们现在有一些特殊需求: 有时候我们的字符串是多字符型,我们却需要使用宽字符型:有的时候却恰恰相反. Window ...

  9. Android常用控件之RatingBar的使用

    RatingBar控件比较常见就是用来做评分控件,先上图看看什么是RatingBar 在布局文件中声明 <?xml version="1.0" encoding=" ...

  10. Android 表格布局<TableLayout>

    表格布局即,tableLayout,表格布局通过行.列的形式来管理UI组件,TablelLayout并不需要明确地声明包含多少行.多少列,而是通过TableRow,以及其他组件来控制表格的行数和列数, ...