Hadoop大数据部署

一. 系统环境配置:

1. 关闭防火墙,selinux

关闭防火墙:

systemctl stop firewalld
systemctl disable firewalld

设置selinux为disable

# cat /etc/selinux/config
SELINUX=disabled

2. 配置ntp时间服务器

# yum -y install ntpdate
# crontab -l
*/5 * * * * /usr/sbin/ntpdate 192.168.1.1 >/dev/null 2>&1

将IP地址换成可用的时间服务器IP

3. 修改系统限制

# cat /etc/security/limits.conf
* soft nproc 100000
* hard nproc 100000
* soft nofile 102400
* hard nofile 102400
hadoop soft nproc 100000
hadoop hard nproc 100000
hadoop soft nofile 102400
hadoop hard nofile 102400

4. 创建hadoop用户

groupadd -g 1002 hadoop
useradd -u 1002 -g hadoop hadoop

5. 配置hosts

[root@hadoop2 ~]# cat /etc/hosts
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.24.43 hadoop1
192.168.24.216 hadoop2
192.168.24.7 hadoop3

6. 分发公钥

# su - hadoop
$ ssh-keygen
$ ssh-copy-id hadoop@hadoop1
$ ssh-copy-id hadoop@hadoop2
$ ssh-copy-id hadoop@hadoop3

保证某一个节点上都有所有的节点的公钥。

7. 安装jdk

# yum -y install jdk-8u171-linux-x64.rpm
# java -version
java version "1.8.0_171"
Java(TM) SE Runtime Environment (build 1.8.0_171-b11)
Java HotSpot(TM) 64-Bit Server VM (build 25.171-b11, mixed mode)

8. 安装SCALA

Scala 是一门多范式(multi-paradigm)的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala 运行在Java虚拟机上,并兼容现有的Java程序。Scala 源代码被编译成Java字节码,所以它可以运行于JVM之上,并可以调用现有的Java类库。

cd /app
tar -zxvf /home/Software/scala-2.11.12.tgz -C .
mv scala-2.11.12 scala

9. 安装snappy

Snappy是一个压缩/解压缩库。它的目标不是最大压缩,也不与任何其他压缩库兼容; 相反,它的目标是非常高的速度和合理的压缩。例如,与最快的zlib模式相比,对于大多数输入,Snappy的速度要快一个数量级,但生成的压缩文件大小要高20%到100%。

yum -y install automake autoconf libtool openssl openssl-devel gcc gcc-c++
tar -zxvf snappy-1.1.3.tar.gz
cd snappy-1.1.3
./autogen.sh
./configure
make & make install

10. 安装lzo以及lzop

LZO 是一个用 ANSI C 语言编写的无损压缩库。他能够提供非常快速的压缩和解压功能。解压并不需要内存的支持。即使使用非常大的压缩比例进行缓慢压缩出的数据,依然能够非常快速的解压。LZO遵循GNU 的GPL 使用许可。

LZO 非常适合进行数据的实时压缩解压处理,这就是说他更关心操作速度,而不是压缩比例。

LZO 使用 ANSI C 语言编写,并且压缩后的数据也被设计为可以跨平台使用的格式。

tar -xvf lzo-2.06.tar.gz
cd lzo-2.06
./configure --enable-shared
make && make install

lzop是使用lzo库写的一个程序,通过shell命令直接可以压缩、解压缩文件。

tar -xvf lzop-1.03.tar.gz
cd lzop-1.03
./configure
make && make install

二. Zookeeper 集群

Zookeeper有三种安装模式,单机模式:单节点安装standalones模式;伪集群模式:在一台主机上启动多个zookeeper的实例;集群模式:需要奇数台服务器,至少3台,每台启动一个zookeeper实例。

1. 解压安装Zookeepr

su - hadoop
mkdir /app
tar -zxvf zookeeper-3.4.10.tar.gz -C /app/
cd /app
sudo mv zookeeper-3.4.10 zookeeper
mkdir data logs

2. 修改zoo.cfg文件

[hadoop@hadoop1 ~]$ vim /app/zookeeper/conf/zoo.cfg
tickTime=2000
initLimit=20
syncLimit=10
dataDir=/app/zookeeper/data
dataLogDir=/app/zookeeper/logs
clientPort=2181
server.1=hadoop1:2888:3888
server.2=hadoop2:2888:3888
server.3=hadoop3:2888:3888

initLimit:初始化链接时,follower和leader之间的最长心跳时间,20*2000即40秒

syncLimit:leader和follower之间发送消息, 请求和应答的最大时间长度,即20秒

server.X=A:B:C 其中X是一个数字, 表示这是第几号server. A是该server所在的IP地址. B:配置该server和集群中的leader交换消息所使用的端口. C:配置选举leader时所使用的端口

3. 修改myid

/app/zookeeper/data/下增加一个myid文件,把前面配置文件里server.X中的X写入里面。

[hadoop@hadoop1 ~]$ cat /app/zookeeper/data/myid
1

4. 修改zookeeper的日志输出路径:

修改/app/zookeeper/bin/zkEnv.sh下的ZOO_LOG_DIR改为配置文件里写的路径/app/zookeeper/logs

if [ "x${ZOO_LOG_DIR}" = "x" ]
then
ZOO_LOG_DIR="/app/zookeeper/logs"
fi

5. 启动并调试zookeeper

启动:

$ zkServer.sh start

查看状态:

$ zkServer.sh status

[hadoop@hadoop1 ~]$ zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /app/zookeeper/bin/../conf/zoo.cfg
Mode: follower

二. Hadoop HA安装

hadoop分为1.0和2.0两个大版本,具体的区别自行查找。本文主要使用的是hadoop2.0。hadoop2.0的生态系统主要包括以下核心项目:HDFS YARN MapReduce。

1. 解压安装

sudo tar -zxvf hadoop-2.9.1.tar.gz -C /app/
$ pwd
/app/hadoop/etc/hadoop
$ ls
capacity-scheduler.xml httpfs-env.sh mapred-env.sh
configuration.xsl httpfs-log4j.properties mapred-queues.xml.template
container-executor.cfg httpfs-signature.secret mapred-site.xml
core-site.xml httpfs-site.xml mapred-site.xml.template
hadoop-env.cmd kms-acls.xml slaves
hadoop-env.sh kms-env.sh ssl-client.xml.example
hadoop-metrics2.properties kms-log4j.properties ssl-server.xml.example
hadoop-metrics.properties kms-site.xml yarn-env.cmd
hadoop-policy.xml log4j.properties yarn-env.sh
hdfs-site.xml mapred-env.cmd yarn-site.xml

2. 修改hadoop的环境变量(hadoop-env.sh)

export HADOOP_HEAPSIZE=16196
export JAVA_HOME=/usr/java/1.8.0_171
export JAVA_LIBRARY_PATH=/app/hadoop-2.9.1/lib/native
export HADOOP_OPTS="-Djava.library.path=/app/hadoop-2.9.0/lib/native"
注意:如果在Centos 6环境中变量名后面的路径必须使用双引号,否则后面启动的时候报错找不到该变量。

3. 修改core-site.xml

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://myhadoop</value>
</property>
<property>
<name>ha.zookeeper.quorum</name>
<value>hadoop1:2181,hadoop2:2181,hadoop3:2181</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/app/hadoop/tmp</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
<property>
<name>io.compression.codecs</name> <value>org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec,com.hadoop.compression.lzo.LzoCodec,com.hadoop.compression.lzo.LzopCodec,org.apache.hadoop.io.compress.BZip2Codec</value>
</property>
<property>
<name>io.compression.codec.lzo.class</name>
<value>com.hadoop.compression.lzo.LzoCodec</value>
</property>
<property>
<name>hadoop.proxyuser.hadoop.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.hadoop.groups</name>
<value>*</value>
</property>
</configuration>

3. 修改hdfs-site.xml

<configuration>
<property>
<name>dfs.nameservices</name>
<value>myhadoop</value>
</property>
<property>
<name>dfs.ha.namenodes.myhadoop</name>
<value>nn1,nn2</value>
</property>
<property>
<name>dfs.namenode.rpc-address.myhadoop.nn1</name>
<value>hadoop1:8020</value>
</property>
<property>
<name>dfs.namenode.rpc-address.myhadoop.nn2</name>
<value>hadoop2:8020</value>
</property>
<property>
<name>dfs.namenode.http-address.myhadoop.nn1</name>
<value>hadoop1:50070</value>
</property>
<property>
<name>dfs.namenode.http-address.mycluster.nn2</name>
<value>hadoop2:50070</value>
</property>
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/app/hadoop/qjournal</value>
</property>
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://hadoop1:8485;hadoop2:8485;hadoop3:8485/myhadoop</value>
</property>
<property>
<name>dfs.client.failover.proxy.provider.myhadoop</name>
<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
<property>
<name>dfs.ha.fencing.methods</name>
<value>sshfence</value>
</property>
<property>
<name>dfs.ha.fencing.ssh.private-key-files</name>
<value>/home/hadoop/.ssh/id_rsa</value>
</property>
<property>
<name>dfs.ha.automatic-failover.enabled</name>
<value>true</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/app/hadoop/dfs/name,file:/hadoop/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/app/hadoop/dfs/data</value>
</property>
<property>
<name>dfs.datanode.handler.count</name>
<value>100</value>
</property>
<property>
<name>dfs.namenode.handler.count</name>
<value>1024</value>
</property>
<property>
<name>dfs.datanode.max.xcievers</name>
<value>8096</value>
</property>
</configuration>

3. 修改yarn-site.xml

<configuration>
<property>
<name>yarn.resourcemanager.ha.enabled</name>
<value>true</value>
</property>
<property>
<name>yarn.resourcemanager.cluster-id</name>
<value>cluster1</value>
</property>
<property>
<name>yarn.resourcemanager.ha.rm-ids</name>
<value>rm1,rm2</value>
</property>
<property>
<name>yarn.resourcemanager.hostname.rm1</name>
<value>hadoop1</value>
</property>
<property>
<name>yarn.resourcemanager.hostname.rm2</name>
<value>hadoop2</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address.rm1</name>
<value>hadoop1:8088</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address.rm2</name>
<value>hadoop2:8088</value>
</property>
<property>
<name>yarn.resourcemanager.zk-address</name>
<value>hadoop1:2181,hadoop2:2181,hadoop3:2181</value>
</property>
</configuration>

5. 修改mapred-site.xml

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop1:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoop1:19888</value>
</property>
<property>
<name>mapreduce.job.tracker</name>
<value>hdfs://hadoop1:8021</value>
</property>
<property>
<name>mapreduce.reduce.shuffle.parallelcopies</name>
<value>50</value>
</property>
<property>
<name>mapreduce.map.java.opts</name>
<value>-Xmx4096M</value>
</property>
<property>
<name>mapreduce.reduce.java.opts</name>
<value>-Xmx8192M</value>
</property>
<property>
<name>mapreduce.map.memory.mb</name>
<value>4096</value>
</property>
<property>
<name>mapreduce.reduce.memory.mb</name>
<value>8192</value>
</property>
<property>
<name>mapreduce.map.output.compress</name>
<value>true</value>
</property>
<property>
<name>mapred.child.env</name>
<value>JAVA_LIBRARY_PATH=/app/hadoop-2.9.1/lib/native</value>
</property>
<property>
<name>mapreduce.map.output.compress.codec</name>
<value>com.hadoop.compression.lzo.LzoCodec</value>
</property>
<property>
<name>mapreduce.task.io.sort.mb</name>
<value>512</value>
</property>
<property>
<name>mapreduce.task.io.sort.factor</name>
<value>100</value>
</property>
<property>
<name>mapred.reduce.tasks</name>
<value>4</value>
</property>
<property>
<name>mapred.map.tasks</name>
<value>20</value>
</property>
<property>
<name>mapred.child.java.opts</name>
<value>-Xmx4096m</value>
</property>
<property>
<name>mapreduce.reduce.shuffle.memory.limit.percent</name>
<value>0.1</value>
</property>
<property>
<name>mapred.job.shuffle.input.buffer.percent</name>
<value>0.6</value>
</property>
</configuration>

6. 修改yarn-env.sh环境,添加环境变量

在yarn-env.sh文件后面设置yarn heap大小。追加下面这句

YARN_HEAPSIZE=4000

添加环境变量:

$ tail .bash_profile
export JAVA_HOME=/usr/java/jdk1.8.0_171-amd64
export HADOOP_HOME=/app/hadoop
export ZOOKPEER_HOME=/app/zookeeper
export LIBRAY_PATH=$HADOOP_HOME/lib/native
export SCALA_HOME=/app/scala
export PATH=$JAVA_HOME/bin:$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$ZOOKPEER_HOME/bin:$SCALA_HOME/bin

7 集群的启动与监控

安装psmisc,否则不能实现自动切换:

yum -y install psmisc

启动集群:

# 1. 在所有zookeeper节点上执行
zkServer.sh start
# 1.1 在leader上执行,用zookeeper进行初始化,这将会创建一个znode在zookeeper上内部实现自动备援系统。
hdfs zkfc -formatZK
# 1.2 If you are setting up a fresh HDFS cluster, you should first run the format command,on one of NameNodes.
hdfs namenode -format
# 2. 自动启动hdfs服务
start-dfs.sh
# 2.1 注意:如何你想要手动的管理你的集群服务,你必须通过zkfc deamon来启动你的namenode,命令如下:
hadoop-daemon.sh --script hdfs start zkfc
# 3. 在hadoop启动Resourcemanager
start-yarn.sh
# 4. 在另一个节点上启动standby resourcemanager
yarn-daemon.sh start resourcemanager # 其他命令:
# 启停namenode
hadoop-daemon.sh start/stop namenode
# 启停datanode
hadoop-daemon.sh start/stop namenode

查看状态:

# 查看各个节点
$ jps
2049 NameNode
2611 DFSZKFailoverController
3465 ResourceManager
1727 QuorumPeerMain
2159 DataNode
2415 JournalNode
3199 NodeManager
3695 Jps
# 查看HDFS集群namedate节点的状态
hdfs haadmin -getAllServiceState
# 查看nn1/nn2的状态
hdfs haadmin -getServiceState nn1
hdfs haadmin -getServiceState nn2
# 查看resourcemanager集群的主备状态
$ yarn rmadmin -getAllServiceState
hadoop1:8033 active
hadoop2:8033 standby
# 查看resourcemanager的集群各个节点的状态
$ yarn rmadmin -getServiceState rm1
active
$ yarn rmadmin -getServiceState rm2
standby

hadoop集群监控相关的端口:

NameNode: http://namenode_host:50070
ResourceManager: http://resourcemanager_host:8088
MapReduce JobHistory Server: http://jobistoryserver_host:19888

Hadoop大数据部署的更多相关文章

  1. 单机,伪分布式,完全分布式-----搭建Hadoop大数据平台

    Hadoop大数据——随着计算机技术的发展,互联网的普及,信息的积累已经到了一个非常庞大的地步,信息的增长也在不断的加快.信息更是爆炸性增长,收集,检索,统计这些信息越发困难,必须使用新的技术来解决这 ...

  2. 超人学院Hadoop大数据资源分享

    超人学院Hadoop大数据资源分享 http://bbs.superwu.cn/forum.php?mod=viewthread&tid=770&extra=page%3D1 很多其它 ...

  3. 超人学院Hadoop大数据技术资源分享

    超人学院Hadoop大数据技术资源分享 http://bbs.superwu.cn/forum.php?mod=viewthread&tid=807&fromuid=645 很多其它精 ...

  4. 超人学院Hadoop大数据资源共享

    超人学院Hadoop大数据资源共享-----数据结构与算法(java解密版) http://yunpan.cn/cw5avckz8fByJ   訪问password b0f8 很多其它精彩内容请关注: ...

  5. hadoop大数据技术架构详解

    大数据的时代已经来了,信息的爆炸式增长使得越来越多的行业面临这大量数据需要存储和分析的挑战.Hadoop作为一个开源的分布式并行处理平台,以其高拓展.高效率.高可靠等优点越来越受到欢迎.这同时也带动了 ...

  6. 【HADOOP】| 环境搭建:从零开始搭建hadoop大数据平台(单机/伪分布式)-下

    因篇幅过长,故分为两节,上节主要说明hadoop运行环境和必须的基础软件,包括VMware虚拟机软件的说明安装.Xmanager5管理软件以及CentOS操作系统的安装和基本网络配置.具体请参看: [ ...

  7. (第1篇)什么是hadoop大数据?我又为什么要写这篇文章?

    摘要: hadoop是什么?hadoop是如何发展起来的?怎样才能正确安装hadoop环境? 这些天,有很多人咨询我大数据相关的一些信息,觉得大数据再未来会是一个朝阳行业,希望能尽早学会.入行,借这个 ...

  8. 《Hadoop大数据架构与实践》学习笔记

    学习慕课网的视频:Hadoop大数据平台架构与实践--基础篇http://www.imooc.com/learn/391 一.第一章 #,Hadoop的两大核心:     #,HDFS,分布式文件系统 ...

  9. 数据仓库和Hadoop大数据平台有什么差别?

    广义上来说,Hadoop大数据平台也可以看做是新一代的数据仓库系统, 它也具有很多现代数据仓库的特征,也被企业所广泛使用.因为MPP架构的可扩展性,基于MPP的数据仓库系统有时候也被划分到大数据平台类 ...

随机推荐

  1. windows10 conda python多版本切换

    之前为了学习安装了python2.7是通过anaconda2安装的 现在想换用Python3  所以寻找版本并存 可以来回切换的方法 打开命令提示符,记住是命令提示符 不是win10自带的window ...

  2. 关于php中openssl_public_encrypt无填充的一个注意事项

    昨天在使用openssl_public_encrypt函数rsa加密一些数据传输的时候,怎么都是加密失败. if (openssl_public_encrypt($data, $encrypted, ...

  3. linux环境安装svn并进行多个源码库区分管理

    关于svn的文档有很多大部分已Windows为例子,因公司没有Windows服务器经过一天的曲折终于初步安装了解了svn.下面一些经验希望能帮助新手 本文采用的yum安装(简单快速没必要源码) 1.y ...

  4. gradle 将依赖打入Jar包的方法

    使用的是IDEA,直接引入 plugins { id 'com.github.johnrengelman.shadow' version '1.2.3' } 放在build.gradle的最上面,然后 ...

  5. java解析xml字符串方法

    一,用DOM4J  针对无重复标签的xml字符串格式,如下: 针对此种情况可用DOM4J解析法,引入 dom4j的相关jar包代码如下: Document document=DocumentHelpe ...

  6. 用ASP.NET Core 2.0 建立规范的 REST API -- 预备知识 (2) + 准备项目

    上一部分预备知识在这 http://www.cnblogs.com/cgzl/p/9010978.html 如果您对ASP.NET Core很了解的话,可以不看本文, 本文基本都是官方文档的内容. A ...

  7. 关于html以及js相关格式验证的记录

    关于html中禁止输入的一些写法主要是实现实时监听值:      下面的例子实现的事只运行输入数字切小数位数不能超过两位的示例.      1. onkeyup事件是在输的时候在键盘松开的时候进行触发 ...

  8. Nctf_web_wp

    1.签到题     右键源代码即可2.md5 collision    这个考点是php"=="的弱相等,为何会出现弱加密呢,是因为在比较==两边的时候,会将字符串类型转化为相同, ...

  9. String的trim()用于去掉字符串前后的空格

    String的trim()可以去掉字符串的前导和后继字符串,即去掉字符串前面和后面的空格. eg:String userName = " good man "; System.ou ...

  10. mysql分表经验总结

    一.为什么要分表? 当一张的数据达到几百万时,你查询一次所花的时间会变多,如果有联合查询的话,有可能会死在那儿了.分表的目的就在于此,减小数据库的负担,缩短查询时间.根据个人经验,mysql执行一个s ...