大数据软件安装之Hadoop(Apache)(数据存储及计算)

一、生产环境准备

1、修改主机名

vim /etc/sysconfig/network

2、修改静态ip

vim /etc/udev/rules.d/70-persistent-net.rules

vim /etc/sysconfig/network-scripts/ifcfg-eth0

  DEVICE=eth0

  TYPE=Ethernet

  ONBOOT=yes

  BOOTPROTO=static

  NAME="eth0"

  IPADDR=192.168.1.101

  PREFIX=24

  GATEWAY=192.168.1.2

  DNS1=192.168.1.2

3、修改host目录

vim /etc/hosts

192.168.1.101   hadoop101

192.168.1.102   hadoop102

192.168.1.103   hadoop103

192.168.1.104   hadoop104

192.168.1.105   hadoop105

192.168.1.106   hadoop106

192.168.1.107   hadoop107

192.168.1.108   hadoop108

4、关闭防火墙

service iptables stop

chkconfig iptables off

5、配置用户

useradd test

password test

sudo vim /etc/suoders

6、创建文件加夹

[test@hadoop102 opt]$ sudo mkdir /opt/software

[test@hadoop102 opt]$ sudo mkdir /opt/module

[test@hadoop102 opt]$ sduo chown test:test   /opt/software   /opt/software

7.配置分发脚本

cd ~

sudo mkdir bin/

cd bin/

vim xsync

#!/bin/bash

#1.获取输入参数个数,如果没有参数,直接退出

pcount=$#

if(pcount=$#);then

  echo no args;

  exit;

fi

#2.获取文件名称

p1=$1

fname=`basename $p1`

echo fname=$fname

#3 获取上级目录到绝对路径

pdir=`cd -P $(dirname $p1); pwd`

echo pdir=$pdir

#4 获取当前用户名称

user=`whoami`

#5 循环

for(host=103;host<105;host++);do

  echo -------------- hadoop$

    host ------------------

            rsync -av $pdir/$fname $user@hadoop$host:$pdir

done

chmod +x xsync

sudo cp xsync /bin

sudo xsync /bin/xsync

二、安装JDK

1、卸载现有JDK

(1)查询是否安装Java软件

[test@hadoop102 ~]$ rpm -qa | grep java

(2)如果安装的版本低于1.7,卸载该JDK

[test@hadoop102 ~]$ sudo -rpm -e 软件包

[test@hadoop102 ~]$sudo rpm -qa | grep java | xargs sudo rpm -e --nodeps

(3)查看JDK安装路径

[test@hadoop102 ~]$which java

2、导入解压

[test@hadoop102 opt]$ tar -zxvf  jdk-8u144-linux-x64.tar.gz -C /opt/module/

3、配置环境变量

[test@hadoop102 opt]$sudo vim /etc/profile.d/env.sh

#JAVA_HOME

export JAVA_HOME=/opt/module/jdk1.8.0_144

export PATH=$PATH:$JAVA_HOME/bin

[test@hadoop102 opt]$source /etc/profile.d/env.sh

4、检查

java -version

三、安装

1、导入解压

[test@hadoop102 opt]$tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module/

2、配置环境变量

[test@hadoop102 opt]$sudo vim /etc/profile.d/env.sh

#HADOOP_HOME

export $HADOOP_HOME=/opt/module/hadoop-2.7.2

export PATH=$PATH:$HADOOP_HOME/bin

export PATH=$PATH:$HADOOP_HOME/sbin

[test@hadoop102 opt]$soure /etc/profile.d/env.sh

3、检查

[test@hadoop102 opt]$hadoop version

四、完全分布式环境配置

1、配置生产环境 见一

2、配置ssh

[test@hadoop102 .ssh]$hssh-keygen -t rsa 三次回车

[test@hadoop102  .ssh]$ssh-copy-id hadoop102

[test@hadoop102  .ssh]$ssh-copy-id hadoop103

[test@hadoop102  .ssh]$ssh-copy-id hadoop14

测试 [test@hadoop102  .ssh]$ssh hadoop103

[test@hadoop102 .ssh]$exit

xsync /home/test/.ssh

3.hadoop配置文件

cd /opt/module/hhadoop-2.7.2/etc/hadoop

1)环境文件配置

vim hadoop-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_144

vim yarn-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_144

vim marpred-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_144

vim slaves(不能有任何空格)

hadoop102

hadoop103

hadoop104

2)xml文件配置

(1)vim core-site.xml

          <!-- 指定HDFS中NameNode的地址 -->

            <property>

                    <name>fs.defaultFS</name>

            <value>hdfs://hadoop102:9000</value>

        </property>

          <!-- 指定Hadoop运行时产生文件的存储目录 -->

      <property>

                     <name>hadoop.tmp.dir</name>

             <value>/opt/module/hadoop-2.7.2/data/tmp</value>

        </property>

(2)vim hdfs-site.xml

<!-- 数据的副本数量 -->

<property>

<name>dfs.replication</name>

<value>3</value>

</property>

<!-- 指定Hadoop辅助名称节点主机配置 -->

<property>

<name>dfs.namenode.secondary.http-address</name>

<value>hadoop104:50090</value>

</property>

(3)vim yarn-site-xml

<!-- Site specific YARN configuration properties -->

<!-- Reducer获取数据的方式 -->

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<!-- 指定YARN的ResourceManager的地址 -->

<property>

<name>yarn.resourcemanager.hostname</name>

<value>hadoop103</value>

</property>

<!-- 日志聚集功能使能 -->

<property>

<name>yarn.log-aggregation-enable</name>

<value>true</value>

</property>

<!-- 日志保留时间设置7天 -->

<property>

<name>yarn.log-aggregation.retain-seconds</name>

<value>604800</value>

</property>

(4)vim mapred-site.xml

配置:

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

<!-- 历史服务器端地址 -->

<property>

<name>mapreduce.jobhistory.address</name>

<value>hadoop104:10020</value>

</property>

<!-- 历史服务器web端地址 -->

<property>

<name>mapreduce.jobhistory.webapp.address</name>

<value>hadoop104:19888</value>

</property>

启动:

启动历史服务器:mr-jobhistory-daemon.sh start historyserver

4、群起并测试

1)分发

xsync /opt/module/hadoop-2.7.2/etc

2)格式化

[test@hadoop102 hadoop-2.7.2]$bin/hdfs namenode -format

3)启动

[test@hadoop102 hadoop-2.7.2]$bin/start-dfs.sh

[test@hadoop103 hadoop-2.7.2]$bin/start-yarn.sh

4)如果出问题

rm -fr data logs

五、LZO压缩配置

1、下载并解压LZO,置入hadoop/share/hadoop/commom 中

2、分发同步到其他机器

3、增加core-site.xml配置并同步

<property>

<name>io.compression.codecs</name>

<value>

org.apache.hadoop.io.compress.GzipCodec,

org.apache.hadoop.io.compress.DefaultCodec,

org.apache.hadoop.io.compress.BZip2Codec,

org.apache.hadoop.io.compress.SnappyCodec,

com.hadoop.compression.lzo.LzoCodec,

com.hadoop.compression.lzo.LzopCodec

</value>

</property>

<property>

<name>io.compression.codec.lzo.class</name>

<value>com.hadoop.compression.lzo.LzoCodec</value>

</property>

4、扩容

1)Linu硬盘扩容与挂载

(1)创建并格式化新分区

fdisk /dev/sda

m #进入帮助引导模式

n #新增分区

p #指定新分区为基本分区

一路回车 #但要记住分区号

w #保存并执行刚才的分区操作

reboot #重启

==============================

fdisk -l

==============================

mkfs.xfs /dev/sdax,x为分区号

(2)创建盘符并挂载盘符

mdkir /newdisk

临时挂载 mount  /dev/sdax  /newdisk

永久挂载 vim /etc/fstab

    /dev/sdax /newdisk ext4 defaults 0 0

(3)赋予权限

chown -R test:test /newdisk

2)hdfs的扩容

vim /opt/module/hadoop-2.7.2/etc/hadoop/hdfs-site.xml

<property>

  <name>dfs.datanode.data.dir</name>

  <value>${hadoop.tmp.dir}/dfs/data, /newdisk</value>

</property>

完结

大数据软件安装之Hadoop(Apache)(数据存储及计算)的更多相关文章

  1. 大数据软件安装之HBase(NoSQL数据库)

    一.安装部署 1.Zookeeper正常部署 (见前篇博文大数据软件安装之ZooKeeper监控 ) [test@hadoop102 zookeeper-3.4.10]$ bin/zkServer.s ...

  2. 大数据软件安装之ZooKeeper监控

    一.ZooKeeper安装 官方文档: https://zookeeper.apache.org/doc/r3.5.5/zookeeperStarted.html 1.解压分发 [test@hadoo ...

  3. Redis安装,mongodb安装,hbase安装,cassandra安装,mysql安装,zookeeper安装,kafka安装,storm安装大数据软件安装部署百科全书

    伟大的程序员版权所有,转载请注明:http://www.lenggirl.com/bigdata/server-sofeware-install.html 一.安装mongodb 官网下载包mongo ...

  4. 大数据软件安装之Hive(查询)

    一.安装及配置 官方文档: https://cwiki.apache.org/confluence/display/Hive/GettingStarted 安装Hive2.3 1)上传apache-h ...

  5. 大数据软件安装之Azkaban(任务调度)

    一.安装部署 1.安装前准备 1)下载地址:http://azkaban.github.io/downloads.html 2)将Azkaban Web服务器.Azkaban执行服务器.Azkaban ...

  6. 大数据软件安装之Flume(日志采集)

    一.安装地址 1) Flume官网地址 http://flume.apache.org/ 2)文档查看地址 http://flume.apache.org/FlumeUserGuide.html 3) ...

  7. Hadoop hdfs副本存储和纠删码(Erasure Coding)存储优缺点

    body { margin: 0 auto; font: 13px / 1 Helvetica, Arial, sans-serif; color: rgba(68, 68, 68, 1); padd ...

  8. CentOS6安装各种大数据软件 第四章:Hadoop分布式集群配置

    相关文章链接 CentOS6安装各种大数据软件 第一章:各个软件版本介绍 CentOS6安装各种大数据软件 第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件 第三章:Linux基础 ...

  9. CentOS6安装各种大数据软件 第十章:Spark集群安装和部署

    相关文章链接 CentOS6安装各种大数据软件 第一章:各个软件版本介绍 CentOS6安装各种大数据软件 第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件 第三章:Linux基础 ...

随机推荐

  1. Hibernate中的对象图关系转换:游离、持久、自由状态

  2. function_exists (),method_exists()与is_callable()的区别

    is_callable()函数要高级一些,它接受字符串变量形式的方法名作为 第一个参数,如果类方法存在并且可以调用,则返回true.如果要检测类中的方法是否能被调用,可以给函数传递一个数组而不是类的方 ...

  3. python标准库:ftplib模块

    ftplib模块包含了文件传输协议(FTP)客户端的实现. 下面的例子展示了如何登入和获取进入目录的列表,dir函数传入一个回调函数,该回调函数在服务器相应时每一行调用一次.ftplib模块默认的回调 ...

  4. Dart-Tour2-类

    类 Dart语法样式: https://www.dartlang.org/guides/language/effective-dart/style语法:https://www.dartlang.org ...

  5. Leetcode 981. Time Based Key-Value Store(二分查找)

    题目来源:https://leetcode.com/problems/time-based-key-value-store/description/ 标记难度:Medium 提交次数:1/1 代码效率 ...

  6. Hibernate入门之主键生成策略详解

    前言 上一节我们讲解了Hibernate命名策略,从本节我们开始陆续讲解属性.关系等映射,本节我们来讲讲主键的生成策略. 主键生成策略 JPA规范支持4种不同的主键生成策略(AUTO.IDENTITY ...

  7. C++走向远洋——58(项目二3、动物这样叫、改进版)

    */ * Copyright (c) 2016,烟台大学计算机与控制工程学院 * All rights reserved. * 文件名:text.cpp * 作者:常轩 * 微信公众号:Worldhe ...

  8. 从0开发3D引擎(十二):使用领域驱动设计,从最小3D程序中提炼引擎(第三部分)

    目录 上一篇博文 继续实现 实现"DirectorJsAPI.init" 实现"保存WebGL上下文"限界上下文 实现"初始化所有Shader&quo ...

  9. MyBatis配置文件中config与mapper的约束

    本文链接:https://blog.csdn.net/gaoxin_gx/article/details/100183455 Config的约束: <?xml version="1.0 ...

  10. VueX状态管理器 的应用

    VueX状态管理器 cnpm i vuex axios -S 1 创建Vuex 仓库 import Vue from 'vue' import Vuex from 'vuex' vue.use(Vue ...