五十九.大数据、Hadoop 、 Hadoop安装与配置、 HDFS

1.安装Hadoop

单机模式安装Hadoop

安装JAVA环境

设置环境变量，启动运行

1.1 环境准备

1）配置主机名为nn01，ip为192.168.1.21，配置yum源（系统源）

备注：由于在之前的案例中这些都已经做过，这里不再重复.

2）安装java环境

nn01 ~]# yum -y install java-1.8.0-openjdk-devel

nn01 ~]# java -version

openjdk version "1.8.0_131"

OpenJDK Runtime Environment (build 1.8.0_131-b12)

OpenJDK 64-Bit Server VM (build 25.131-b12, mixed mode)

[root@nn01 ~]# jps

1322 Jps

3）安装hadoop

nn01 ~]# tar -xf hadoop-2.7.6.tar.gz

nn01 ~]# mv hadoop-2.7.6 /usr/local/hadoop

nn01 ~]# cd /usr/local/hadoop/

hadoop]# ls

bin include libexec NOTICE.txt sbin

etc lib LICENSE.txt README.txt share

hadoop]# ./bin/hadoop //报错，JAVA_HOME没有找到

4）解决报错问题

hadoop]# rpm -ql java-1.8.0-openjdk

hadoop]# cd ./etc/hadoop/

hadoop]# vim hadoop-env.sh

25 export \

JAVA_HOME="/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.131-11.b12.el7.x86_64/jre"

33 export HADOOP_CONF_DIR="/usr/local/hadoop/etc/hadoop"

nn01 ~]# cd /usr/local/hadoop/

hadoop]# ./bin/hadoop

Usage:...

hadoop]# mkdir /usr/local/hadoop/aa

hadoop]# cp *.txt /usr/local/hadoop/aa

hadoop]# ./bin/hadoop jar \

share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount aa bb

//wordcount为参数统计aa这个文件夹，存到bb这个文件里面（这个文件不能存在，要是存在会报错，是为了防止数据覆盖）

hadoop]# cat bb/part-r-00000 //查看

2. 安装配置Hadoop

另备三台虚拟机，安装Hadoop

使所有节点能够ping通，配置SSH信任关系

节点验证

node1 192.168.1.22

node2 192.168.1.23

node3 192.168.1.24

2.1 环境准备

1）三台机器配置主机名为node1、node2、node3，配置ip地址

2）编辑/etc/hosts（四台主机同样操作，以nn01为例）

[root@nn01 ~]# vim /etc/hosts

192.168.1.21 nn01

192.168.1.22 node1

192.168.1.23 node2

192.168.1.24 node3

3）安装java环境，在node1，node2，node3上面操作（以node1为例）

node1 ~]# yum -y install java-1.8.0-openjdk-devel

4）布置SSH信任关系

//第一次登陆不需要输入yes

nn01 ~]# vim /etc/ssh/ssh_config

Host *

GSSAPIAuthentication yes

StrictHostKeyChecking no

nn01 ~]# ssh-keygen(一路回车）

nn01 ~]# for i in 21 22 23 24 ; do ssh-copy-id 192.168.1.$i; done

//部署公钥给nn01，node1，node2，node3

5）测试信任关系

nn01 ~]# ssh node1

node1 ~]# exit

2.2 配置hadoop

1）修改slaves文件

[root@nn01 ~]# cd /usr/local/hadoop/etc/hadoop

hadoop]# vim slaves

node1

node2

node3

2）hadoop的核心配置文件core-site

hadoop]# vim core-site.xml

<name>fs.defaultFS</name>

</property>

<name>hadoop.tmp.dir</name>

<value>/var/hadoop</value>

</property>

</configuration>

hadoop]# mkdir /var/hadoop //hadoop的数据根目录

hadoop]# ssh node1 mkdir /var/hadoop

hadoop]# ssh node2 mkdir /var/hadoop

hadoop]# ssh node3 mkdir /var/hadoop

3）配置hdfs-site文件

hadoop]# vim hdfs-site.xml

<name>dfs.namenode.http-address</name>

</property>

<name>dfs.namenode.secondary.http-address</name>

</property>

<name>dfs.replication</name>

<value>2</value> //存两份，总数

</property>

</configuration>

4）同步配置到node1，node2，node3
//同步的主机都要安装rsync

hadoop]# ssh node1 yum –y install rsync
hadoop]# ssh node2 yum –y install rsync
hadoop]# ssh node3 yum –y install rsync

hadoop]# for i in 22 23 24 ; do rsync -aSH --delete /usr/local/hadoop/ root@192.168.1.$i:/usr/local/hadoop/ -e 'ssh' & done

[1] 23260

[2] 23261

[3] 23262

5）查看是否同步成功

hadoop]# ssh node1 ls /usr/local/hadoop/

bin

etc

include

lib

libexec

LICENSE.txt

NOTICE.txt

README.txt

sbin

...

2.3 格式化

hadoop]# cd /usr/local/hadoop/

hadoop]# ./bin/hdfs namenode -format //格式化 namenode

hadoop]# ./sbin/start-dfs.sh //启动

hadoop]# jps //验证角色

11009 Jps

10707 NameNode

10894 SecondaryNameNode

hadoop]# ./bin/hdfs dfsadmin -report //查看集群是否组建成功

Live datanodes (3): //有三个角色成功

#########################

知识点整理：

01：大数据运维：运维+大数据管理软件的技能
指无法在一定时间内用常规软件工具进行捕捉、管理和处理数据集合，需要新处理模式才具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
是指从各种各样类型的数据中，快速获得有价值的信息。

大数据的作用：
调整相关经营策略
预测相关发展趋势
大规模数据处理

大数据相关特性：
大体量：volume
多样性：variety
时效性：velocity
准确性：veracity
大价值：value

02:Hadoop
是一种分析和处理海量数据的软件平台，Java开发，提供分布式基础架构。
高可靠性、高扩展性、高校性、高容错性、低成本。

常用组件：
HDFS：分布式文件系统（核心组件，存储）
MapReduce0(分布式计算框架）（核心组件）
Yarn:集群资源管理系统（核心组件，集群资源管理系统）
Zookeeper:分布式写作服务
Hbase:分布式列存储数据库
Hive:基于Hadoop数据仓库
Sqoop:数据同步工具
Pig:基于Hadoop的数据流系统
Mahout:数据挖掘算法库
Flume:日志收集工具

03：HDFS（分布式文件系统）
Client:切分文件，访问HDFS，与NameNode交互，获取文件位置信息；与DataNode交互，读取和写入数据。

角色：
Namenode:Master主节点，管理HDFS的名称空间和数据块映射信息，配置副本策略，处理所有客户端请求。

Secondarynode:主节点小秘，定期合并fsimage（数据块命名空间、存储信息）和fsedits（修改后的数据块：源数据+新数据，类似前端盘），推送给NameNode;紧急情况下，可辅助恢复NameNode。

Datanode:数据存储节点，存储世界的数据；汇报存储信息给NameNode。

Block:128MB,每块可以多个副本。

HDFS结构：（NameNode一般一台)
存数据：Client(数据切块）-> ..数据存哪..->NameNode-> ..DateNode..Client->DataNode(存储数据）
取数据：Client(数据切块）-> ..数据在哪..->NameNode-> ..DateNode..Client->DataNode(获取数据）

04：MapReduce结构分布式计算框架
把一个复杂的问题，分解成若干个简单的问题，多台机器共同计算，最终合并汇总。
角色：
JobTracker:切分任务段，数据总监控、错误处理等（管理节点，一台）
TaskTracker:分单任务（多台，干活）
Map Task:解析每条数据记录，传递给用户编写的map()并执行，将输出结果写入本地磁盘。（如果map-only)作业，直接写入HDFS）
Reducer Task:从Map Task的执行结果中，远程读取输入数据，对数据进行排序，将数据按照分组传递给用户编写的reduce函数执行。

05：Yarn结构：Hadoop的一个通用资源管理系统
角色：
ResourceManager:Master，皇上，处理客户端请求，启动、监控ApplicationMaster,监控NodeManager,资源分配与调度。

NodeManager:钦差大臣，皇上安排的助手，每个结点上资源管理，处理ResourceManager的命令，处理来自ApplicationMaster的命令。（每个ApplicationMaster有多个Container在NodeMaster上运行）

ApplicationMaster:数据切分，为应用程序申请资源，并分配给内部任务，任务监控与容错（表示每个应用）。

Container:对任务运行环境的抽象，封装了CPU、内存等；多维资源以及环境变量、启动命令等任务运行相关的信息资源分配与调度。

06：Hadoop三种模式
单机模式：一台机器部署
伪分布式：所有的角色都安装在一台机器上，学习和测试（类似数据库的多实例）
完全分布式：多台机器部署

##########################

五十九.大数据、Hadoop 、 Hadoop安装与配置、 HDFS的更多相关文章

CentOS6安装各种大数据软件第九章：Hue大数据可视化工具安装和配置
相关文章链接 CentOS6安装各种大数据软件第一章:各个软件版本介绍 CentOS6安装各种大数据软件第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件第三章:Linux基础 ...
ubuntu在虚拟机下的安装 ~~~ Hadoop的安装及配置 ~~~ Hdfs中eclipse的安装
前言 Hadoop是基于Java语言开发的,具有很好跨平台的特性.Hadoop的所要求系统环境适用于Windows,Linux,Mac系统,我们推荐选择使用Linux或Mac系统.而Linux系统则 ...
大数据和Hadoop生态圈
大数据和Hadoop生态圈一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章大数据和Hadoop ...
大数据：Hadoop入门
大数据:Hadoop入门一:什么是大数据什么是大数据: (1.)大数据是指在一定时间内无法用常规软件对其内容进行抓取,管理和处理的数据集合,简而言之就是数据量非常大,大到无法用常规工具进行处理,如 ...
Hadoop专业解决方案-第1章大数据和Hadoop生态圈
一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章大数据和Hadoop生态圈小组已经翻译完成,在此 ...
分享知识-快乐自己：大数据（hadoop）环境搭建
大数据 hadoop 环境搭建: 一):大数据(hadoop)初始化环境搭建二):大数据(hadoop)环境搭建三):运行wordcount案例四):揭秘HDFS 五):揭秘MapReduce ...
大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
Technorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用 ...
大数据测试之hadoop集群配置和测试
大数据测试之hadoop集群配置和测试一.准备(所有节点都需要做):系统:Ubuntu12.04java版本:JDK1.7SSH(ubuntu自带)三台在同一ip段的机器,设置为静态IP机器分配 ...
大数据与Hadoop
figure:first-child { margin-top: -20px; } #write ol, #write ul { position: relative; } img { max-wid ...

随机推荐

Python学习笔记——Python 函数
1. 函数定义与调用 def MyFirstFunction(): print('这是我创建的第一个函数') #调用 MyFirstFunction() 这是我创建的第一个函数 2. 函数文档 def ...
I2C的协议层和物理层
I2C 协议简介 I2C 通讯协议(Inter-Integrated Circuit)是由 Phiilps 公司开发的,由于它引脚少,硬件实现简单,可扩展性强,不需要 USART.CAN 等通讯协议的 ...
JVM GC 算法原理（转）
出处: https://mp.weixin.qq.com/s/IfUFuwn8dsvMIhTS3V01FA 对于JVM的垃圾收集(GC),这是一个作为Java开发者必须了解的内容,那么,我们需要去了解 ...
C# wsdl.exe 生成类文件
wsdl.exe D:\XXX\demand\demand.\wsdl\XXX.wsdl /\wsdl\class 在 vs tools:Developer Command Prompt For VS ...
Unity性能优化-遮挡剔除
1. Occlusion Culling-遮挡剔除的含义:没有在Camear视野范围内的游戏物体不进行渲染Render(默认情况下,Unity是会渲染所有GameObject,无论Camear是否看得 ...
[Vue]Vue keep-alive
keep-alive 包裹动态组件时,会缓存不活动的组件实例,而不是销毁它们.和 <transition> 相似,<keep-alive> 是一个抽象组件:它自身不会渲染一个 ...
Angularjs 中 ng-repeat 循环绑定事件
用ng-repeat循环是如果有ng-click之类的事件需要传入参数我们一般这样写 <span class='del' ng-click="RemoveCost({{item.Id} ...
c#基础知识梳理（五）
上期回顾 - https://www.cnblogs.com/liu-jinxin/p/10831189.html 一.运算符重载您可以重定义或重载 C# 中内置的运算符.因此,程序员也可以使用用户 ...
Julia 学习
Julia 1.1 中文文档 Julia 中的数据可视化 --初探一个简单的Julia教程(一) juliapro下载链接
ajax获取后台数据出错parsererror
原因是dataType如果为json,返回的数据是text就会报错.

五十九.大数据、Hadoop 、 Hadoop安装与配置 、 HDFS

五十九.大数据、Hadoop 、 Hadoop安装与配置 、 HDFS的更多相关文章

随机推荐

热门专题

五十九.大数据、Hadoop 、 Hadoop安装与配置、 HDFS

五十九.大数据、Hadoop 、 Hadoop安装与配置、 HDFS的更多相关文章