1.前话

寒假实在太闲了,所以闲着无聊地去了解“大数据”这个新概念,这几年到处都在说什么大数据时代的,不能不让我感到好奇啊。

大数据有啥用?随便谷歌百度一大堆我也不多说了。

我自己的理解是,单个数据价值微乎其微,但当数据量极大时,那么就可以通过截取统计海量数据来进行分析,以此得出十分有价值的结果。

例如:

谷歌公司的搜索数据库,这数据库数据量是极大的,数据种类也是极大的,它存储着世界各地用户使用谷歌时键入的搜索关键词。

所以当我们对其进行大数据挖掘,对搜索关键词中含有“药”的关键字进行统计分析,就可以间接得出各个国家国民健康水平,病种分布,某病种发病的区域比重等,通过大数据挖掘,提取有用的信息,然后得出了十分有价值的信息。

因为这种数据库数据量极大,且多为分布式存储,直接遍历分析困难,且十分耗时。

所以出现了解决大数据如何挖掘的问题的技术——Hadoop


2.Hadoop是什么

我直接度娘一段吧:

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

总之,Hadoop是由Java编写的一套框架,它解决大数据挖掘的问题,而我们只需编写相应的MapReduce程序即可。

好啦,其他的也不介绍了(其实其他的我也不懂),先吧Hadoop整个运行框架搭建起来吧。

提示:你需要一定的linux基础 :)


3.框架搭建(Linux环境,Hadoop2.6.4)

官方文档入口 http://hadoop.apache.org/docs/r2.6.4/

Hadoop有三种运行模式

  • 本机模式(一台主机)
  • 伪分布模式(一台主机)
  • 完全分布模式(多台主机,即集群)

本机模式直接解压,修改${HADOOP_PREFIX}/etc/hadoop/hadoop-env.sh,添加export JAVA_HOME=/usr/java/latest即可。

伪分布模式也直接跟着官方文档一步步配置即可。

伪分布模式是单机配置,将该单机作为master配置后的Hadoop程序文件夹分发给其他作为slaver的主机,增加配置内容即可实现完全分布模式配置。


3.0 准备

因为只有一台笔记本,要模拟完全分布模式就得使用虚拟机了。

我使用的是Oracle VirtualBox,这是一款免费的软件。

本配置实例需要的镜像相应配置如下:

hostname ip地址 系统
master 192.168.1.113 CentOS7
slaver01 192.168.1.114 CentOS7
slaver02 192.168.1.115 CentOS7

如前面所说,分发伪分布模式配置文件并增加相应配置内容即可实现完全分布模式配置。

因此我只需配置作为master的主机,然后拷贝多两份系统镜像修改其hostname和ip地址即可。

一台主机别名master作为完全分布集群的NameNode主机,其他别名slaver*作为DataNode主机。

修改文件/etc/hostname

master

修改文件/etc/hosts

192.168.1.113   master
192.168.1.114 slaver01
192.168.1.115 slaver02

3.1 安装Java配置环境(略)


3.2 本机SSH免密码登陆(略)


3.3 下载解压并配置Hadoop路径

  1. 下载Hadoop程序压缩包

  2. 解压至指定目录,例如/usr/local/hadoop2.6.4

  3. 配置/etc/profile ,添加Hadoop目录路径 export HADOOP_PREFIX=/usr/local/hadoop,并添加至PATH中 export PATH=$PATH:$HADOOP_PREFIX


3.4 Hadoop完全分布模式配置

3.4.1 修改${HADOOP_PREFIX}/etc/hadoop/hadoop-env.sh

添加内容 export JAVA_HOME=/usr/java/latest

3.4.2 修改${HADOOP_PREFIX}/etc/hadoop/core-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop-2.6.4/tmp</value>
</property> </configuration>

3.4.3 修改${HADOOP_PREFIX}/etc/hadoop/hdfs-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/local/hadoop-2.6.4/data/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/local/hadoop-2.6.4/data/datanode</value>
</property>
</configuration>

3.4.4 修改${HADOOP_PREFIX}/etc/hadoop/mapred-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>master:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>master:19888</value>
</property>
</configuration>

3.4.5 修改${HADOOP_PREFIX}/etc/hadoop/yarn-site.xml


<?xml version="1.0"?> <configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<description>The hostname of the ResourceManager.</description>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>${yarn.resourcemanager.hostname}:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>${yarn.resourcemanager.hostname}:8030</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>${yarn.resourcemanager.hostname}:8088</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.https.address</name>
<value>${yarn.resourcemanager.hostname}:8090</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>${yarn.resourcemanager.hostname}:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>${yarn.resourcemanager.hostname}:8033</value>
</property>
</configuration>

3.4.5 修改${HADOOP_PREFIX}/etc/hadoop/slaves

该slaves文件需填写DataNode的IP地址,前面已配置/etc/hosts 因此填写hostname即可

slaver01
slaver02

3.5 拷贝多两份master系统镜像

修改拷贝出的系统hostname分别为 slaver01 和 slaver02


3.6 启动

3.6.1 首先格式化NameNode

执行命令 hdfs namenode -format

3.6.2 启动所有服务

进入目录${HADOOP_PREFIX}/sbin

执行命令 ./start-all.sh

特别注意,防火墙允许相应端口或者关闭防火墙

浏览器键入 http://192.168.1.113:50070/ 可查看Hadoop运行信息,若NameNode启动成功和DataNode也存在列表中说明配置成功。

Hadoop完全分布式集群配置的更多相关文章

  1. Hadoop(三)手把手教你搭建Hadoop全分布式集群

    前言 上一篇介绍了伪分布式集群的搭建,其实在我们的生产环境中我们肯定不是使用只有一台服务器的伪分布式集群当中的.接下来我将给大家分享一下全分布式集群的搭建! 其实搭建最基本的全分布式集群和伪分布式集群 ...

  2. Hadoop(三)搭建Hadoop全分布式集群

    原文地址:http://www.cnblogs.com/zhangyinhua/p/7652686.html 阅读目录(Content) 一.搭建Hadoop全分布式集群前提 1.1.网络 1.2.安 ...

  3. CentOS6安装各种大数据软件 第四章:Hadoop分布式集群配置

    相关文章链接 CentOS6安装各种大数据软件 第一章:各个软件版本介绍 CentOS6安装各种大数据软件 第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件 第三章:Linux基础 ...

  4. Hadoop伪分布式集群环境搭建

    本教程讲述在单机环境下搭建Hadoop伪分布式集群环境,帮助初学者方便学习Hadoop相关知识. 首先安装Hadoop之前需要准备安装环境. 安装Centos6.5(64位).(操作系统再次不做过多描 ...

  5. 『实践』VirtualBox 5.1.18+Centos 6.8+hadoop 2.7.3搭建hadoop完全分布式集群及基于HDFS的网盘实现

    『实践』VirtualBox 5.1.18+Centos 6.8+hadoop 2.7.3搭建hadoop完全分布式集群及基于HDFS的网盘实现 1.基本设定和软件版本 主机名 ip 对应角色 mas ...

  6. Hadoop(HA)分布式集群部署

    Hadoop(HA)分布式集群部署和单节点namenode部署其实一样,只是配置文件的不同罢了. 这篇就讲解hadoop双namenode的部署,实现高可用. 系统环境: OS: CentOS 6.8 ...

  7. Hadoop学习---CentOS中hadoop伪分布式集群安装

    注意:此次搭建是在ssh无密码配置.jdk环境已经配置好的情况下进行的 可以参考: Hadoop完全分布式安装教程 CentOS环境下搭建hadoop伪分布式集群 1.更改主机名 执行命令:vi  / ...

  8. Hadoop完全分布式集群环境搭建

    1. 在Apache官网下载Hadoop 下载地址:http://hadoop.apache.org/releases.html 选择对应版本的二进制文件进行下载 2.解压配置 以hadoop-2.6 ...

  9. hadoop完全分布式集群的搭建

    集群配置: jdk1.8.0_161 hadoop-2.6.1 linux系统环境:Centos6.5 创建普通用户  dummy 准备三台虚拟机master,slave01,slave02 hado ...

随机推荐

  1. STL学习三:deque容器

    1.Deque简介 deque是“double-ended queue”的缩写,和vector一样都是STL的容器,deque是双端数组,而vector是单端的. deque在接口上和vector非常 ...

  2. git创建分支并提交项目

    git 创建分支, 切换分支, 合并分支, 删除分支及提交[commit提交到本地仓库push名利提交到远程服务器], 检出[pull], 冲突修改, 本地仓库同步远程服务器[pul和push命令l] ...

  3. js分页

    今天看了下妙味课堂的教程,写了下关于分页的js代码,写完的感觉就是有点小麻烦,需要很多if判断,思路要清晰 点击预览:http://peng666.github.io/blogs/page <! ...

  4. gvim编辑文件到github乱码

    with below _vimrc settings, code uploaded to GitHub will display with proper encoding set encoding=u ...

  5. 每年六一儿童节,牛客都会准备一些小礼物去看望孤儿院的小朋友,今年亦是如此。HF作为牛客的资深元老,自然也准备了一些小游戏。其中,有个游戏是这样的:首先,让小朋友们围成一个大圈。然后,他随机指定一个数m,让编号为0的小朋友开始报数。每次喊到m-1的那个小朋友要出列唱首歌,然后可以在礼品箱中任意的挑选礼物,并且不再回到圈中,从他的下一个小朋友开始,继续0...m-1报数....这样下去....直到剩下

    // test20.cpp : 定义控制台应用程序的入口点. // #include "stdafx.h" #include<iostream> #include< ...

  6. UVA 10004 Bicoloring

    题目链接:http://uva.onlinejudge.org/index.php?option=com_onlinejudge&Itemid=8&category=12&pa ...

  7. 【BZOJ】【2500】幸福的道路

    树形DP+单调队列优化DP 好题(也是神题……玛雅我实在是太弱了TAT,真是一个250) 完全是抄的zyf的……orz我还是退OI保平安吧 第一步对于每一天求出一个从第 i 个点出发走出去的最长链的长 ...

  8. BackgroundWorker

    Constants.Worker = new BackgroundWorker(); Constants.Worker.WorkerSupportsCancellation = true; Const ...

  9. UIFontFamily

    Family: Hiragino Kaku Gothic ProN W3     Font: HiraKakuProN-W3 Family: Courier     Font: Courier     ...

  10. 转 Eclipse下svn的创建分支/合并/切换使用

    最近接项目要求,要在svn主干上创建分支,用分支来进行程序的bug修改,而主干上进行新功能的开发.分支上的bug修改完,发布后,可以合并到主干上.项目程序可以在主干和分支之间进行切换,来实现主干和分支 ...