本文转载自向着梦想奋斗博客

Hadoop是什么？

适合大数据的分布式存储于计算平台

不适用小规模数据

作者：Doug Cutting

受Google三篇论文的启发

Hadoop核心项目

HDFS（Hadoop Distrubuted File System）分布式文件系统

MapReduce 并行计算框架

版本

Apache

官方版本

Cloudera

使用下载最多的版本，稳定，有商业支持，在Apache的基础上打上了一些补丁（Patch）。推荐使用。

Yahoo

Yahoo内部使用的版本，发不过两次，已有的版本放到Apache上，后续不在继承发布，而是继承在Apache的版本上。

Intel、IBM、微软等等。。。

HDFS架构

主从结构

主节点，只有一个namenode

从节点，有很多歌datanode

namenode负责：

接收用户操作的请求

维护文件系统的目录结构

管理文件与block之间关系，block与datanode的关系

datanode负责：

存储文件

文件被分成block存储在磁盘上

为了保证数据安全，文件会有多个副本

MapReduce架构

主从结构

主节点：只有一个JobTracker

从节点：有很多歌TaskTrackers

JobTracker负责

接收客户提交的计算任务

把计算任务分给TaskTrackers执行

监控TaskTrackers的执行情况

TaskTrackers负责

执行JobTracker分配的计算任务

Hadoop的特点

扩容能力，可以存储PB级别数据

成本低，可以用普通组装服务器做集群

高效率，可以分发数据并行处理

可靠性，自动维护多个副本，任务使用可以自动部署计算任务

Hadoop集群的物理分布

单点结构图

Hadoop部署方式

本地模式（不使用）

伪分布模式（实验学习使用，模拟集群模式）

集群模式（生产环境使用）

安装前软件准备

虚拟机(VitualBox/Vmware/Xen)

操作系统(Centos/RedHat..)

Jdk

Hadoop安装包

Hadoop伪分布安装步骤

1、关闭防火墙

chkconfig iptables off 关闭开机启动

service iptables stop 关闭运行的防火墙

2、修改ip

vi /etc/sysconfig/network-script/ifcfg-eth0

3、修改hostname

vi /etc/sysconfig/network

修改hostname

4、设置ssh密钥登陆

ssh-keygen -t rsa

cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

5、安装jdk

chmod 755 jdk* 设置执行权限

./ jdk-6u24-linux-i586.bin 解压

cp -rf jdk1.6.0_24/ /usr/local/jdk 拷贝目录指定目录，可以自己指定

vi /etc/profile 设置环境变量

添加export JAVA_HOME=/usr/local/jdk

export PATH=.:$JAVA_HOME/bin:$PATH

source /etc/profile 立即生效

验证

java –version

出现以下内容表示成功

java version "1.6.0_24"

Java(TM) SE Runtime Environment (build 1.6.0_24-b07)

Java HotSpot(TM) Client VM (build 19.1-b02, mixed mode)

6、安装hadoop

解压

tar -zxvf hadoop-1.1.2.tar.gz -C /usr/src/

[root@h1 soft]# cd /usr/src/

[root@h1 src]# cp -rf hadoop-1.1.2/ /usr/local/hadoop

修改环境变量

vi /etc/profile

添加

export JAVA_HOME=/usr/local/jdk

export HADOOP_HOME=/usr/local/hadoop

export PATH=.:$HADOOP_HOME/bin:$JAVA_HOME/bin:$PATH

source /etc/profile 立即生效

修改配置文件

修改hadoop-env.sh

添加jdk环境变量配置

export JAVA_HOME=/usr/local/jdk

修改core-site.xml

设置默认名称和端口号

<name>fs.default.name</name>

</property>

设置临时目录存储位置，一般放在单独磁盘目录

<name>hadoop.tmp.dir</name>

<value>/usr/local/hadoop/tmp</value>

</property>

</configuration>

修改hdfs-site.xml

副本数量

<name>dfs.replication</name>

</property>

关闭权限验证

<name>dfs.permissions</name>

<value>false</value>

</property>

</configuration>

修改mapred-site.xml

<name>mapred.job.track</name>

</property>

</configuration>

格式化文件系统

hadoop namenode -format

启动

start-all.sh

验证

[root@h1 conf]# jps

6366 TaskTracker

5844 NameNode

6466 Jps

6135 SecondaryNameNode

6223 JobTracker

5989 DataNode

http://h1:55070/访问namenode监控首页

http://h1:50030/访问mapreduce监控首页

本文转载自向着梦想奋斗博客

Hadoop学习记录（1）|伪分布安装的更多相关文章

启动原生Hadoop集群或伪分布环境
一:启动Hadoop 集群或伪分布安装成功之后,通过执行./sbin/start-all.sh启动Hadoop环境通过jps命令查看当前启动进程是否正确~ [root@neusoft-master ...
hadoop 2.6伪分布安装
hadoop 2.6的“伪”分式安装与“全”分式安装相比,大部分操作是相同的,主要区别在于不用配置slaves文件,而且其它xxx-core.xml里的参数很多也可以省略,下面是几个关键的配置: (安 ...
2015.07.12hadoop伪分布安装
hadoop伪分布安装 Hadoop2的伪分布安装步骤[使用root用户用户登陆]other进去超级用户拥有最高的权限 1.1(桥接模式)设置静态IP ,,修改配置文件,虚拟机IP192.168. ...
CentOS 6.5 伪分布安装
CentOS 6.5 伪分布安装软件准备 jdk-6u24-linux-i586.bin .hadoop-1.2.1.tar.gz.hadoop-eclipse-plugin-1.2.1.jar ...
hadoop 2.7.3伪分布式安装
hadoop 2.7.3伪分布式安装 hadoop集群的伪分布式部署由于只需要一台服务器,在测试,开发过程中还是很方便实用的,有必要将搭建伪分布式的过程记录下来,好记性不如烂笔头. hadoop 2. ...
Hadoop生态圈-hbase介绍-伪分布式安装
Hadoop生态圈-hbase介绍-伪分布式安装作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.HBase简介 HBase是一个分布式的,持久的,强一致性的存储系统,具有近似最 ...
centos 7下Hadoop 2.7.2 伪分布式安装
centos 7 下Hadoop 2.7.2 伪分布式安装,安装jdk,免密匙登录,配置mapreduce,配置YARN.详细步骤如下: 1.0 安装JDK 1.1 查看是否安装了openjdk [l ...
hadoop: hbase1.0.1.1 伪分布安装
环境:hadoop 2.6.0 + hbase 1.0.1.1 + mac OS X yosemite 10.10.3 安装步骤: 一.下载解压到官网 http://hbase.apache.org ...
hadoop伪分布安装
解压将安装包hadoop-2.2.0.tar.gz存放到/home/haozhulin/install/目录下,并解压 #将hadoop解压到/home/haozhulin/install路径下,定 ...

随机推荐

Linux内核的整体架构
Linux内核的整体架构作者:蜗蜗发布于:2014-2-21 13:23 分类:Linux内核分析原文:http://www.wowotech.net/linux_kenrel/11.html ...
ORACLE EBS R12 - 寄售功能知多少
材料以寄售方式供应,是制造业实现零库存管理的一种方式.东西放在我这里,不用的时候,东西还是供应商的,用的时候,按"装机"数量进行付款.这种业务模式,对于竞争日趋白热化的家电行业,非 ...
poj2891
这道题就是扩展的中国剩余定理(模数不互质) 首先我们回忆一下中国剩余定理对于给定n个方程组x≡ai(mod pi) 令m=∏pi wi=m/pi,然后求解关于hi,ri的方程wi*hi+pi*ri=1 ...
jQuery实例-记住登录信息
本文介绍下jquery 记住登录信息的方法,引入jquery.cookie.js文件,实现记住登录信息,有需要的朋友参考下. 首先,导入jquery.cookie.js $(function(){ / ...
POJ 3628 Bookshelf 2【01背包】
题意:给出n头牛的身高,以及一个书架的高度,问怎样选取牛,使得它们的高的和超过书架的高度最小. 将背包容量转化为所有牛的身高之和,就可以用01背包来做=== #include<iostream& ...
memcached增删改查
1)add语法:add key flag expire byteskey 键flag 标志expire 过期时间,可以是秒或一个具体的时间戳bytes 要存的东西的bytes长度 PS:只能添加内存里 ...
Git之手把手教你使用Git
一:Git是什么? Git是目前世界上最先进的分布式版本控制系统. 二:SVN与Git的最主要的区别? SVN是集中式版本控制系统,版本库是集中放在中央服务器的,而干活的时候,用的都是自己的电脑,所以 ...
cookie随便写的一点笔记（抄书的）
cookie是保存在客户端的文本,能够在一定程度上提高用户体验.Servlet API 中提供了Cookie类,可以创建Cookie对象,并通过响应中的addCookie方法,将cookie保存到客户 ...
关于UNION ALL与 UNION 用法和区别
(转自:http://www.cnblogs.com/EricaMIN1987_IT/archive/2011/01/20/1940188.html) UNION指令的目的是将两个SQL语句的结果合并 ...
深入学习Heritrix---解析处理器(Processor)（转）
深入学习Heritrix---解析处理器(Processor) 本节解析与处理器有关的内容. 与处理器有关的主要在以下几个类:Processor(处理器类),ProcessorChain(处理器类), ...

Hadoop学习记录（1）|伪分布安装

本文转载自向着梦想奋斗博客

Hadoop是什么？

Hadoop核心项目

版本

HDFS架构

MapReduce架构

Hadoop的特点

Hadoop集群的物理分布

单点结构图

Hadoop部署方式

安装前软件准备

Hadoop伪分布安装步骤

1、关闭防火墙

2、修改ip

3、修改hostname

4、设置ssh密钥登陆

5、安装jdk

6、安装hadoop

解压

修改环境变量

修改配置文件

格式化文件系统

启动

Hadoop学习记录（1）|伪分布安装的更多相关文章

随机推荐

热门专题