本文转载自向着梦想奋斗博客

Hadoop是什么？

适合大数据的分布式存储于计算平台

不适用小规模数据

作者：Doug Cutting

受Google三篇论文的启发

Hadoop核心项目

HDFS（Hadoop Distrubuted File System）分布式文件系统

MapReduce 并行计算框架

版本

Apache

官方版本

Cloudera

使用下载最多的版本，稳定，有商业支持，在Apache的基础上打上了一些补丁（Patch）。推荐使用。

Yahoo

Yahoo内部使用的版本，发不过两次，已有的版本放到Apache上，后续不在继承发布，而是继承在Apache的版本上。

Intel、IBM、微软等等。。。

HDFS架构

主从结构

主节点，只有一个namenode

从节点，有很多歌datanode

namenode负责：

接收用户操作的请求

维护文件系统的目录结构

管理文件与block之间关系，block与datanode的关系

datanode负责：

存储文件

文件被分成block存储在磁盘上

为了保证数据安全，文件会有多个副本

MapReduce架构

主从结构

主节点：只有一个JobTracker

从节点：有很多歌TaskTrackers

JobTracker负责

接收客户提交的计算任务

把计算任务分给TaskTrackers执行

监控TaskTrackers的执行情况

TaskTrackers负责

执行JobTracker分配的计算任务

Hadoop的特点

扩容能力，可以存储PB级别数据

成本低，可以用普通组装服务器做集群

高效率，可以分发数据并行处理

可靠性，自动维护多个副本，任务使用可以自动部署计算任务

Hadoop集群的物理分布

单点结构图

Hadoop部署方式

本地模式（不使用）

伪分布模式（实验学习使用，模拟集群模式）

集群模式（生产环境使用）

安装前软件准备

虚拟机(VitualBox/Vmware/Xen)

操作系统(Centos/RedHat..)

Jdk

Hadoop安装包

Hadoop伪分布安装步骤

1、关闭防火墙

chkconfig iptables off 关闭开机启动

service iptables stop 关闭运行的防火墙

2、修改ip

vi /etc/sysconfig/network-script/ifcfg-eth0

3、修改hostname

vi /etc/sysconfig/network

修改hostname

4、设置ssh密钥登陆

ssh-keygen -t rsa

cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

5、安装jdk

chmod 755 jdk* 设置执行权限

./ jdk-6u24-linux-i586.bin 解压

cp -rf jdk1.6.0_24/ /usr/local/jdk 拷贝目录指定目录，可以自己指定

vi /etc/profile 设置环境变量

添加export JAVA_HOME=/usr/local/jdk

export PATH=.:$JAVA_HOME/bin:$PATH

source /etc/profile 立即生效

验证

java –version

出现以下内容表示成功

java version "1.6.0_24"

Java(TM) SE Runtime Environment (build 1.6.0_24-b07)

Java HotSpot(TM) Client VM (build 19.1-b02, mixed mode)

6、安装hadoop

解压

tar -zxvf hadoop-1.1.2.tar.gz -C /usr/src/

[root@h1 soft]# cd /usr/src/

[root@h1 src]# cp -rf hadoop-1.1.2/ /usr/local/hadoop

修改环境变量

vi /etc/profile

添加

export JAVA_HOME=/usr/local/jdk

export HADOOP_HOME=/usr/local/hadoop

export PATH=.:$HADOOP_HOME/bin:$JAVA_HOME/bin:$PATH

source /etc/profile 立即生效

修改配置文件

修改hadoop-env.sh

添加jdk环境变量配置

export JAVA_HOME=/usr/local/jdk

修改core-site.xml

设置默认名称和端口号

<name>fs.default.name</name>

</property>

设置临时目录存储位置，一般放在单独磁盘目录

<name>hadoop.tmp.dir</name>

<value>/usr/local/hadoop/tmp</value>

</property>

</configuration>

修改hdfs-site.xml

副本数量

<name>dfs.replication</name>

</property>

关闭权限验证

<name>dfs.permissions</name>

<value>false</value>

</property>

</configuration>

修改mapred-site.xml

<name>mapred.job.track</name>

</property>

</configuration>

格式化文件系统

hadoop namenode -format

启动

start-all.sh

验证

[root@h1 conf]# jps

6366 TaskTracker

5844 NameNode

6466 Jps

6135 SecondaryNameNode

6223 JobTracker

5989 DataNode

http://h1:55070/访问namenode监控首页

http://h1:50030/访问mapreduce监控首页

本文转载自向着梦想奋斗博客

Hadoop学习记录（1）|伪分布安装的更多相关文章

启动原生Hadoop集群或伪分布环境
一:启动Hadoop 集群或伪分布安装成功之后,通过执行./sbin/start-all.sh启动Hadoop环境通过jps命令查看当前启动进程是否正确~ [root@neusoft-master ...
hadoop 2.6伪分布安装
hadoop 2.6的“伪”分式安装与“全”分式安装相比,大部分操作是相同的,主要区别在于不用配置slaves文件,而且其它xxx-core.xml里的参数很多也可以省略,下面是几个关键的配置: (安 ...
2015.07.12hadoop伪分布安装
hadoop伪分布安装 Hadoop2的伪分布安装步骤[使用root用户用户登陆]other进去超级用户拥有最高的权限 1.1(桥接模式)设置静态IP ,,修改配置文件,虚拟机IP192.168. ...
CentOS 6.5 伪分布安装
CentOS 6.5 伪分布安装软件准备 jdk-6u24-linux-i586.bin .hadoop-1.2.1.tar.gz.hadoop-eclipse-plugin-1.2.1.jar ...
hadoop 2.7.3伪分布式安装
hadoop 2.7.3伪分布式安装 hadoop集群的伪分布式部署由于只需要一台服务器,在测试,开发过程中还是很方便实用的,有必要将搭建伪分布式的过程记录下来,好记性不如烂笔头. hadoop 2. ...
Hadoop生态圈-hbase介绍-伪分布式安装
Hadoop生态圈-hbase介绍-伪分布式安装作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.HBase简介 HBase是一个分布式的,持久的,强一致性的存储系统,具有近似最 ...
centos 7下Hadoop 2.7.2 伪分布式安装
centos 7 下Hadoop 2.7.2 伪分布式安装,安装jdk,免密匙登录,配置mapreduce,配置YARN.详细步骤如下: 1.0 安装JDK 1.1 查看是否安装了openjdk [l ...
hadoop: hbase1.0.1.1 伪分布安装
环境:hadoop 2.6.0 + hbase 1.0.1.1 + mac OS X yosemite 10.10.3 安装步骤: 一.下载解压到官网 http://hbase.apache.org ...
hadoop伪分布安装
解压将安装包hadoop-2.2.0.tar.gz存放到/home/haozhulin/install/目录下,并解压 #将hadoop解压到/home/haozhulin/install路径下,定 ...

随机推荐

mtk Android 编译命令自定义--添加版本号
1. alps\build\core\Makefile文件:(参照CUSTOM_BUILD_VERNO) ifeq "" "$(SURPLUS_BUILD_VERNO)& ...
python 统计文本文件的行数
num_lines = sum(1 for line in open(input_file_name))
推荐开源Api文档生成工具——Doxygen
http://www.stack.nl/~dimitri/doxygen/index.html 非常的方便. 2步生成API文档. 具体信息见官网哟!
1038: [ZJOI2008]瞭望塔
半平面交. 半平面指的就是一条直线的左面(也不知道对不对) 半平面交就是指很多半平面的公共部分. 这道题的解一定在各条直线的半平面交中. 而且瞭望塔只可能在各个点或者半平面交折线的拐点处. 求出半平面 ...
各个 Maven仓库镜像(包括国内)
本来之前用的OSC的Maven库,不过最近客户这边换了联通的网络之后,OSC的库就完全连不上了,不知道是不是因为OSC用的是天翼赞助的网络的原因,所以收集了一些其他的镜像库首推当然还是OSC(不过联 ...
HDU 3342 Legal or Not (图是否有环)
题意: 给出n个人的师徒关系,如有 a是b的师傅,b是c的师傅,c是a的师傅,这样则不合法,输出NO,否则输出YES. 思路: 每段关系可以看成一条有向边,从师傅指向徒弟,那么徒弟的徒子徒孙都不可能再 ...
（三）用Normal Equation拟合Liner Regression模型
继续考虑Liner Regression的问题,把它写成如下的矩阵形式,然后即可得到θ的Normal Equation. Normal Equation: θ=(XTX)-1XTy 当X可逆时,(XT ...
Java中Volatile关键字详解
一.基本概念先补充一下概念:Java并发中的可见性与原子性可见性: 可见性是一种复杂的属性,因为可见性中的错误总是会违背我们的直觉.通常,我们无法确保执行读操作的线程能适时地看到其他线程写入的值, ...
【UVa-442】矩阵链乘——简单栈练习
题目描述: 输入n个矩阵的维度和一些矩阵链乘表达式,输出乘法的次数.如果乘法无法进行,输出error. Sample Input 9 A 50 10 B 10 20 C 20 5 D 30 35 E ...
freemaker转word xml注意事项
java类字符串变量如果含有以下2种字符: &和 <,必须转义否则转化将失败. 其中: &替换成 & <替换成 < 因为一些怪字符数据库存储时已转义了,从数 ...

Hadoop学习记录（1）|伪分布安装

本文转载自向着梦想奋斗博客

Hadoop是什么？

Hadoop核心项目

版本

HDFS架构

MapReduce架构

Hadoop的特点

Hadoop集群的物理分布

单点结构图

Hadoop部署方式

安装前软件准备

Hadoop伪分布安装步骤

1、关闭防火墙

2、修改ip

3、修改hostname

4、设置ssh密钥登陆

5、安装jdk

6、安装hadoop

解压

修改环境变量

修改配置文件

格式化文件系统

启动

Hadoop学习记录（1）|伪分布安装的更多相关文章

随机推荐

热门专题