本文转载自向着梦想奋斗博客

Hadoop是什么?

适合大数据的分布式存储于计算平台

不适用小规模数据

作者:Doug Cutting

受Google三篇论文的启发

Hadoop核心项目

HDFS(Hadoop Distrubuted File System) 分布式文件系统

MapReduce 并行计算框架

版本

Apache

官方版本

Cloudera

使用下载最多的版本,稳定,有商业支持,在Apache的基础上打上了一些补丁(Patch)。推荐使用。

Yahoo

Yahoo内部使用的版本,发不过两次,已有的版本放到Apache上,后续不在继承发布,而是继承在Apache的版本上。

Intel、IBM、微软等等。。。

HDFS架构

主从结构

主节点,只有一个namenode

从节点,有很多歌datanode

namenode负责:

接收用户操作的请求

维护文件系统的目录结构

管理文件与block之间关系,block与datanode的关系

datanode负责:

存储文件

文件被分成block存储在磁盘上

为了保证数据安全,文件会有多个副本

MapReduce架构

主从结构

主节点:只有一个JobTracker

从节点:有很多歌TaskTrackers

JobTracker负责

接收客户提交的计算任务

把计算任务分给TaskTrackers执行

监控TaskTrackers的执行情况

TaskTrackers负责

执行JobTracker分配的计算任务

Hadoop的特点

扩容能力,可以存储PB级别数据

成本低,可以用普通组装服务器做集群

高效率,可以分发数据并行处理

可靠性,自动维护多个副本,任务使用可以自动部署计算任务

Hadoop集群的物理分布

单点结构图

Hadoop部署方式

本地模式(不使用)

伪分布模式(实验学习使用,模拟集群模式)

集群模式(生产环境使用)

安装前软件准备

虚拟机(VitualBox/Vmware/Xen)

操作系统(Centos/RedHat..)

Jdk

Hadoop安装包

Hadoop伪分布安装步骤

1、关闭防火墙

chkconfig iptables off 关闭开机启动

service iptables stop 关闭运行的防火墙

2、修改ip

vi /etc/sysconfig/network-script/ifcfg-eth0

3、修改hostname

vi /etc/sysconfig/network

修改hostname

4、设置ssh密钥登陆

ssh-keygen -t rsa

cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

5、安装jdk

chmod 755 jdk* 设置执行权限

./ jdk-6u24-linux-i586.bin 解压

cp -rf jdk1.6.0_24/ /usr/local/jdk 拷贝目录指定目录,可以自己指定

vi /etc/profile 设置环境变量

添加export JAVA_HOME=/usr/local/jdk

export PATH=.:$JAVA_HOME/bin:$PATH

source /etc/profile 立即生效

验证

java –version

出现以下内容表示成功

java version "1.6.0_24"

Java(TM) SE Runtime Environment (build 1.6.0_24-b07)

Java HotSpot(TM) Client VM (build 19.1-b02, mixed mode)

6、安装hadoop
解压

tar -zxvf hadoop-1.1.2.tar.gz -C /usr/src/

[root@h1 soft]# cd /usr/src/

[root@h1 src]# cp -rf hadoop-1.1.2/ /usr/local/hadoop

修改环境变量

vi /etc/profile

添加

export JAVA_HOME=/usr/local/jdk

export HADOOP_HOME=/usr/local/hadoop

export PATH=.:$HADOOP_HOME/bin:$JAVA_HOME/bin:$PATH

source /etc/profile 立即生效

修改配置文件

修改hadoop-env.sh

添加jdk环境变量配置

export JAVA_HOME=/usr/local/jdk

修改core-site.xml

<configuration>

设置默认名称和端口号

<property>

<name>fs.default.name</name>

<value>hdfs://h1:9000</value>

</property>

设置临时目录存储位置,一般放在单独磁盘目录

<property>

<name>hadoop.tmp.dir</name>

<value>/usr/local/hadoop/tmp</value>

</property>

</configuration>

修改hdfs-site.xml

<configuration>

副本数量

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

关闭权限验证

<property>

<name>dfs.permissions</name>

<value>false</value>

</property>

</configuration>

修改mapred-site.xml

<configuration>

<!-- setting mapreduce name and port -->

<property>

<name>mapred.job.track</name>

<value>h1:9001</value>

</property>

</configuration>

格式化文件系统

hadoop namenode -format

启动

start-all.sh

验证

[root@h1 conf]# jps

6366 TaskTracker

5844 NameNode

6466 Jps

6135 SecondaryNameNode

6223 JobTracker

5989 DataNode

http://h1:55070/访问namenode监控首页

http://h1:50030/访问mapreduce监控首页

本文转载自向着梦想奋斗博客

Hadoop学习记录(1)|伪分布安装的更多相关文章

  1. 启动原生Hadoop集群或伪分布环境

    一:启动Hadoop 集群或伪分布安装成功之后,通过执行./sbin/start-all.sh启动Hadoop环境 通过jps命令查看当前启动进程是否正确~ [root@neusoft-master ...

  2. hadoop 2.6伪分布安装

    hadoop 2.6的“伪”分式安装与“全”分式安装相比,大部分操作是相同的,主要区别在于不用配置slaves文件,而且其它xxx-core.xml里的参数很多也可以省略,下面是几个关键的配置: (安 ...

  3. 2015.07.12hadoop伪分布安装

    hadoop伪分布安装   Hadoop2的伪分布安装步骤[使用root用户用户登陆]other进去超级用户拥有最高的权限 1.1(桥接模式)设置静态IP ,,修改配置文件,虚拟机IP192.168. ...

  4. CentOS 6.5 伪分布安装

    CentOS 6.5 伪分布安装 软件准备  jdk-6u24-linux-i586.bin .hadoop-1.2.1.tar.gz.hadoop-eclipse-plugin-1.2.1.jar ...

  5. hadoop 2.7.3伪分布式安装

    hadoop 2.7.3伪分布式安装 hadoop集群的伪分布式部署由于只需要一台服务器,在测试,开发过程中还是很方便实用的,有必要将搭建伪分布式的过程记录下来,好记性不如烂笔头. hadoop 2. ...

  6. Hadoop生态圈-hbase介绍-伪分布式安装

    Hadoop生态圈-hbase介绍-伪分布式安装 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.HBase简介 HBase是一个分布式的,持久的,强一致性的存储系统,具有近似最 ...

  7. centos 7下Hadoop 2.7.2 伪分布式安装

    centos 7 下Hadoop 2.7.2 伪分布式安装,安装jdk,免密匙登录,配置mapreduce,配置YARN.详细步骤如下: 1.0 安装JDK 1.1 查看是否安装了openjdk [l ...

  8. hadoop: hbase1.0.1.1 伪分布安装

    环境:hadoop 2.6.0 + hbase 1.0.1.1 + mac OS X yosemite 10.10.3 安装步骤: 一.下载解压 到官网 http://hbase.apache.org ...

  9. hadoop伪分布安装

    解压 将安装包hadoop-2.2.0.tar.gz存放到/home/haozhulin/install/目录下,并解压 #将hadoop解压到/home/haozhulin/install路径下,定 ...

随机推荐

  1. [HDOJ1171]Big Event in HDU(01背包)

    题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1171 许多有价值的物品,有重复.问如何将他们分成两堆,使两堆价值之差最小. 对价值求和,转换成01背包 ...

  2. 安装hadoop

    生成yum源 cd /var/ftp/pub/cdh/5 createrepo --update . 从节点 yum clean all 配置yum库 /etc/yum.repos.d # cat / ...

  3. Linux 查看端口占用并杀掉

    1. 查看端口号占用情况: netstat -apn|grep 80 tcp        0      0 10.65.42.27:80              172.22.142.20:627 ...

  4. R语言中strptime返回值永远为NA的问题

    调用前加上以下代码,即可解决 Sys.setlocale("LC_TIME", "C");

  5. [转]FFMPEG视音频编解码零基础学习方法

    在CSDN上的这一段日子,接触到了很多同行业的人,尤其是使用FFMPEG进行视音频编解码的人,有的已经是有多年经验的“大神”,有的是刚开始学习的初学者.在和大家探讨的过程中,我忽然发现了一个问题:在“ ...

  6. NBUT 1121 Sakuya's Fly Knife 飞刀(暴力)

    题意:给出一个带有n*m个格子的矩阵,部分格子中有靶子target,现在要从一个没有靶子的格子中射出飞刀数把,飞刀是可穿透靶子的,同一直线上都可以一刀全射掉.现在问在哪个格子射出飞刀,可以在全部射中的 ...

  7. HDU 1018 Big Number (阶乘位数)

    题意: 给一个数n,返回该数的阶乘结果是一个多少位(十进制位)的整数. 思路: 用对数log来实现. 举个例子 一个三位数n 满足102 <= n < 103: 那么它的位数w 满足 w ...

  8. 流程引擎的API和服务基础

    RepositoryService :  管理和控制 发布包 和 流程定义(包含了一个流程每个环节的结构和行为) 的操作 除此之外,服务可以 查询引擎中的发布包和流程定义. 暂停或激活发布包,对应全部 ...

  9. scala学习笔记(4):占位符

    scala 中占位符的用法 1.作为“通配符”,类似Java中的*.如import scala.math._ 2.:_*作为一个整体,告诉编译器你希望将某个参数当作参数序列处理!例如val s = s ...

  10. margin collapse 之父子关系的DIV

    打算花点时间将知识整理一下,虽然平时现用现查都能完成工作,可是当遇到面试这种事情的时候,临时查就来不及了... 关于margin,整理若干知识点如下: 一:父子关系的DIV标签以及未加margin时的 ...