大数据时代之hadoop(一):hadoop安装
1、hadoop版本介绍
0.20.2版本以前(不含该版本)的配置文件都在default.xml中。
0.20.x以后的版本不含有eclipse插件的jar包,由于eclipse的版本不一,所以就需要自己编译源码生成对应的插件。
0.20.2——0.22.x版本的配置文件集中在conf/core-site.xml、 conf/hdfs-site.xml 和 conf/mapred-site.xml. 中。
0.23.x 版本有添加了yarn技术,配置文件集中在 conf/core-site.xml, conf/hdfs-site.xml, conf/yarn-site.xml and conf/mapred-site.xml.这4个文件上。
由于0.23.x版本的变化比较大,添加了新的技术,让很多基于hadoop的一些插件难以兼容,如hive、hbase、pig等都基于0.23.x以前的版本。
所以apache就开始统一版本号,这样从版本号就可以区分hadoop的功能。
0.22.x 直接升级到1.0.0
0.23.x 直接升级到2.0.0
这样就把hadoop分为两个版本 1和2
1版本:主要基于原来的技术的升级和发展,同时支持其它技术的支持。如果想用hbase、hive等技术就只有选择 版本1
2版本:主要基于新技术的推广和发展,如果只是基于hadoop开发,这个是一个很好的选择。
目前官网上下载hadoop处描述:
Download
- 1.2.X - current stable version, 1.2 release
- 2.4.X - current stable 2.x version
- 0.23.X - similar to 2.X.X but missing NN HA.
2、hadoop安装及模式
目前,我在实验环境中使用的是hadoop-0.20.2,所以以后我都是基于这个版本进行描述。
Hadoop各个组件的配置在文件夹conf下。早期的hadoop采用一个配置文件hadoop-site.xml来配置Common,HDFS和MapReduce组件,从0.20.0版本开始,分为三个文件。
core-site.xml:配置Common组件的属性。
hdfs-site.xml:配置HDFS属性。
mapred-sit.xml:配置MapReduce属性。
2.1、Hadoop运行模式
Hadoop的运行模式有以下三种:
独立模式(standalone或local mode):无需任何守护进程(daemon),所有程序都在单个JVM上执行。主要用在开发阶段。默认属性就是为本模式所设,所以不需要额外的配置。
伪分布式模式(pseudo-distributed model):Hadoop守护进程运行在本地机器上,模拟一个小规模的集群。
全分布模式(full distributed model):Hadoop守护进程运行在一个集群上。
不同模式关键配置属性
|
组件名称 |
属性名称 |
独立模式 |
伪分布模式 |
全分布模式 |
|
Common |
fs.default.name |
file:/// (默认) |
hdfs://localhost:9000 |
hdfs://namenode:9000 |
|
HDFS |
dfs.replication |
N/A |
1 |
3 (默认) |
|
MapReduce |
mapred.job.tracker |
local (默认) |
localhost:9001 |
jobtracker:9001 |
2.2、本机模式安装
由于默认属性专为本模式所设定,且无需运行任何守护进程,因此本模式除了把dfs.replication值设为1外,无需任何别的操作。
测试:
进入$HADOOP_HOME目录下执行以下命令来测试安装是否成功
- $ mkdir input
- $ cp conf/*.xml input
- $ bin/hadoop jar hadoop-examples-*.jar grep input output 'dfs[a-z.]+'
- $ cat output/*
输出:
1 dfsadmin
经过上面的步骤,如果没有出现错误就算安装成功了。
2.3、伪分布式模式安装步骤
安装步骤:
1、设置环境变量(JAVA_HOME,path,HADOOP_HOME,CLASSPATH)
2、修改hadoop配置文件(core-site.xml,hdfs-site.xml,mapred-site.xml)
3、设置ssh无密码登陆
4、格式化文件系统 hadoop namenode -format
5、启动守护进程 start-all.sh
6、停止守护进程
其中第二步实例:
- <configuration>
- <property>
- <name>fs.default.name</name>
- <value>localhost:9000</value>
- </property>
- <property>
- <name>mapred.job.tracker</name>
- <value>localhost:9001</value>
- </property>
- <property>
- <name>dfs.replication</name>
- <value>1</value>
- </property>
- </configuration>
启动后可以通过网页方式查看NameNode和JobTracker状态
NameNode - http://localhost:50070/
JobTracker - http://localhost:50030/
测试:
复制文件到分布式文件系统上
- $ bin/hadoop fs -put conf input
运行测试
- $ bin/hadoop jar hadoop-examples-*.jar grep input output 'dfs[a-z.]+'
获取测试程序的执行结果
- $ bin/hadoop fs -cat output/*
输出:
- 3 dfs.class
- 2 dfs.period
- 1 dfs.file
- 1 dfs.replication
- 1 dfs.servers
- 1 dfsadmin
- 1 dfsmetrics.log
经过上面的步骤,如果没有出现错误就算安装成功了。
2.4、全分布模式安装步骤
安装步骤:
1、设置环境变量(JAVA_HOME,path,HADOOP_HOME,CLASSPATH)
2、修改hadoop配置文件(core-site.xml,hdfs-site.xml,mapred-site.xml,masters,slaves)
3、设置ssh无密码登陆
4、格式化文件系统 hadoop namenode -format
5、启动守护进程 start-all.sh
6、停止守护进程
启动后可以通过网页方式查看NameNode和JobTracker状态
NameNode - http://namenode:50070/
JobTracker - http://jobtracker:50030/
注意:
在每个机器上的相同位置分别安装hadoop,且用户名相同。
3、eclipse插件安装
eclipse hadoop插件,是为了快速开发mapreduce程序,提供了
mapreduce location视图,用于设置mapreduce变量;
windows->preferences 增加了设置hadoop安装位置设置栏;
在Project Explore视图里面增加了DFS Locations项目,能够查看hdfs文件系统的内容,并能够上传下载文件;
new project 里面增加了mapreduce project;
增加了run on hadoop平台功能。
需要注意的是hadoop自带的contrib\eclipse-plugin\hadoop-0.20.2-eclipse-plugin.jar过时了,需要从网上下载一个新的,否则在运行mapreduce程序时没有反应。
大数据时代之hadoop(一):hadoop安装的更多相关文章
- 大数据时代快速SQL引擎-Impala
背景 随着大数据时代的到来,Hadoop在过去几年以接近统治性的方式包揽的ETL和数据分析查询的工作,大家也无意间的想往大数据方向靠拢,即使每天数据也就几十.几百M也要放到Hadoop上作分析,只会适 ...
- 转:大数据时代快速SQL引擎-Impala
本文来自:http://blog.csdn.net/yu616568/article/details/52431835 如有侵权 可立即删除 背景 随着大数据时代的到来,Hadoop在过去几年以接近统 ...
- 大数据时代之hadoop(五):hadoop 分布式计算框架(MapReduce)
大数据时代之hadoop(一):hadoop安装 大数据时代之hadoop(二):hadoop脚本解析 大数据时代之hadoop(三):hadoop数据流(生命周期) 大数据时代之hadoop(四): ...
- 大数据系列(5)——Hadoop集群MYSQL的安装
前言 有一段时间没写文章了,最近事情挺多的,现在咱们回归正题,经过前面四篇文章的介绍,已经通过VMware安装了Hadoop的集群环境,相关的两款软件VSFTP和SecureCRT也已经正常安装了. ...
- 大数据系列(4)——Hadoop集群VSFTP和SecureCRT安装配置
前言 经过前三篇文章的介绍,已经通过VMware安装了Hadoop的集群环境,当然,我相信安装的过程肯定遇到或多或少的问题,这些都需要自己解决,解决的过程就是学习的过程,本篇的来介绍几个Hadoop环 ...
- 大数据系列(2)——Hadoop集群坏境CentOS安装
前言 前面我们主要分析了搭建Hadoop集群所需要准备的内容和一些提前规划好的项,本篇我们主要来分析如何安装CentOS操作系统,以及一些基础的设置,闲言少叙,我们进入本篇的正题. 技术准备 VMwa ...
- 大数据时代,我们为什么使用hadoop
大数据时代,我们为什么使用hadoop 我们先来看看大数据时代, 什么叫大数据,“大”,说的并不仅是数据的“多”!不能用数据到了多少TB ,多少PB 来说. 对于大数据,可以用四个词来表示:大量,多样 ...
- 【Hadoop】大数据时代,我们为什么使用hadoop
博客已转移,请借一步说话.http://www.daniubiji.cn/archives/538 我们先来看看大数据时代, 什么叫大数据,“大”,说的并不仅是数据的“多”!不能用数据到了多少TB , ...
- 大数据项目实践:基于hadoop+spark+mongodb+mysql+c#开发医院临床知识库系统
一.前言 从20世纪90年代数字化医院概念提出到至今的20多年时间,数字化医院(Digital Hospital)在国内各大医院飞速的普及推广发展,并取得骄人成绩.不但有数字化医院管理信息系统(HIS ...
- 大数据框架:Spark vs Hadoop vs Storm
大数据时代,TB级甚至PB级数据已经超过单机尺度的数据处理,分布式处理系统应运而生. 知识预热 「专治不明觉厉」之“大数据”: 大数据生态圈及其技术栈: 关于大数据的四大特征(4V) 海量的数据规模( ...
随机推荐
- 【CSS学习笔记】初始化CSS后,写li,并利用背景图片,来完成li小图标的效果,且达到个浏览器兼容
第一种情况 /*当标题前的图标时单独的一个点儿或者方块或者其他类似图标时,定义背景图background要放在<li>里. 在<li>中设置背景图片的尺寸,地址,不重复, ...
- 删除style的样式JQuery
有些页面样式不规范,没有写在一个class里,例如:<div id="show" style="width:100px; padding-top:10px; f ...
- Nexpose
下载: https://www.rapid7.com/products/nexpose/nexpose-enterprise-trial-thank-you.jsp注册: https://www.ra ...
- D3.js:交互式操作
用户用于交互的工具一般有三种:鼠标.键盘.触屏. 1. 添加交互 对某一元素添加交互操作十分简单,代码如下: //画布大小 var width = 500, height = 500; // 在bod ...
- glib实践篇:接口定义与实现
前言: 在上一篇讲解了基于glib实现抽象和继承后,当然这篇就得讲讲接口类型啦! 在JAVA中接口更多的弥补了其单继承所带来的缺陷,使其能够扩展很多功能,同时又不破坏它的结构.其实接口就是一种协议,在 ...
- 采用rest接口对接而非webservice
代码示例 public static String queryForCTI(String url){ String targetURL = getCTIurl()+"/"+url; ...
- MySQL对NULL值的处理
mysql: 我们已经知道MySQL使用 SQL SELECT 命令及 WHERE 子句来读取数据表中的数据,但是当提供的查询条件字段为 NULL 时,该命令可能就无法正常工作. 为了处理这种情况,M ...
- UVAlive 6833 Miscalculation 字符串处理
去年省选的题 因为卡了这道题再加上队友占机时 省选第一天华丽爆零了 用事实证明了1+1+1<1的事实 毕竟下半年单挑了东北赛名额 省赛打不出来名额就真的就不怪我了(摔 现在有拿出来做 长个记性 ...
- 移动端 web开发心得
吐槽:华为p9 内置浏览器就是个渣,各种奇葩的bug,1.如果将一个输入框的最大长度设为4,然后输入4个后,js将输入的值置空,就无法再输入了 手机上浏览器比较蛋疼的是,点击一个输入框,输入法将页面挡 ...
- 小程序 - pages/list/list出现脚本错误或者未正确调用 Page()
这种情况的原因是在要跳转到的页面的js文件中未建立Page()方法,如下: Page({ data: { logs: [] }}) 把以上信息写在js文件即可.