三、配置Hadoop

1、设置$HADOOP_HOME/conf/hadoop-env.sh

这个文件里设置的是Hadoop运行时须要的环境变量，在1.2.1版中共同拥有19个环境变量。例如以下：

变量名称

默认值

说明

JAVA_HOME

设置JDK的路径。这个必须设置。否则Hadoop无法启动，值如：

/usr/local/jdk1.6.0_33

HADOOP_CLASSPATH

空

这个用以设置用户的类路径。也能够在运行计算之前设置

HADOOP_HEAPSIZE

1000m

设置Hadoop堆的大小，依据自己环境的实际情况进行设置了。

HADOOP_OPTS

-server

Hadoop启动时的JVM參数，默认是以server模式启动。能够添加-X或-XX之类的參数

HADOOP_NAMENODE_OPTS

-Dcom.sun.management.jmxremote $HADOOP_NAMENODE_OPTS

该选项的值会附加到HADOOP_OPTS之后。在启动NameNode时设置的JVM參数。

如想手动设置NameNode的堆、垃圾回收等信息，能够在这里设置：

，我的内存没有这么大而且測试用例不会用到那么大的堆，所以我也设置了一个这个值。

export HADOOP_HEAPSIZE=20

HADOOP_PID_DIR：

Hadoop PID文件的存放文件夹，这个最好是改动一下，由于/tmp文件夹通常来说是不论什么人都能够訪问的。有可能存在符合链接攻击的风险。

export HADOOP_PID_DIR=/home/fenglibin/hadoop_tmp

2、配置$HADOOP_HOME/conf/core-site.xml

參数例如以下（部分）：

參数	默认值	说明
fs.default.name	file:///	NameNode的URI，如： hdfs://locahost:9000/
hadoop.tmp.dir	/tmp/hadoop-${user.name}	其他暂时文件夹的基本文件夹， /home/fenglibin/hadoop_tmp
hadoop.native.lib	true	是否使用hadoop的本地库
hadoop.http.filter.initializers	空	设置Filter初使器，这些Filter必须是hadoop.http.filter.initializers的子类。能够同一时候设置多个，以逗号分隔。这些设置的Filter，将会对全部用户的jsp及servlet页面起作用。Filter的顺序与配置的顺序同样。

配置演示样例：

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

</property>

<name>hadoop.tmp.dir</name>

<value>/home/fenglibin/hadoop_tmp</value>

<description>A base for other temperary directory</description>

</property>

</configuration>

3、配置$HADOOP_HOME/conf/mapred-site.xml文件

參数例如以下（部分）：

參数

说明

演示样例

mapred.job.tracker

配置JobTracker，以Host和IP的形式

localhost:9001

mapred.system.dir

MapReduce框架在HDFS存放系统文件的路径。必须能够被server及client訪问得到，默认值：

${hadoop.tmp.dir}/mapred/system

mapred.local.dir

MapReduce框架在本地的暂时文件夹，能够是多个，以逗号作分隔符，多个路径有助于分散IO的读写，默认值：

${hadoop.tmp.dir}/mapred/local

mapred.tasktracker.{map|reduce}.tasks.maximum

在同一台指定的TaskTacker上面同一时候独立的运行的MapReduce任务的最大数量，默认值是2（2个maps及2个reduces），这个与你所在硬件环境有非常大的关系，可分别设定。

dfs.hosts/dfs.hosts.exclude

同意/排除的NataNodes。假设有必要。使用这些文件控制同意的DataNodes。

mapred.hosts/mapred.hosts.exclude

同意/排除的MapReduces，假设有必要，使用这些文件控制同意的MapReduces。

mapred.queue.names

可用于提交Job的队列，多个以逗号分隔。MapReduce系统中至少存在一个名为“default”的队列，默认值就是“default”。

Hadoop中支持的一些任务定时器，如“Capacity Scheduler”。能够同一时候支持多个队列，假设使用了这样的定时器，那么使用的队列名称就必须在这里指定了。一旦指定了这些队列。用户在提交任务，通过在任务配置时指定“。而系统默认的复制份数为3。例如以下：

<name>dfs.replication</name>

</property>

</configuration>

6、格式化namenode

hadoop namenode -format

7、启动Hadoop

./bin/start-all.sh

假设是出现例如以下结果，那就说明Hadoop已经成功启动了：

fenglibin@ubuntu1110:/usr/local/hadoop-1.2.1$ jps

29339 SecondaryNameNode

29661 Jps

28830 JobTracker

29208 DataNode

28503 NameNode

29514 TaskTracker

此时我们能够通过WEB方式查看NameNode及Jobtracker的状态了：

NameNode：http://localhost:50070/

JobTracker：http://localhost:50030/

假设仅仅是測试map/reduce，这里仅仅须要启动例如以下命令：

./bin/start-mapred.sh

8、启动Hadoop可能会遇到的问题

后面会提到。

Hadoop入门进阶步步高（三）-配置Hadoop的更多相关文章

Hadoop入门进阶步步高（一）-环境准备
前言 Hadoop从存储上来说,是相似于冗余磁盘阵列(RAID)的存储方式.将数据分散存储并提供以提供吞吐量,它的存储系统就是HDFS(Hadoop Distuibute Fils System).从 ...
Hadoop入门进阶步步高（六）-Hadoop1.x与Hadoop2的差别
六.Hadoop1.x与Hadoop2的差别 1.变更介绍 Hadoop2相比較于Hadoop1.x来说,HDFS的架构与MapReduce的都有较大的变化,且速度上和可用性上都有了非常大的提高,Ha ...
Hadoop入门进阶步步高（五）-搭建Hadoop集群
五.搭建Hadoop集群上面的步骤,确认了单机能够运行Hadoop的伪分布运行,真正的分布式运行无非也就是多几台slave机器而已,配置方面的有一点点差别,配置起来就很easy了. 1.准备三台se ...
Hadoop入门进阶步步高（二）-文件夹介绍
二.Hadoop文件夹结构这里重点介绍几个文件夹bin.conf及lib文件夹. 1.$HADOOP_HOME/bin文件夹文件名说明 hadoop 用于运行hadoop脚本命令,被hadoop ...
Hadoop入门进阶课程4--HDFS原理及操作
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,博主为石山园,博客地址为 http://www.cnblogs.com/shishanyuan ...
Hadoop入门进阶课程3--Hadoop2.X64位环境搭建
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,博主为石山园,博客地址为 http://www.cnblogs.com/shishanyuan ...
Hadoop入门进阶课程1--Hadoop1.X伪分布式安装
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,博主为石山园,博客地址为 http://www.cnblogs.com/shishanyuan ...
分布式计算开源框架Hadoop入门实践（三）
Hadoop基本流程一个图片太大了,只好分割成为两部分.根据流程图来说一下具体一个任务执行的情况. 在分布式环境中客户端创建任务并提交. InputFormat做Map前的预处理,主要负责以下工作: ...
（转）Hadoop入门进阶课程
http://blog.csdn.net/yirenboy/article/details/46800855 1.Hadoop介绍 1.1Hadoop简介 Apache Hadoop软件库是一个框架, ...

随机推荐

java使用正则表达式,去除windows系统中文件名的非法路径
w哦我爬取一个页面,并且把附件下载下来,保存,有的时候文件名,带*号,所以,无法保存这时候就要删除所有的非法字符 String fileName = resourceName + fileTypt; ...
Docker Mysql部署
1.下载tomcat镜像 docker pull mysql 2.启动容器 docker run -d --name mysql -p 3306:3306 -e MYSQL_ROOT_PASSWORD ...
HDU 1724 自适应辛普森法
//很裸的积分题,直接上模板 #include<stdio.h> #include<math.h> int aa, bb; //函数 double F(double x){ - ...
python中接受任意关键字的参数
1.*args args是非关键字参数,可以理解为形参,为了方便记忆我理解它是arguments的缩写. 2.*kwargs kwargs是键值对参数,为了方便记忆我理解它是key word argu ...
常用命令3-文件搜索命令1-locate
新建文件搜索不到,是因为查询是从数据库里查询的,然后数据库是一天后才更新,但是可以强制更新. 优点:能进行模糊搜索. 在tmp目录下创建一个文件,发现,在root家目录下搜不到.是因为配置文件原因. ...
IDEA maven项目查自动查看依赖关系，解决包冲突问题
在maven项目中找到pom.xml,打开. <dependencies> <dependency> <groupId>org.apache.storm</g ...
Appium 常用的API函数
常用的API函数[转] http://blog.sina.com.cn/s/blog_68f262210102vzf9.html 获取信息类API (1)获取默认系统语言对应的Strings.xml文 ...
oracle国家字符集
国家字符集是一个备用字符集,利用此字符集可以在没有Unicode 数据库字符集的数据库中存储 Unicode 字符. 选择国家字符集的其它原因如下: 对于频繁的字符处理操作,不同的字符编码方案可能更为 ...
Leetcode3.Longest Substring Without Repeating Characters无重复字符的最长字串
给定一个字符串,找出不含有重复字符的最长子串的长度. 示例 1: 输入: "abcabcbb" 输出: 3 解释: 无重复字符的最长子串是 "abc",其长度为 ...
【滴水石穿】rn
这个项目还不错,还比较全先放项目地址:https://github.com/ShionHXC/rn 项目算是一个完整的APP 有用到redux-thunk存储数据,算的上是一个普通的比较完整的APP ...

Hadoop入门进阶步步高（三）-配置Hadoop

三、配置Hadoop

1、设置$HADOOP_HOME/conf/hadoop-env.sh

2、配置$HADOOP_HOME/conf/core-site.xml

3、配置$HADOOP_HOME/conf/mapred-site.xml文件

6、格式化namenode

7、启动Hadoop

8、启动Hadoop可能会遇到的问题

Hadoop入门进阶步步高（三）-配置Hadoop的更多相关文章

随机推荐

热门专题