安装 Hadoop 2.7.3

配置ssh免密码登陆

cd ~/.ssh # 若没有该目录，请先执行一次ssh localhost

ssh-keygen -t rsa # 会有提示，都按回车就可以

cat id_rsa.pub >> authorized_keys # 加入授权

chmod 600 ./authorized_keys # 修改文件权限

1.此处我们选择二进制安装包

http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

解压：

tar -zxf hadoop-2.7.3.tar.gz

我们解压到了/data/yunva/hadoop-2.7.3目录

输入如下命令来检查 Hadoop 是否可用，成功则会显示 Hadoop 版本信息

cd /data/yunva/hadoop-2.7.3

# bin/hadoop version

Hadoop 2.7.3

Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r baa91f7c6bc9cb92be5982de4719c1c8af91ccff

Compiled by root on 2016-08-18T01:41Z

Compiled with protoc 2.5.0

From source with checksum 2e4ce5f957ea4db193bce3734ff29ff4

This command was run using /data/yunva/hadoop-2.7.3/share/hadoop/common/hadoop-common-2.7.3.jar

2.Hadoop单机配置(非分布式)

修改 hosts 文件，为你的主机名增加IP映射

vim /etc/hosts

10.10.33.84 ha01

Hadoop 默认模式为非分布式模式，无需进行其他配置即可运行。非分布式即单 Java 进程，方便进行调试。

现在我们可以执行例子来感受下 Hadoop 的运行。Hadoop 附带了丰富的例子（运行 ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jarr 可以看到所有例子），包括 wordcount、terasort、join、grep 等。

在此我们选择运行 grep 例子，我们将 input 文件夹中的所有文件作为输入，筛选当中符合正则表达式 dfs[a-z.]+ 的单词并统计出现的次数，最后输出结果到 output 文件夹中。

cd /data/yunva/hadoop-2.7.3/

mkdir input

cp etc/hadoop/*.xml input # 将配置文件作为输入文件

# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep ./input ./output 'dfs[a-z.]+'

# cat ./output/*

1 dfsadmin

通过命令 cat ./output/* 查看结果，符合正则的单词 dfsadmin 出现了1次：

注意:Hadoop 默认不会覆盖结果文件，如需要再次运行上面实例需要先将 output 删除。

3.Hadoop伪分布式配置

Hadoop 可以在单节点上以伪分布式的方式运行，Hadoop 进程以分离的 Java 进程来运行，节点既作为 NameNode 也作为 DataNode，同时，读取的是 HDFS 中的文件。

在设置 Hadoop 伪分布式配置前，我们还需要设置 HADOOP 环境变量，执行如下命令在 /etc/profile 中设置：

export HADOOP_HOME=/data/yunva/hadoop-2.7.3

export HADOOP_INSTALL=$HADOOP_HOME

export HADOOP_MAPRED_HOME=$HADOOP_HOME

export HADOOP_COMMON_HOME=$HADOOP_HOME

export HADOOP_HDFS_HOME=$HADOOP_HOME

export YARN_HOME=$HADOOP_HOME

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

保存后，执行如下命令使配置生效

source /etc/profile

这些变量在启动 Hadoop 进程时需要用到，不设置的话可能会报错（这些变量也可以通过修改 ./etc/hadoop/hadoop-env.sh 实现）。

Hadoop 的配置文件位于 /data/yunva/hadoop-2.7.3 中，伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式，每个配置以声明 property 的 name 和 value 的方式来实现。

③配置完成后，执行 NameNode 的格式化:

./bin/hdfs namenode -format

成功的话，会看到 “successfully formatted” 和 “Exitting with status 0” 的提示，若为 “Exitting with status 1” 则是出错。

④接着开启 NaneNode 和 DataNode 守护进程：

./sbin/start-dfs.sh

若出现如下 SSH 的提示 “Are you sure you want to continue connecting”，输入 yes 即可

报错：

# ./sbin/start-dfs.sh

17/03/21 15:36:00 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

Starting namenodes on [localhost]

localhost: Error: JAVA_HOME is not set and could not be found.

解决办法：

hadoop-env.sh 和 yarn-env.sh 添加如下变量

# egrep -v "#|^$" hadoop-env.sh

export JAVA_HOME=/usr/java/jdk1.8.0_111

export HADOOP_SSH_OPTS="-p 2222" # ssh端口非默认22端口

export HADOOP_HOME=/data/yunva/hadoop-2.7.3

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib:$HADOOP_COMMON_LIB_NATIVE_DIR"

# egrep -v "#|^$" yarn-env.sh

export JAVA_HOME=/usr/java/jdk1.8.0_111

export HADOOP_HOME=/data/yunva/hadoop-2.7.3

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib:$HADOOP_COMMON_LIB_NATIVE_DIR"

成功启动后，可以访问 Web 界面 http://ip:50070 查看 NameNode 和 Datanode 信息，还可以在线查看 HDFS 中的文件。

4.运行Hadoop伪分布式实例

上面的单机模式，grep 例子读取的是本地数据，伪分布式读取的则是 HDFS 上的数据。要使用 HDFS，首先需要在 HDFS 中创建用户目录：

./bin/hdfs dfs -mkdir -p /user/admin

接着将 ./etc/hadoop 中的 xml 文件作为输入文件复制到分布式文件系统中，即将 /usr/local/hadoop/etc/hadoop 复制到分布式文件系统中的 /user/admin/input 中。我们使用的是 admin 用户，并且已创建相应的用户目录 /user/admin ，因此在命令中就可以使用相对路径如 input，其对应的绝对路径就是 /user/admin/input:

./bin/hdfs dfs -mkdir /user/admin/input

./bin/hdfs dfs -put ./etc/hadoop/*.xml /user/admin/input

复制完成后，可以通过如下命令查看 HDFS 中的文件列表：

# bin/hdfs dfs -ls /user/admin/input

Found 8 items

-rw-r--r-- 1 root supergroup 4436 2017-03-21 15:58 /user/admin/input/capacity-scheduler.xml

-rw-r--r-- 1 root supergroup 1082 2017-03-21 15:58 /user/admin/input/core-site.xml

-rw-r--r-- 1 root supergroup 9683 2017-03-21 15:58 /user/admin/input/hadoop-policy.xml

-rw-r--r-- 1 root supergroup 1180 2017-03-21 15:58 /user/admin/input/hdfs-site.xml

-rw-r--r-- 1 root supergroup 620 2017-03-21 15:58 /user/admin/input/httpfs-site.xml

-rw-r--r-- 1 root supergroup 3518 2017-03-21 15:58 /user/admin/input/kms-acls.xml

-rw-r--r-- 1 root supergroup 5511 2017-03-21 15:58 /user/admin/input/kms-site.xml

-rw-r--r-- 1 root supergroup 690 2017-03-21 15:58 /user/admin/input/yarn-site.xml

若要关闭 Hadoop，则运行

./sbin/stop-dfs.sh

注意

下次启动 hadoop 时，无需进行 NameNode 的初始化，只需要运行 ./sbin/start-dfs.sh 就可以！

启动YARN

（伪分布式不启动 YARN 也可以，一般不会影响程序执行）

有的读者可能会疑惑，怎么启动 Hadoop 后，见不到书上所说的 JobTracker 和 TaskTracker，这是因为新版的 Hadoop 使用了新的 MapReduce 框架（MapReduce V2，也称为 YARN，Yet Another Resource Negotiator）。

YARN 是从 MapReduce 中分离出来的，负责资源管理与任务调度。YARN 运行于 MapReduce 之上，提供了高可用性、高扩展性，YARN 的更多介绍在此不展开，有兴趣的可查阅相关资料。

上述通过 ./sbin/start-dfs.sh 启动 Hadoop，仅仅是启动了 MapReduce 环境，我们可以启动 YARN ，让 YARN 来负责资源管理与任务调度。

首先修改配置文件 mapred-site.xml，这边需要先进行重命名：

mv mapred-site.xml.template mapred-site.xml

进行编辑

<configuration>

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

</configuration>

接着修改配置文件 yarn-site.xml：

<configuration>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

然后就可以启动 YARN 了（需要先执行过 ./sbin/start-dfs.sh）：

./sbin/start-yarn.sh $ 启动YARN

./sbin/mr-jobhistory-daemon.sh start historyserver # 开启历史服务器，才能在Web中查看任务运行情况

http://1.1.1.1:8088/cluster

执行jps报错：

最近hadoop系统在升级后发现一个诡异的问题: jps命令返回的都是process information unavailable, jstack, jmap等所有使用attach api的命令都有类似问题.

# jps

8848 -- process information unavailable

8395 -- process information unavailable

8748 -- process information unavailable

8270 -- process information unavailable

解决方法：

# chmod 755 -R /tmp

网上资料

以为是Jps有问题, 查看Jps源代码, 得知使用 jps -J-Djps.debug=true -J-Djps.printStackTrace=true 可以获得Jps错误详细信息, 如下:

16373 -- process information unavailable

Could not attach to 16373

sun.jvmstat.monitor.MonitorException: Could not attach to 16373

at sun.jvmstat.perfdata.monitor.protocol.local.PerfDataBuffer.<init>(PerfDataBuffer.Java:91)

at sun.jvmstat.perfdata.monitor.protocol.local.LocalMonitoredVm.<init>(LocalMonitoredVm.java:68)

at sun.jvmstat.perfdata.monitor.protocol.local.MonitoredHostProvider.getMonitoredVm(MonitoredHostProvider.java:77)

at sun.tools.jps.Jps.main(Jps.java:92)

Caused by: java.io.IOException: Operation not permitted

at sun.misc.Perf.attach(Native Method)

at sun.misc.Perf.attachImpl(Perf.java:270)

at sun.misc.Perf.attach(Perf.java:200)

at sun.jvmstat.perfdata.monitor.protocol.local.PerfDataBuffer.<init>(PerfDataBuffer.java:64)

... 3 more

static bool is_directory_secure(const char* path) {

struct stat statbuf;

int result = 0;



RESTARTABLE(::lstat(path, &statbuf), result);

if (result == OS_ERR) {

return false;

}



// the path exists, now check it's mode

if (S_ISLNK(statbuf.st_mode) || !S_ISDIR(statbuf.st_mode)) {

// the path represents a link or some non-directory file type,

// which is not what we expected. declare it insecure.

//

return false;

}

else {

// we have an existing directory, check if the permissions are safe.

//

if ((statbuf.st_mode & (S_IWGRP|S_IWOTH)) != 0) {

// the directory is open for writing and could be subjected

// to a symlnk attack. declare it insecure.

//

return false;

}

}

return true;

}

确定问题是权限问题, 可抛出异常的却是native code.无奈只有下载openjdk源代码(native code部分在src.zip的jdk类库中没有源代码), 在@RednaxelaFX 的帮助下,找到了罪魁祸首:

hotspot/src/os/Linux/vm/perfMemory_linux.cpp

[root@ha01 ~]# chmod 755 -R /tmp

原来目录权限是S_IWGRP | S_IWOTH都会有问题.查看/tmp/hsperfdata_mapred发现权限被人修改成了777. 修改回755后, 问题解决.

最后,交代一下关于jps的基础知识, jps, jstack等都是通过/tmp/hsperfdata_${user_name} 来确定正在运行的java进程pid等信息. 如果启动java进程时使用-Djava.io.tmpdir 后, jps等可能会由于找不到对应的数据而有问题. 这次遇到的是该目录的权限问题.

centos6.8系统安装 Hadoop 2.7.3伪分布式集群的更多相关文章

Hadoop伪分布式集群环境搭建
本教程讲述在单机环境下搭建Hadoop伪分布式集群环境,帮助初学者方便学习Hadoop相关知识. 首先安装Hadoop之前需要准备安装环境. 安装Centos6.5(64位).(操作系统再次不做过多描 ...
hadoop搭建伪分布式集群（centos7+hadoop-3.1.0/2.7.7）
目录: Hadoop三种安装模式搭建伪分布式集群准备条件第一部分安装前部署 1.查看虚拟机版本2.查看IP地址3.修改主机名为hadoop4.修改 /etc/hosts5.关闭防火墙6.关闭SE ...
Hadoop伪分布式集群
一.HDFS伪分布式环境搭建 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统.它和现有的分布式文件系统有很多共同点.但同时, ...
hadoop伪分布式集群的搭建
集群配置: jdk1.8.0_161 hadoop-2.6.1 linux系统环境:Centos6.5 创建普通用户 dummy 设置静态IP地址 Hadoop伪分布式集群搭建: 为普通用户添加su ...
hadoop伪分布式集群搭建与安装（ubuntu系统）
1:Vmware虚拟软件里面安装好Ubuntu操作系统之后使用ifconfig命令查看一下ip; 2:使用Xsheel软件远程链接自己的虚拟机,方便操作.输入自己ubuntu操作系统的账号密码之后就链 ...
hadoop（二）搭建伪分布式集群
前言前面只是大概介绍了一下Hadoop,现在就开始搭建集群了.我们下尝试一下搭建一个最简单的集群.之后为什么要这样搭建会慢慢的分享,先要看一下效果吧! 一.Hadoop的三种运行模式(启动模式) 1 ...
Hadoop学习---CentOS中hadoop伪分布式集群安装
注意:此次搭建是在ssh无密码配置.jdk环境已经配置好的情况下进行的可以参考: Hadoop完全分布式安装教程 CentOS环境下搭建hadoop伪分布式集群 1.更改主机名执行命令:vi / ...
Hadoop单机/伪分布式集群搭建（新手向）
此文已由作者朱笑笑授权网易云社区发布. 欢迎访问网易云社区,了解更多网易技术产品运营经验. 本文主要参照官网的安装步骤实现了Hadoop伪分布式集群的搭建,希望能够为初识Hadoop的小伙伴带来借鉴意 ...
基于Hadoop伪分布式集群搭建Spark
一.前置安装 1)JDK 2)Hadoop伪分布式集群二.Scala安装 1)解压Scala安装包 2)环境变量 SCALA_HOME = C:\ProgramData\scala-2.10.6 P ...

随机推荐

调用Microsoft.Office.Interop.Word生成自定义Word文档
具体思路: 1.先制作Word模版,使用文本框+书签的方式来设计模版: 2.模版制作完之后,根据模版生成新文件,使用File.Copy方法,生成.doc格式新文件: 3.后台取得数据,参照网页渲染的方 ...
Some Interesting Problems（持续更新中）
这种题目详解,是“一日一测”与“一句话题解”栏目所无法覆盖的,可能是考试用题,也可能是OJ题目.常常非常经典,可以见微知著.故选其精华,小列如下. T1:fleet 给定一个序列,询问[L,R]间有多 ...
SQL语句中 int 溢出 + Asp语句中 Long 溢出
晚上5点多,同事在QQ告诉我,一个用户向他反应,在他登录的时候显示错误信息,我们在管理平台查看该用户的基本信息时,也显示错误信息. 经过初步分析,原来是在执行 SQL语句的时候发生Int溢出: sql ...
css3硬件加速
你知道我们可以在浏览器中用css开启硬件加速,使GPU (Graphics Processing Unit) 发挥功能,从而提升性能吗? 现在大多数电脑的显卡都支持硬件加速.鉴于此,我们可以发挥GPU ...
pow log 与 (int)
1.不能用%d输出double类型的数 double a1=5.3; double a2=1234.1234; double a3=3412341.12341234; double b1=1.5; d ...
在VS2010中使用Git【图文】转
在之前的一片博客<Windows 下使用Git管理Github项目>中简单介绍了在Windows环境中使用Git管理Github项目,但是是使用命令行来进行操作的,本文将简单介绍下在VS2 ...
CF786B Legacy && 线段树优化连边
线段树优化连边要求点 $x$ 向区间 $[L, R]$ 连边, 一次的复杂度上限为 $O(n)$ 然后弄成线段树的结构先父子连边边权为 $0$ 这样连边就只需要连父亲就可以等效于连 ...
linux 出现ping,错误提示：connect :network is unreachable
今天克隆Centos7后修改IP地址修改前: IP:172.16.0.198 默认网关:172.16.0.254 修改后: IP:172.16.1.100 默认网关:172.16.0.25 ...
Dapper总结（一）---基本CRUD操作
一.dapper是什么 dapper是一款轻量级的ORM(Object Relationship Mapper),它负责数据库和编程语言之间的映射.SqlConnection,MysqlConnect ...
git常用命令及含义
Git和SVN是我们最常用的版本控制系(Version Control System, VCS),当然,除了这二者之外还有许多其他的VCS,例如早期的CVS等.顾名思义,版本控制系统主要就是控制.协调 ...

centos6.8系统安装 Hadoop 2.7.3伪分布式集群