Hadoop 3.1.0 在 Ubuntu 16.04 上的安装过程
安装过程主要参考官方文档:
http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html
目标:
Set up and configure a single-node Hadoop installation so that you can quickly perform simple operations using Hadoop MapReduce and the Hadoop Distributed File System (HDFS).
部署安装一个单节点的 Hadoop ,以便使用 Hadoop MapReduce、HDFS 完成一些简单操作。
软件准备:
Ubuntu 16.04
这里使用 VMware 搭建 Ubuntu 16.04 的虚拟机系统
Hadoop 3.1.0
Hadoop 安装包下载镜像站:Apache Download Mirrors
这里下载的版本是: hadoop-3.1.0.tar.gz
解压下载的 Hadoop 压缩包:
$ tar -zxvf hadoop-3.0..tar.gz
Openjdk 8.0
Version 2.7 and later of Apache Hadoop requires Java 7. It is built and tested on both OpenJDK and Oracle (HotSpot)'s JDK/JRE.
Earlier versions (2.6 and earlier) support Java 6.
Here are the known JDKs in use or which have been tested:
Version
Status
Reported By
oracle 1.7.0_15
Good
Cloudera
oracle 1.7.0_21
Good (4)
Hortonworks
oracle 1.7.0_45
Good
Pivotal
openjdk 1.7.0_09-icedtea
Good (5)
Hortonworks
oracle 1.6.0_16
Avoid (1)
Cloudera
oracle 1.6.0_18
Avoid
Many
oracle 1.6.0_19
Avoid
Many
oracle 1.6.0_20
Good (2)
LinkedIn, Cloudera
oracle 1.6.0_21
Good (2)
Yahoo!, Cloudera
oracle 1.6.0_24
Good
Cloudera
oracle 1.6.0_26
Good(2)
Hortonworks, Cloudera
oracle 1.6.0_28
Good
LinkedIn
oracle 1.6.0_31
Good(3, 4)
Cloudera, Hortonworks
$ sudo apt upgrade
$ sudo apt install openjdk-8-jre openjdk-8-jdk
JAVA 可以使用 Oracle 的JDK 或者直接安装 OpenJDK,这里安装的是 OpenJDK 8。
可以使用 java -version 来查看 java 版本。
安装 java 之后编辑 /etc/profile ,配置 Java、Hadoop 环境变量:
$ sudo vi /etc/profile
# set oracle jdk 、hadoop environment
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64
export HADOOP_HOME=/home/wu/hadoop-3.1.0
$ source /etc/profile
使用以下命令检查环境值:
$ echo $JAVA_HOME
/usr/lib/jvm/java-1.8.-openjdk-amd64 $ echo $HADOOP_HOME
/home/wu/hadoop-3.1.
ssh
$ sudo apt install ssh
安装过程:
Prepare to Start the Hadoop Cluster
在 hadoop 安装目录下,编辑 etc/hadoop/hadoop-env.sh 文件:
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64
可以测试一下 hadoop:
$ bin/hadoop
或者:
$ bin/hadoop version
Hadoop 3.1.
Source code repository https://github.com/apache/hadoop -r 16b70619a24cdcf5d3b0fcf4b58ca77238ccbe6d
Compiled by centos on --30T00:00Z
Compiled with protoc 2.5.
From source with checksum 14182d20c972b3e2105580a1ad6990
This command was run using /home/wu/hadoop-3.1./share/hadoop/common/hadoop-common-3.1..jar
启动 Hadoop
启动hadoop集群有三种模式:
- 本地(独立)模式,Local (Standalone) Mode
- 伪分布式模式,Pseudo-Distributed Mode
- 完全分布式模式、Fully-Distributed Mode
1、针对本地模式 Standalone Operation :
By default, Hadoop is configured to run in a non-distributed mode, as a single Java process. This is useful for debugging.
The following example copies the unpacked conf directory to use as input and then finds and displays every match of the given regular expression. Output is written to the given output directory.
可以使用下面的一个例子简单使用 hadoop :
$ mkdir input
$ cp etc/hadoop/*.xml input
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.1.jar grep input output 'dfs[a-z.]+'
$ cat output/*
2、针对伪分布式模式 Pseudo-Distributed Mode :
Hadoop can also be run on a single-node in a pseudo-distributed mode where each Hadoop daemon runs in a separate Java process.
配置环境:
$ sudo vi etc/hadoop/core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
$ sudo vi etc/hadoop/hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
设置 SSH 免密码登陆(Setup passphraseless ssh):
先测试是否能免密码登陆(Now check that you can ssh to the localhost without a passphrase):
$ ssh localhost
如果需要密码才能登陆,则执行下面的命令(If you cannot ssh to localhost without a passphrase, execute the following commands):
$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod ~/.ssh/authorized_keys
执行(Execution):
The following instructions are to run a MapReduce job locally.
格式化文件系统:
$ bin/hdfs namenode -format
启动 namenode、datanode 守护进程:
$ sbin/start-dfs.sh
Starting namenodes on [localhost]
Starting datanodes
Starting secondary namenodes [ubuntu]
The hadoop daemon log output is written to the $HADOOP_LOG_DIR directory (defaults to $HADOOP_HOME/logs).
此时可以访问namenode的web服务:http://localhost:9870/,查看namenode健康状况,可以观察到有一个存活的datanode节点。
执行mapreduce任务
# 在分布式文件系统中创建用户目录
$ bin/hdfs dfs -mkdir /user
$ bin/hdfs dfs -mkdir /user/root # 拷贝数据到分布式文件系统中
$ bin/hdfs dfs -mkdir -p input
$ bin/hdfs dfs -put etc/hadoop/*.xml input # 运行hadoop提供的mapreduce任务
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.0.jar grep /input output 'dfs[a-z.]+' # 拷贝任务执行结果到本地文件系统中
$ sudo bin/hdfs dfs -mkdir -p output
$ bin/hdfs dfs -get output output
$ cat output/*
# 或直接从分布式文件系统中查看计算结果
# $ bin/hdfs dfs -cat output/*
最后,结束守护进程:
$ sbin/stop-dfs.sh
Hadoop 3.1.0 在 Ubuntu 16.04 上的安装过程的更多相关文章
- Hadoop 3.1.0 在 Ubuntu 16.04 上安装时遇到的问题
1.Hadoop 安装 pdsh localhost: Connection refused Hadoop安装过程中使用 $ sbin/start-dfs.sh 启动节点时,发生错误提示: pdsh@ ...
- Ubuntu 16.04上anaconda安装和使用教程,安装jupyter扩展等 | anaconda tutorial on ubuntu 16.04
本文首发于个人博客https://kezunlin.me/post/23014ca5/,欢迎阅读最新内容! anaconda tutorial on ubuntu 16.04 Guide versio ...
- Ubuntu 16.04 Server 版安装过程图文详解
进入系统安装的第一个界面,开始系统的安装操作.每一步的操作,左下角都会提示操作方式!! 1.选择系统语言-English 2.选择操作-Install Ubuntu Server 3.选择安装过程和系 ...
- 在Ubuntu 16.04 上编译安装OpenCV3.2.0(Cmake + python3 + OpenCV3)(转)
1 安装CMAKE sudo apt-get install cmake 2 安装python及其所依赖的软件包 sudo apt-get install build-essential sudo a ...
- Ubuntu 16.04 LTS 降级安装GCC 4.8
转载自https://www.linuxidc.com/Linux/2017-03/142299.htm Ubuntu 16.04 LTS 降级安装GCC 4.8 [日期:2017-03-28] 来源 ...
- Ubuntu 16.04系统下安装Discuz出现“HTTP ERROR 500”目前无法处理此请求
问题:当我们在Ubuntu 16.04系统下安装Disucz X3时,修改好文件的权限,浏览器输入地址安装时出现如下图所示问题: 问题查询: 在终端输入: tail -f /var/log/apach ...
- Ubuntu 16.04.2 LTS 安装 jdk1.6 和 tomcat6 (一)
java和tomcat环境配置已经有很多教程和文章,最近项目需要配置Ubuntu 16.04.2下的古老的java6和tomcat 6,遇到小坑,特记录和分享. 网上的教程不是太新,就是太老,还有一些 ...
- [eShopOnContainers 学习系列] - 03 - 在远程 Ubuntu 16.04 上配置开发环境
直接把 md 粘出来了,博客园的富文本编辑器换成 markdown,没啥效果呀 ,先凑合吧.实在不行换地方 # 在远程 Ubuntu 16.04 上配置开发环境 ## 零.因 为什么要用这么麻烦的 ...
- Ubuntu 16.04下编译安装Apache2.4和PHP7结合
Ubuntu 16.04下编译安装Apache2.4和PHP7结合,并安装PDOmysql扩展. 1.编译安装apache2.4.20 1 第一步: ./configure --prefix=/usr ...
随机推荐
- MS SQL生成数据库字典脚本
开发一个项目时都会有一个蛋疼的问题——写数据库需求文档,然后根据这个文档来建数据库,如果后来需求改了,要改数据库还要改文档,有时忙着忙着就忘改了,导致文档是过期的.那么我们自己写个脚本在数据库运行直接 ...
- 快速WCF
初级原理:通得过地址调用接口服务,接口服务调用对应实现方法 援引文章地址:http://www.cnblogs.com/iamlilinfeng/archive/2012/09/25/2700049. ...
- Luogu P4609 [FJOI2016]建筑师&&CF 960G Bandit Blues
考虑转化题意,我们发现其实就是找一个长度为\(n\)的全排列,使得这个排列有\(A\)个前缀最大值,\(B\)个后缀最大值,求方案数 我们考虑把最大值拎出来单独考虑,同时定义一些数的顺序排列为单调块( ...
- Web项目之Django实战问题剖析
基于AdminLTE-master模板的后台管理系统 左侧菜单栏的二级标签设计 面包屑 Django文件上传 后台管理系统CRM项目设计流程分析
- GYM 101604 || 20181010
看着前面咕咕咕的国庆集训 难受 十月十日要萌一天哇www A.字符串 题意:给定一个字符串 问能否交换两个字符或者不交换字符,使其成为回文串 之前写的太丑 重写一遍加一堆 if 竟然过了w 思路:求出 ...
- Java中的线程--线程的互斥与同步通信
Java中的线程之前也提到过,但是还是想再详细的学习一下,跟着张孝祥老师,系统的再学习一下. 一.线程中的互斥 线程安全中的问题解释:线程安全问题可以用银行中的转账 例题描述: 线程A与线程B分别访问 ...
- h5快速制作工具-企业级. 非个人无水印
Epub360 Epub是团队引入的专业级H5应用开发工具,能够快速制作出高质量的H5运营交互页面,具有动画控制.交互设定.社交应用和数据应用的特点,其制作过程就类似于制作一个PPT,比较容易上手. ...
- 第九次第十次作业 网页设计HTML语言之mp3 与mp4音频与视频两次作业,功能在一起也可
参考的网址是: MP3 参考http://www.cnblogs.com/qingyundian/p/7831098.html MP4参考 http://www.cnblogs.com/qingyun ...
- js中的跨域方法总结
什么是跨域? 浏览器的安全策略,只要协议,域名,端口有任何一个不同,就被当做不同的域. 下面对http://www.qichedaquan.com的同源检测 http://www.qichedaqua ...
- 转: opencv4.0.0 +opencv_contrib在vs2015中编译
https://blog.csdn.net/baidu_40691432/article/details/84957737