搭建大数据开发环境-Hadoop篇

前期准备

操作系统

hadoop目前对linux操作系统支持是最好的，可以部署2000个节点的服务器集群；在hadoop2.2以后，开始支持windows操作系统，但是兼容性没有linux好。因此，建议在MAC OS或者linux(CentOS或者Unbuntu)操作系统上安装。

安装java

hadoop2.6以前的版本，需要jdk1.6以上的版本；从hadoop2.7开始，则需要jdk1.7以上的版本。

我们可以使用jdk1.8，下载地址

对于linux操作系统用户

下载jdk-8u161-linux-x64.tar.gz压缩包文件，进行解压。

tar zxvf jdk-8u161-linux-x64.tar.gz -C /opt

接着就需要配置环境变量

编辑环境变量文件，添加如下代码

$ vim /etc/profile

export JAVA_HOME=/opt/jdk1.8.0_161

export PATH=$PATH:$JAVA_HOME/bin

对于MacOS操作系统用户

直接安装jdk-8u161-macosx-x64.dmg文件

接着就需要配置环境变量

编辑环境变量文件，添加如下代码

$ vim /etc/profile

export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_161.jdk/Contents/Home

export PATH=$PATH:$JAVA_HOME/bin

检查java是否安装成功

$ java -version

输入上面的命令后，会输出java的基本信息

安装Hadoop

hadoop的安装方式有三种，本地模式、伪分布模式和完全分布模式。三种模式安装步骤有少许区别，本文介绍伪分布模式，也是开发环境最常用的方式。

通过官方网站下载hadoop版本，建议安装2.6版本，此版本相对更稳定，也是使用最为广泛的版本。

解压hadoop-2.6.0.tar.gz压缩包

$ tar zxvf hadoop-2.6.0.tar.gz -C /opt

配置环境变量

$vim /etc/profile

export HADOOP_HOME=/opt/hadoop-2.6.0

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

hadoop配置文件

/opt/hadoop-2.6.0/hadoop-env.sh:

export JAVA_HOME=使用你上面配置的java_home路径

export HADOOP_OPTS=-Djava.net.preferIPv4Stack=true

/opt/hadoop-2.6.0/core-site.xml:

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

<name>hadoop.tmp.dir</name>

<value>/opt/hadoop-2.6.0/tmp</value>

</property>

<name>fs.trash.interval</name>

</property>

/opt/hadoop-2.6.0/hdfs-site.xml:

<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>

/opt/hadoop-2.6.0/mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

</configuration>

/opt/hadoop-2.6.0/yarn-site.xml

<name>yarn.log-aggregation-enable</name>

</property>

<name>yarn.log.server.url</name>

<value>http://localhost:19888/jobhistory/job/</value>

</property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage</name>

</property>

</configuration>

SSH免密码登录

检查一下，是否可以对本地进行免密码登录

$ ssh localhost

如果你在ssh本地时，需要输入密码，那么按以下步骤，配置免密码登录

$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys $ chmod 0600 ~/.ssh/authorized_keys

格式化hdfs目录

$ hdfs namenode -format

该命令执行后，只会格式化你的/opt/hadoop-2.6.0/tmp目录

启动HDFS

$ start-dfs.sh

启动hdfs后，会生成日志文件，在$HADOOP_HOME/logs目录下

如果启动成功，你可以通过浏览器打开http://localhost:50070/，查看hdfs的相关信息

如果你想停止hdfs，请输入以下命令

$ stop-dfs.sh

启动yarn

$ start-yarn.sh

启动yarn后，会生成日志文件，在$HADOOP_HOME/logs目录下

如果启动成功，你可以通过浏览器打开http://localhost:8088/，查看yarn的相关信息

如果你想停止yarn，请输入以下命令

$ stop-yarn.sh

启动JobHistory

$ mr-jobhistory-daemon.sh start historyserver

启动JobHistory后，会生成日志文件，在$HADOOP_HOME/logs目录下

如果启动成功，你可以通过浏览器打开http://localhost:19888/，查看jobhistory的相关信息

如果你想停止JobHistory，请输入以下命令

$ mr-jobhistory-daemon.sh stop historyserver

测试hadoop

成功安装完hadoop后，我们可以通过一些命令来感受一下hadoop

创建目录

$ hdfs dfs -mkdir /tmp/input

上传本地文件到hdfs $ hdfs dfs -put $HADOOP_HOME/etc/hadoop/*.xml /tmp/input

使用MapReduce来计算我们刚才上传文件的以dfs开头的单词个数

$ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep /tmp/input /tmp/output 'dfs[a-z.]+'

查看MapReduce的结果

可以把hdfs上的结果文件下载到本地后查看

$ hdfs dfs -get /tmp/output output $ cat output/*

也可以通过hdfs查看命令直接查看

$ hdfs dfs -cat /tmp/output/part-r-00000

通过查询http://localhost:8088/，你会发现刚才执行MapReduce任务的历史记录

搭建大数据开发环境-Hadoop篇的更多相关文章

windows下大数据开发环境搭建（2）——Hadoop环境搭建
一.所需环境 ·Java 8 二.Hadoop下载 http://hadoop.apache.org/releases.html 三.配置环境变量 HADOOP_HOME: C:\hadoop- Pa ...
windows下大数据开发环境搭建（4）——Spark环境搭建
一.所需环境 · Java 8 · Python 2.6+ · Scala · Hadoop 2.7+ 二.Spark下载与解压 http://spark.apache.org/downloads.h ...
windows下大数据开发环境搭建（1）——Java环境搭建
一.Java 8下载 https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 下载之后 ...
windows下大数据开发环境搭建（3）——Scala环境搭建
一.所需环境 ·Java 8 二.下载Scala https://www.scala-lang.org/download/ 三.配置环境变量 SCALA_HOME: C:\scala Path: ...
大数据开发，Hadoop Spark太重？你试试esProc SPL
摘要:由于目标和现实的错位,对很多用户来讲,Hadoop成了一个在技术.应用和成本上都很沉重的产品. 本文分享自华为云社区<Hadoop Spark太重,esProc SPL很轻>,作者: ...
搭建Hadoop+Python的大数据开发环境
实验环境 CentOS镜像为CentOS-7-x86_64-Everything-1804.iso 虚机配置节点名称 IP地址子网掩码 CPU/内存磁盘安装方式 master 192.168. ...
windows下大数据开发环境搭建（1）——Hadoop环境搭建
所需环境 jdk 8 Hadoop下载 http://hadoop.apache.org/releases.html 配置环境变量 HADOOP_HOME: C:\hadoop-2.7.7 Path: ...
小白入门AI教程：教你快速搭建大数据平台『Hadoop+Spark』
Apache Spark 简介 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎.Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源 ...
Eclipse和PyDev搭建完美Python开发环境 Windows篇
1,安装Python Python是一个跨平台语言,Python从3.0的版本的语法很多不兼容2版本,官网找到最新的版本并下载:http://www.python.org, 因为之前的一个项目是2版本 ...

随机推荐

Leetcode 5. Longest Palindromic Substring(最长回文子串， Manacher算法)
Leetcode 5. Longest Palindromic Substring(最长回文子串, Manacher算法) Given a string s, find the longest pal ...
python 35 多线程
目录多线程 1. 线程 2. 线程vs进程 3. 开启线程的两种方法. 4. 线程的特性 5. 线程的相关方法 6. join 阻塞 7. 守护线程 daemon 8. 互斥锁多线程 1. 线程 ...
计时器（CocosCreator）
推荐阅读: 我的CSDN 我的博客园 QQ群:704621321 在游戏中,经常会涉及到计时的功能,主要是倒计时.倒计时通常用在某项活动距离结束的剩余时间以及距离开始某项活动开始的时 ...
JavaScript String 字符串方法
JavaScript String 字符串方法汇总 1.str.indexOf() 方法查找字符串中的字符串返回字符串中指定文本首次出现的索引(位置) JavaScript ...
在.net core wep项目中使用Session
第1步:添加包引用 Install-Package Microsoft.AspNetCore.Session 第2步:添加代码启用Session 在项目Startup.cs文件的ConfigureSe ...
转载-SpringBoot开发案例之整合日志管理
转载:https://cloud.tencent.com/developer/article/1097579 有一种力量无人能抵挡,它永不言败生来倔强.有一种理想照亮了迷茫,在那写满荣耀的地方. 00 ...
第8章浏览器对象模型BOM 8.2 location对象
location 是最有用的 BOM对象之一,它提供了与当前窗口中加载的文档有关的信息,还提供了一些导航功能.事实上, location 对象是很特别的一个对象,因为它既是 window 对象的属性, ...
洛谷 P1070 道路游戏 DP
P1070 道路游戏题意: 有一个环,环上有n个工厂,每个工厂可以生产价格为x的零钱收割机器人,每个机器人在购买后可以沿着环最多走p条边,一秒走一条,每条边不同时间上出现的金币是不同的,问如何安排购 ...
HDU-6356 Glad You Came 线段树 ST表
HDU-6356 题意:有m次操作,每次操作通过给定的随机函数生成 l , r , v,使得在 l 到 r 区间内,所有的a[i]变为max(a[i] , v). 最后输出n个a[i]* i的异或和. ...
UVALive 7264 Kejin Game 网络流+最小割
Kejin Game 题意:一个人有一颗技能树, 现在它想修练到某个技能 (假设为x), 现在修一个技能有3种方式: 1, 将该技能的前置技能都学完了,才能学该技能. 2, 取消一个技能与另一个技 ...

搭建大数据开发环境-Hadoop篇

搭建大数据开发环境-Hadoop篇的更多相关文章

随机推荐

热门专题