搭建大数据开发环境-Hadoop篇

前期准备

操作系统

hadoop目前对linux操作系统支持是最好的，可以部署2000个节点的服务器集群；在hadoop2.2以后，开始支持windows操作系统，但是兼容性没有linux好。因此，建议在MAC OS或者linux(CentOS或者Unbuntu)操作系统上安装。

安装java

hadoop2.6以前的版本，需要jdk1.6以上的版本；从hadoop2.7开始，则需要jdk1.7以上的版本。

我们可以使用jdk1.8，下载地址

对于linux操作系统用户

下载jdk-8u161-linux-x64.tar.gz压缩包文件，进行解压。

tar zxvf jdk-8u161-linux-x64.tar.gz -C /opt

接着就需要配置环境变量

编辑环境变量文件，添加如下代码

$ vim /etc/profile

export JAVA_HOME=/opt/jdk1.8.0_161

export PATH=$PATH:$JAVA_HOME/bin

对于MacOS操作系统用户

直接安装jdk-8u161-macosx-x64.dmg文件

接着就需要配置环境变量

编辑环境变量文件，添加如下代码

$ vim /etc/profile

export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_161.jdk/Contents/Home

export PATH=$PATH:$JAVA_HOME/bin

检查java是否安装成功

$ java -version

输入上面的命令后，会输出java的基本信息

安装Hadoop

hadoop的安装方式有三种，本地模式、伪分布模式和完全分布模式。三种模式安装步骤有少许区别，本文介绍伪分布模式，也是开发环境最常用的方式。

通过官方网站下载hadoop版本，建议安装2.6版本，此版本相对更稳定，也是使用最为广泛的版本。

解压hadoop-2.6.0.tar.gz压缩包

$ tar zxvf hadoop-2.6.0.tar.gz -C /opt

配置环境变量

$vim /etc/profile

export HADOOP_HOME=/opt/hadoop-2.6.0

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

hadoop配置文件

/opt/hadoop-2.6.0/hadoop-env.sh:

export JAVA_HOME=使用你上面配置的java_home路径

export HADOOP_OPTS=-Djava.net.preferIPv4Stack=true

/opt/hadoop-2.6.0/core-site.xml:

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

<name>hadoop.tmp.dir</name>

<value>/opt/hadoop-2.6.0/tmp</value>

</property>

<name>fs.trash.interval</name>

</property>

/opt/hadoop-2.6.0/hdfs-site.xml:

<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>

/opt/hadoop-2.6.0/mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

</configuration>

/opt/hadoop-2.6.0/yarn-site.xml

<name>yarn.log-aggregation-enable</name>

</property>

<name>yarn.log.server.url</name>

<value>http://localhost:19888/jobhistory/job/</value>

</property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage</name>

</property>

</configuration>

SSH免密码登录

检查一下，是否可以对本地进行免密码登录

$ ssh localhost

如果你在ssh本地时，需要输入密码，那么按以下步骤，配置免密码登录

$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys $ chmod 0600 ~/.ssh/authorized_keys

格式化hdfs目录

$ hdfs namenode -format

该命令执行后，只会格式化你的/opt/hadoop-2.6.0/tmp目录

启动HDFS

$ start-dfs.sh

启动hdfs后，会生成日志文件，在$HADOOP_HOME/logs目录下

如果启动成功，你可以通过浏览器打开http://localhost:50070/，查看hdfs的相关信息

如果你想停止hdfs，请输入以下命令

$ stop-dfs.sh

启动yarn

$ start-yarn.sh

启动yarn后，会生成日志文件，在$HADOOP_HOME/logs目录下

如果启动成功，你可以通过浏览器打开http://localhost:8088/，查看yarn的相关信息

如果你想停止yarn，请输入以下命令

$ stop-yarn.sh

启动JobHistory

$ mr-jobhistory-daemon.sh start historyserver

启动JobHistory后，会生成日志文件，在$HADOOP_HOME/logs目录下

如果启动成功，你可以通过浏览器打开http://localhost:19888/，查看jobhistory的相关信息

如果你想停止JobHistory，请输入以下命令

$ mr-jobhistory-daemon.sh stop historyserver

测试hadoop

成功安装完hadoop后，我们可以通过一些命令来感受一下hadoop

创建目录

$ hdfs dfs -mkdir /tmp/input

上传本地文件到hdfs $ hdfs dfs -put $HADOOP_HOME/etc/hadoop/*.xml /tmp/input

使用MapReduce来计算我们刚才上传文件的以dfs开头的单词个数

$ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep /tmp/input /tmp/output 'dfs[a-z.]+'

查看MapReduce的结果

可以把hdfs上的结果文件下载到本地后查看

$ hdfs dfs -get /tmp/output output $ cat output/*

也可以通过hdfs查看命令直接查看

$ hdfs dfs -cat /tmp/output/part-r-00000

通过查询http://localhost:8088/，你会发现刚才执行MapReduce任务的历史记录

搭建大数据开发环境-Hadoop篇的更多相关文章

windows下大数据开发环境搭建（2）——Hadoop环境搭建
一.所需环境 ·Java 8 二.Hadoop下载 http://hadoop.apache.org/releases.html 三.配置环境变量 HADOOP_HOME: C:\hadoop- Pa ...
windows下大数据开发环境搭建（4）——Spark环境搭建
一.所需环境 · Java 8 · Python 2.6+ · Scala · Hadoop 2.7+ 二.Spark下载与解压 http://spark.apache.org/downloads.h ...
windows下大数据开发环境搭建（1）——Java环境搭建
一.Java 8下载 https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 下载之后 ...
windows下大数据开发环境搭建（3）——Scala环境搭建
一.所需环境 ·Java 8 二.下载Scala https://www.scala-lang.org/download/ 三.配置环境变量 SCALA_HOME: C:\scala Path: ...
大数据开发，Hadoop Spark太重？你试试esProc SPL
摘要:由于目标和现实的错位,对很多用户来讲,Hadoop成了一个在技术.应用和成本上都很沉重的产品. 本文分享自华为云社区<Hadoop Spark太重,esProc SPL很轻>,作者: ...
搭建Hadoop+Python的大数据开发环境
实验环境 CentOS镜像为CentOS-7-x86_64-Everything-1804.iso 虚机配置节点名称 IP地址子网掩码 CPU/内存磁盘安装方式 master 192.168. ...
windows下大数据开发环境搭建（1）——Hadoop环境搭建
所需环境 jdk 8 Hadoop下载 http://hadoop.apache.org/releases.html 配置环境变量 HADOOP_HOME: C:\hadoop-2.7.7 Path: ...
小白入门AI教程：教你快速搭建大数据平台『Hadoop+Spark』
Apache Spark 简介 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎.Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源 ...
Eclipse和PyDev搭建完美Python开发环境 Windows篇
1,安装Python Python是一个跨平台语言,Python从3.0的版本的语法很多不兼容2版本,官网找到最新的版本并下载:http://www.python.org, 因为之前的一个项目是2版本 ...

随机推荐

input的onchange 和oninput事件
一个小的功能,也体现了了这几天写程序过程中的遇到的一些常发事件,准备有时间研究一下jQuery和原生js,问题的出现:使用jQuery获取到的节点到底是属于什么,有些事件居然不能用,就如我今天用到的 ...
Spring自定义属性编辑器及原理解释.md
bean的自动装配解释手动解决方式自动注入解决方式 bean的自动装配解释之前有构造注入和设值注入,但是也是手动的 autowire ="byname" 这里要注意自动装配的 ...
net core WebApi——文件分片下载
目录前言开始测试小结 @ 前言上一篇net core WebApi--文件分片上传与跨域请求处理介绍完文件的上传操作,本来是打算紧接着写文件下载,中间让形形色色的事给耽误的,今天还是抽个空整 ...
cookies和sessionstorage和localstorage区别
相同点:客户端都会存储不同点不同点存储大小有效时间数据与服务器交互方式 cookies <=4K 在设置cookie过期之前一直有效(无论窗口浏览器是否关闭) 正常情况下,cookie ...
Codeforces 936B
题意略. 思路: 图论里掺杂了一些动态规划. 有几个注意点: 1.dp时状态的设计:因为我们要寻求的是出度为0并且可以从起点走奇数步抵达的点,由于同一个点可以通过多种方式到达. 并且我们在获得奇数步点 ...
HDU 5135
题意略. 思路: 本题开始我先写了一发dfs暴力,然而递归程度太深,导致爆栈.仔细回想一下dfs的过程,发现最不好处理的就是每收集到3个木棍,才能构成一个三角形. 并且,还有一个隐患就是不能完全枚举出 ...
Leetcode之回溯法专题-40. 组合总和 II（Combination Sum II）
Leetcode之回溯法专题-40. 组合总和 II(Combination Sum II) 给定一个数组 candidates 和一个目标数 target ,找出 candidates 中所有可以使 ...
第8章浏览器对象模型BOM 8.1 window对象
ECMAScript是javascript的核心,但如果要在web中使用javascript,那么BOM(浏览器对象模型)则无疑是真正的核心.BOM提供了很多对象,用于访问浏览器的功能,在浏览器之间共 ...
UVA - 10462-Is There A Second Way Left? Kruskal求次小生成树
UVA - 10462 题意: 求次小生成树的模板题,这道题因为有重边的存在,所以用kruskal求比较好. #include <iostream> #include <cstdio ...
2018中国大学生程序设计竞赛 - 网络选拔赛 hdu6438 Buy and Resell 买入卖出问题贪心
Buy and Resell Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others)To ...

搭建大数据开发环境-Hadoop篇

搭建大数据开发环境-Hadoop篇的更多相关文章

随机推荐

热门专题