hadoop2.0初识1.1

1.伪分布式hdfs文件系统的搭建（单节点文件系统）

　　1.1.根据上节的讲解，配置主机映射、jdk和解压hadoop压缩包

　　1.2.配置namenode

　　　　在/opt/modules/hadoop-2.5.0/etc/hadoop/core-site.xml中配置一下内容

<property>
        　　　　<name>fs.defaultFS</name>
        　　　　<value>hdfs://life-hadoop.life.com:8020</value>
    　　　</property>

<property>
　　　　　　<name>hadoop.tmp.dir</name>
　　　　　　<value>/opt/modules/hadoop-2.5.0/data/temp</value>
　　　　</property>

　　　　
　　　　<property>
　　　　　　<name>fs.trash.interval</name>
　　　　　　<value>10080</value>
　　　　</property>

　　　　1.2.1.格式化文件系统

　　　　　　[yanglin@life-hadoop hadoop-2.5.0]$ bin/hdfs namenode -format

　　　　1.2.2.运行[yanglin@life-hadoop hadoop-2.5.0]$ sbin/hadoop-daemon.sh start namenode查看是否启动成功

　　　　　或者在浏览器中输入life-hadoop:50070 其中life-hadoop为主机名

　　　1.3.配置secondarynamenode

　　　　　　1.3.1.在/opt/modules/hadoop-2.5.0/etc/hadoop/hdfs-site.xml中配置一下内容

<property>
　　　　　　　　　　<name>dfs.namenode.secondary.http-address</name>
　　　　　　　　　　<value>life-hadoop.life.com:50090</value>
　　　　　　　　</property>

　　　　　　1.3.2.运行[yanglin@life-hadoop hadoop-2.5.0]$ sbin/hadoop-daemon.sh start secondarynamenode

　　　1.4.配置datanode

　　　　1.4.1.在/opt/modules/hadoop-2.5.0/etc/hadoop/hdfs-site.xml中配置一下内容

<property>
　　　　　　　　<name>dfs.replication</name>
　　　　　　　　<value>1</value>
　　　　　　</property>

　　　　1.4.2.在/opt/modules/hadoop-2.5.0/etc/hadoop/salves中配置datanode所在的主机

　　　　1.4.3.运行[yanglin@life-hadoop hadoop-2.5.0]$ sbin/hadoop-daemon.sh start datanode命令启动datanode

2.到此我们的伪分布式文件系统已经配置完成，接下来进行测试

　　2.1.查看当前文件系统的目录

　　　　[yanglin@life-hadoop hadoop-2.5.0]$ bin/hdfs dfs -ls -R /

　　　　或者

　　2.2.创建目录

　　　　创建/user/yanglin/conf目录

　　　　[yanglin@life-hadoop hadoop-2.5.0]$ bin/hdfs dfs -mkdir -p /user/yanglin/conf

　　　　可以通过web浏览器进行验证是否创建成功

　　2.3.上传文件

　　　　将本地的etc/hadoop/*-site.xml文件上传到/user/yanglin/conf目录中

　　　　[yanglin@life-hadoop hadoop-2.5.0]$ bin/hdfs dfs -put etc/hadoop/*-site.xml /user/yanglin/conf

　　2.4.下载文件

　　　　将服务器中的/user/yanglin/conf/core-site.xml下载到当前目录

　　　　[yanglin@life-hadoop hadoop-2.5.0]$ bin/hdfs dfs -get /user/yanglin/conf/core-site.xml

　　2.5.查看指定文件的内容

　　　　查看/user/yanglin/conf/core-site.xml文件的内容

　　　　[yanglin@life-hadoop hadoop-2.5.0]$ bin/hdfs -cat /user/yanglin/conf/core-site.xml

　　2.6.删除指定文件或目录

　　　　删除/user/yanglin/conf/test.txt文件

　　　　[yanglin@life-hadoop hadoop-2.5.0]$ bin/hdfs dfs -rm -r /user/yanglin/conf/test.txt

　　2.7.跟多hdfs命令可以使用[yanglin@life-hadoop hadoop-2.5.0]$ bin/hdfs dfs查看

3.将wrodcount程序运行到hdfs文件系统上

　　3.1.创建目录

　　　　[yanglin@life-hadoop hadoop-2.5.0]$ bin/hdfs -mkdir -p /user/yanglin/mapreduce/wordcount/input/

　　3.2.将测试文件上传到input目录中

　　　　[yanglin@life-hadoop hadoop-2.5.0]$ bin/hdfs -put wcinput/wc.input /user/yanglin/mapreduce/wordcount/input/

　　3.3.运行mapreduce程序将运行结果上传到hdfs文件系统

　　　　[yanglin@life-hadoop hadoop-2.5.0]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /user/yanglin/mapreduce/wordcount/input /user/yanglin/mapreduce/wordcount/output

　　　　查看是否运行成功：

　　　　　　或者通过

　　　　　　　　[yanglin@life-hadoop hadoop-2.5.0]$ bin/hdfs dfs -ls /user/yanglin/mapreduce/wordcount/output

　　　　查看运行结果：

　　　　　　[yanglin@life-hadoop hadoop-2.5.0]$ bin/hdfs dfs -text /user/yanglin/mapreduce/wordcount/output/part*

4.将项目运行到yarn上

　　4.1.配置resourcemanager节点

　　　　4.1.1.在/opt/modules/hadoop-2.5.0/etc/hadoop/yarn-site.xml中配置一下内容

<property>
　　　　　　　　<name>yarn.nodemanager.aux-services</name>
　　　　　　　　<value>mapreduce_shuffle</value>
　　　　　　</property>

　　　　　　
　　　　　　<property>
　　　　　　　　<name>yarn.resourcemanager.hostname</name>
　　　　　　　　<value>life-hadoop.life.com</value>
　　　　　　</property>

　　　　4.1.2.在/opt/modules/hadoop-2.5.0/etc/hadoop/mapred-site.xml中配置一下内容

<property>
        　　　　<name>mapreduce.framework.name</name>
        　　　　<value>yarn</value>
    　　　　</property>

　　4.2.配置nodemanager节点

　　　　和datanode节点配置一样都是在/opt/modules/hadoop-2.5.0/etc/hadoop/salves文件中

　　4.3.启动yarn

　　　　4.3.1.启动resourcemanager节点

　　　　　　[yanglin@life-hadoop hadoop-2.5.0]$ sbin/yarn-daemon.sh start resourcemanager

　　　　4.3.2.启动nodemanager节点

　　　　　　[yanglin@life-hadoop hadoop-2.5.0]$ sbin/yarn-daemon.sh start nodemanager

　　　　　　或者在浏览器中输入life-hadoop:8088

　　　　4.3.3.将wordcount程序运行在yarn上

　　　　　　和3.3一样查看是否运行成功或者

　　　　　　　单点击history是不能显示，是因为没有配置日志聚集功能

5.配置日志聚集

　　在/opt/modules/hadoop-2.5.0/etc/hadoop/yarn-site.xml中配置一下内容

<property>
　　　　<name>yarn.log-aggregation-enable</name>
　　　　<value>true</value>
　　</property>

　　
　　<property>
　　　　<name>yarn.log-aggregation.retain-check-interval-seconds</name>
　　　　<value>604800</value>
　　</property>

　　重启resouremangager和nodemanger重新运行wordcount程序即可

hadoop2.0初识1.1的更多相关文章

hadoop2.0初识1.3
1.配置分布式hadoop 1.1 准备三台测试机(虚拟机就可以) 1.1.1 将life-hadoop虚拟机克隆2个分别为life-hadoop02和life-hadoop03 1.1.2 查看ip ...
hadoop2.0初识1.0
1.给普通用户设置sudo权限编辑:[root@life-hadoop /]# nano /etc/sudoers 在文件头部加入:yanglin ALL=(root)NOPASSWD:ALL 保存 ...
hadoop2.0初识1.2
1 hadoop启动方式(三种) 1.1 各个服务组件逐一启动 *dfs hadoop-daemon.sh start|stop namenode|datanode|secondarynamenode ...
hadoop入门（3）——hadoop2.0理论基础：安装部署方法
一.hadoop2.0安装部署流程 1.自动安装部署:Ambari.Minos(小米).Cloudera Manager(收费) 2.使用RPM包安装部署:Apache ...
Hadoop2.0(HDFS2)以及YARN设计的亮点
YARN总体上仍然是Master/Slave结构,在整个资源管理框架中,ResourceManager为Master,NodeManager为Slave,ResouceManager负责对各个Node ...
hadoop2.0 和1.0的区别
1. Hadoop 1.0中的资源管理方案Hadoop 1.0指的是版本为Apache Hadoop 0.20.x.1.x或者CDH3系列的Hadoop,内核主要由HDFS和MapReduce两个系统 ...
Hadoop2.0重启脚本
Hadoop2.0重启脚本方便重启带ha的集群,写了这个脚本 #/bin/bash sh /opt/zookeeper-3.4.5-cdh4.4.0/bin/zkServer.sh restart ...
ganglia监控hadoop2.0配置方法
ganglia监控hadoop2.0配置方法前提:hadoop2.0集群已安装ganglia监控工具第一步:Hadoop用户登录集群每一个节点,修改文件:vi /opt/hadoop-2.0.0-cd ...
hadoop-2.0.0-mr1-cdh4.2.0源码编译总结
准备编译hadoop-2.0.0-mr1-cdh4.2.0的同学们要谨慎了.首先看一下这篇文章: Hadoop作业提交多种方案 http://www.blogjava.net/dragonHadoop ...

随机推荐

java中内部类使用小结
内部类是指在一个外部类中再定义一个类,类名不需要和文件名相同内部类可以是静态的,类的修饰符可以是private,default,protect,public修饰 ,而外部类只能是public 和 d ...
html 锚点的使用
html 锚点到底是干吗的?通俗简单地说,比如一篇很长的文章,你想按分段精确来看,那就可以用到锚点了. 代码:<a href="#001">跳到001</a&g ...
windows下安装redis以及测试
Window 下安装下载地址:https://github.com/dmajkic/redis/downloads. 下载到的Redis支持32bit和64bit.根据自己实际情况选择,将64bit ...
多个git账号的配置
问题描述: 作为开发人员,普遍有多个git账号,例如,公司邮箱对应的公司仓储账号和私人邮箱对应的github账号.在一台电脑上使用两个账号基于ssh协议拉代码,如果不进行额外设置,往往只有一个账号可以 ...
Portable Operating System Interface for uni-X
https://kb.iu.edu/d/agjv Short for "Portable Operating System Interface for uni-X", POSIX ...
《linux内核设计与实现》读书笔记第三章
第3章进程管理 3.1 进程 1.进程进程就是处于执行期的程序. 进程包括: 可执行程序代码打开的文件挂起的信号内核内部数据处理器状态一个或多个具有内存映射的内存地址空间一个或多个执行 ...
Wordpress本地伪静态设置
遇到的问题: 在主题的目录页,用wordpress默认链接方式是的,但是改了固定链接结构为:/%post_id%.html后,就访问不了了,开始以为是我主题的问题,然后切换为官方主题也是访问不了,而神 ...
Linux环境下apache性能测试工具ab使用详解
网站性能压力测试是服务器网站性能调优过程中必不可缺少的一环.只有让服务器处在高压情况下,才能真正体现出软件.硬件等各种设置不当所暴露出的问题. 性能测试工具目前最常见的有以下几种:ab.http_lo ...
IntelliJ IDEA Community Edition 14.1.4下使用 Apache-Subversion搭建代码管理环境
当前我的idea 版本是14.1.4. 1,)SVN Server下载与安装(https://www.visualsvn.com/server/): 因为我开发机是x64的,所以我优先下载 x64的 ...
excel转换日期格式，将yyyymmdd类型日期转换成yyyy-mm-dd等日期类型方法
源数据日期格式:例如: 20160420 20160422 目标日期格式类型: 2016-4-20 2016-4-22 或 2016/04/20 2016/04/22 方法: 一.选中相应数据的单元格 ...

hadoop2.0初识1.1

hadoop2.0初识1.1的更多相关文章

随机推荐

热门专题