搭建完全分布式的hadoop[转]

hadoop 创建用户及hdfs权限，hdfs操作等常用shell命令

sudo addgroup hadoop#添加一个hadoop组
sudo usermod -a -G hadoop larry#将当前用户加入到hadoop组
sudo gedit etc/sudoers#将hadoop组加入到sudoer
在root ALL=(ALL) ALL后 hadoop ALL=(ALL) ALL

修改hadoop目录的权限
sudo chown -R larry:hadoop /home/larry/hadoop<所有者：组文件>

sudo chmod -R 755 /home/larry/hadoop

修改hdfs的权限
sudo bin/hadoop dfs -chmod -R 755 /
sudo bin/hadoop dfs -ls /

修改hdfs文件的所有者

sudo bin/hadoop fs -chown -R larry /

sudo bin/hadoop dfsadmin -safemode leave #解除hadoop的安全模式

hadoop fs -copyFromLocal <localsrc> URI#拷贝本地文件到hdfs

hadoop fs -cat file:///file3 /user/hadoop/file4#将路径指定文件的内容输出到stdout

hadoop fs -chgrp [-R] GROUP URI#改变文件的所属组

hadoop fs -chmod [-R] 755 URI#改变用户访问权限

hadoop fs -chown [-R] [OWNER][:[GROUP]] URI [URI ]#修改文件的所有者

hadoop fs -copyToLocal URI localdst#拷贝hdfs文件到本地

hadoop fs -cp URI [URI …] <dest>#拷贝hdfs文件到其它目录

hadoop fs -du URI [URI …]#显示目录中所有文件的大小

hadoop fs -getmerge <src> <localdst> [addnl]#合并文件到本地目录

用于测试，我用4台虚拟机搭建成了hadoop结构

我用了两个台式机。一个xp系统，一个win7系统。每台电脑装两个虚拟机，要不然内存就满了。

1、安装虚拟机环境

Vmware，收费产品，占内存较大。

或

Oracle的VirtualBox，开源产品，占内存较小，但安装ubuntu过程中，重启会出错。

我选Vmware。

2、安装操作系统

Centos，红帽开源版，接近于生产环境。

Ubuntu，操作简单，方便，界面友好。

我选Ubuntu12.10.X 32位

3、安装一些常用的软件

在每台linux虚拟机上，安装：vim，ssh

sudo apt-get install vim

sudo apt-get install ssh

在客户端，也就是win7上，安装SecureCRT，Winscp或putty，这几个程序，都是依靠ssh服务来操作的，所以前提必须安装ssh服务。

service ssh status 查看ssh状态。如果关闭使用service ssh start开启服务。

SecureCRT，可以通过ssh远程访问linux虚拟机。

winSCP或putty，可以从win7向linux上传文件。

4、修改主机名和网络配置

主机名分别为：master，host2，host3，host4。

sudo vim /etc/hostname

网络配置，包括ip地址，子网掩码，DNS服务器。如上图所示。

5、修改/etc/hosts文件。

修改每台电脑的hosts文件。

hosts文件和windows上的功能是一样的。存储主机名和ip地址的映射。

在每台linux上，sudo vim /etc/hosts 编写hosts文件。将主机名和ip地址的映射填写进去。编辑完后，结果如下：

6、配置ssh，实现无密码登陆

无密码登陆，效果也就是在master上，通过 ssh host2 或 ssh host3 或 ssh host4 就可以登陆到对方计算机上。而且不用输入密码。

四台虚拟机上，使用 ssh-keygen -t rsa 一路按回车就行了。

刚才都作甚了呢？主要是设置ssh的密钥和密钥的存放路径。路径为~/.ssh下。

打开~/.ssh 下面有三个文件

authorized_keys，已认证的keys

id_rsa，私钥

id_rsa.pub，公钥三个文件。

下面就是关键的地方了，（我们要做ssh认证。进行下面操作前，可以先搜关于认证和加密区别以及各自的过程。）

①在master上将公钥放到authorized_keys里。命令：sudo cat id_rsa.pub >> authorized_keys

②将master上的authorized_keys放到其他linux的~/.ssh目录下。

命令：sudo scp authorized_keys hadoop@10.10.11.192:~/.ssh

sudo scp authorized_keys 远程主机用户名@远程主机名或ip:存放路径。

③修改authorized_keys权限，命令：chmod 644 authorized_keys

④测试是否成功

ssh host2 输入用户名密码，然后退出，再次ssh host2不用密码，直接进入系统。这就表示成功了。

7、上传jdk，并配置环境变量。

通过winSCP将文件上传到linux中。将文件放到/usr/lib/java中，四个linux都要操作。

解压缩：tar -zxvf jdk1.7.0_21.tar

设置环境变量 sudo vim ~/.bashrc

在最下面添加：

export JAVA_HOME = /usr/lib/java/jdk1.7.0_21

export PATH = $JAVA_HOME/bin:$PATH

修改完后，用source ~/.bashrc让配置文件生效。

8、上传hadoop，配置hadoop

通过winSCP，上传hadoop，到/usr/local/下，解压缩tar -zxvf hadoop1.2.1.tar

再重命名一下，sudo mv hadoop1.2.1 hadoop

这样目录就变成/usr/local/hadoop

①修改环境变量，将hadoop加进去（最后四个linux都操作一次）

sudo vim ~/.bashrc

export HADOOP_HOME = /usr/local/hadoop

export PATH = $JAVA_HOme/bin:$HADOOP_HOME/bin:$PATH

修改完后，用source ~/.bashrc让配置文件生效。

②修改/usr/local/hadoop/conf下配置文件

hadoop-env.sh，

core-site.xml，

hdfs-site.xml，

mapred-site.xml，

master，

slave，

上面的hadoop-env.sh，core-site.xml，mapred-site.xml，hdfs-site.xml，master，slave几个文件，在四台linux中都是一样的。

配置完一台电脑后，可以将hadoop包，直接拷贝到其他电脑上。

③最后要记得，将hadoop的用户加进去，命令为

sudo chown -R hadoop@hadoop hadoop

sudo chown -R 用户名@用户组目录名

④让hadoop配置生效

source hadoop-env.sh

⑤格式化namenode，只格式一次

hadoop namenode -format

⑥启动hadoop

切到/usr/local/hadoop/bin目录下，执行 start-all.sh启动所有程序

⑦查看进程，是否启动

jps

master，

host2，

host3，host4，的显示结果，与host2相同。

点此，去我的CSDN博客： http://blog.csdn.net/weixuehao/article/details/15813681

搭建完全分布式的hadoop[转]的更多相关文章

【Hadoop】搭建完全分布式的hadoop
博客已转移,请借一步说话! http://www.weixuehao.com/archives/577 下面博文已更新,请移步 ↑ 用于测试,我用4台虚拟机搭建成了hadoop结构我用了两个台式机. ...
【Hadoop】搭建完全分布式的hadoop【转】
转自:http://www.cnblogs.com/laov/p/3421479.html 下面博文已更新,请移步 ↑ 用于测试,我用4台虚拟机搭建成了hadoop结构我用了两个台式机.一个xp系统 ...
Mac OS X上搭建伪分布式CDH版本Hadoop开发环境
最近在研究数据挖掘相关的东西,在本地 Mac 环境搭建了一套伪分布式的 hadoop 开发环境,采用CDH发行版本,省时省心. 参考来源 How-to: Install CDH on Mac OSX ...
hadoop（二）搭建伪分布式集群
前言前面只是大概介绍了一下Hadoop,现在就开始搭建集群了.我们下尝试一下搭建一个最简单的集群.之后为什么要这样搭建会慢慢的分享,先要看一下效果吧! 一.Hadoop的三种运行模式(启动模式) 1 ...
hadoop搭建伪分布式集群（centos7+hadoop-3.1.0/2.7.7）
目录: Hadoop三种安装模式搭建伪分布式集群准备条件第一部分安装前部署 1.查看虚拟机版本2.查看IP地址3.修改主机名为hadoop4.修改 /etc/hosts5.关闭防火墙6.关闭SE ...
hadoop集群的搭建（分布式安装）
集群计算机集群是一种计算机系统,他通过一组松散集成的计算机软件和硬件连接起来高度紧密地协同完成计算工作. 集群系统中的单个计算机通常称为节点,通常通过局域网连接. 集群技术的特点: 1.通过多台计算 ...
Storm环境搭建（分布式集群）
作为流计算的开篇,笔者首先给出storm的安装和部署,storm的第二篇,笔者将详细的介绍storm的工作原理.下边直接上干货,跟笔者的步伐一块儿安装storm. 原文链接:Storm环境搭建(分布式 ...
指导手册02：伪分布式安装Hadoop(ubuntuLinux)
指导手册02:伪分布式安装Hadoop(ubuntuLinux) Part 1:安装及配置虚拟机 1.安装Linux. 1.安装Ubuntu1604 64位系统 2.设置语言,能输入中文 3.创建 ...
超详细！CentOS 7 + Hadoop3.0.0 搭建伪分布式集群
超详细!CentOS 7 + Hadoop3.0.0 搭建伪分布式集群 ps:本文的步骤已自实现过一遍,在正文部分避开了旧版教程在新版使用导致出错的内容,因此版本一致的情况下照搬执行基本不会有大错误. ...

随机推荐

MVC实现类似QQ的网页聊天功能-Ajax（上）
说到QQ聊天,程序员首先想到的就是如何实现长连接,及时的接收并回馈信息.那么首先想到的就是Ajax,Ajax的运行机制是通过XMLHttpRequest向服务器发出异步请求,并接受数据,这样就可以实现 ...
HTML5和CSS3实例教程[总结二]
基于contenteditable属性实现在位编辑 HTML5规范引入了contenteditable属性,它几乎可以用在任何元素上,只要添加这一属性即可变为可编译区域 <!DOCTYPE h ...
jQuery下的显示和隐藏
因为太久没更新了,所以来放一点没意思的内容. 做的是jQuery框架的隐藏和显示,HTML如下: <ul> <li>1</li> <li>2</l ...
java中IO递归写入
package cn.stat.p1.file; import java.io.BufferedWriter; import java.io.File; import java.io.FileWrit ...
修改Servlet模板
1.找到jar文件查看MyEclipse根目录下的myeclipse.ini,找到Common文件夹的位置,打开文件夹..\Common\plugins 找到文件 com.genuitec.ecli ...
(原创) jetson tk1 初始化
1. 相关的网站: 1. Jetson TK1 support https://developer.nvidia.com/jetson-tk1-support 2.official Wiki fo ...
.attr()和.prop()和.css()的区别
是不是新手都会遇到这个问题?遇到过一次,在网上搜一搜,综合成了下面这样.重点参考了dolphin的‘jQuery的attr与prop’, 写的很清楚呢. 一般attribute翻译成中文术语为“特性” ...
乱七八糟Nodejs系列二：线程模型
上一篇中说了这样一句话:Nodejs和浏览器javascript一样,都是单线程,所以和传统的不一样,这个后面有机会再说.挖了坑就得填,哎. 1.一个例子来看一个例子,这个例子来自async jav ...
Spark link集合
Part1. 各种参数的意义及如何配置 Spark官方文档——Spark Configuration(Spark配置) http://www.cnblogs.com/vincent-hv/p/3316 ...
ServletConfig对象【通过此对象获取到web.xml中的信息】
用途: 1)想让当前的Servlet读取一些在web.xml文件配置的初始化参数时, 可以使用ServletConfig对象,他是Servlet运 ...

搭建完全分布式的hadoop[转]

搭建完全分布式的hadoop[转]的更多相关文章

随机推荐

热门专题