Hadoop学习记录(1)|伪分布安装
本文转载自向着梦想奋斗博客
Hadoop是什么?
适合大数据的分布式存储于计算平台
不适用小规模数据
作者:Doug Cutting
受Google三篇论文的启发
Hadoop核心项目
HDFS(Hadoop Distrubuted File System) 分布式文件系统
MapReduce 并行计算框架
版本
Apache
官方版本
Cloudera
使用下载最多的版本,稳定,有商业支持,在Apache的基础上打上了一些补丁(Patch)。推荐使用。
Yahoo
Yahoo内部使用的版本,发不过两次,已有的版本放到Apache上,后续不在继承发布,而是继承在Apache的版本上。
Intel、IBM、微软等等。。。
HDFS架构
主从结构
主节点,只有一个namenode
从节点,有很多歌datanode
namenode负责:
接收用户操作的请求
维护文件系统的目录结构
管理文件与block之间关系,block与datanode的关系
datanode负责:
存储文件
文件被分成block存储在磁盘上
为了保证数据安全,文件会有多个副本
MapReduce架构
主从结构
主节点:只有一个JobTracker
从节点:有很多歌TaskTrackers
JobTracker负责
接收客户提交的计算任务
把计算任务分给TaskTrackers执行
监控TaskTrackers的执行情况
TaskTrackers负责
执行JobTracker分配的计算任务
Hadoop的特点
扩容能力,可以存储PB级别数据
成本低,可以用普通组装服务器做集群
高效率,可以分发数据并行处理
可靠性,自动维护多个副本,任务使用可以自动部署计算任务
Hadoop集群的物理分布

单点结构图

Hadoop部署方式
本地模式(不使用)
伪分布模式(实验学习使用,模拟集群模式)
集群模式(生产环境使用)
安装前软件准备
虚拟机(VitualBox/Vmware/Xen)
操作系统(Centos/RedHat..)
Jdk
Hadoop安装包
Hadoop伪分布安装步骤
1、关闭防火墙
chkconfig iptables off 关闭开机启动
service iptables stop 关闭运行的防火墙
2、修改ip
vi /etc/sysconfig/network-script/ifcfg-eth0
3、修改hostname
vi /etc/sysconfig/network
修改hostname
4、设置ssh密钥登陆
ssh-keygen -t rsa
cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys
5、安装jdk
chmod 755 jdk* 设置执行权限
./ jdk-6u24-linux-i586.bin 解压
cp -rf jdk1.6.0_24/ /usr/local/jdk 拷贝目录指定目录,可以自己指定
vi /etc/profile 设置环境变量
添加export JAVA_HOME=/usr/local/jdk
export PATH=.:$JAVA_HOME/bin:$PATH
source /etc/profile 立即生效
验证
java –version
出现以下内容表示成功
java version "1.6.0_24"
Java(TM) SE Runtime Environment (build 1.6.0_24-b07)
Java HotSpot(TM) Client VM (build 19.1-b02, mixed mode)
6、安装hadoop
解压
tar -zxvf hadoop-1.1.2.tar.gz -C /usr/src/
[root@h1 soft]# cd /usr/src/
[root@h1 src]# cp -rf hadoop-1.1.2/ /usr/local/hadoop
修改环境变量
vi /etc/profile
添加
export JAVA_HOME=/usr/local/jdk
export HADOOP_HOME=/usr/local/hadoop
export PATH=.:$HADOOP_HOME/bin:$JAVA_HOME/bin:$PATH
source /etc/profile 立即生效
修改配置文件
修改hadoop-env.sh
添加jdk环境变量配置
export JAVA_HOME=/usr/local/jdk
修改core-site.xml
<configuration>
设置默认名称和端口号
<property>
<name>fs.default.name</name>
<value>hdfs://h1:9000</value>
</property>
设置临时目录存储位置,一般放在单独磁盘目录
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/tmp</value>
</property>
</configuration>
修改hdfs-site.xml
<configuration>
副本数量
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
关闭权限验证
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
</configuration>
修改mapred-site.xml
<configuration>
<!-- setting mapreduce name and port -->
<property>
<name>mapred.job.track</name>
<value>h1:9001</value>
</property>
</configuration>
格式化文件系统
hadoop namenode -format
启动
start-all.sh
验证
[root@h1 conf]# jps
6366 TaskTracker
5844 NameNode
6466 Jps
6135 SecondaryNameNode
6223 JobTracker
5989 DataNode
http://h1:55070/访问namenode监控首页
http://h1:50030/访问mapreduce监控首页
本文转载自向着梦想奋斗博客
Hadoop学习记录(1)|伪分布安装的更多相关文章
- 启动原生Hadoop集群或伪分布环境
一:启动Hadoop 集群或伪分布安装成功之后,通过执行./sbin/start-all.sh启动Hadoop环境 通过jps命令查看当前启动进程是否正确~ [root@neusoft-master ...
- hadoop 2.6伪分布安装
hadoop 2.6的“伪”分式安装与“全”分式安装相比,大部分操作是相同的,主要区别在于不用配置slaves文件,而且其它xxx-core.xml里的参数很多也可以省略,下面是几个关键的配置: (安 ...
- 2015.07.12hadoop伪分布安装
hadoop伪分布安装 Hadoop2的伪分布安装步骤[使用root用户用户登陆]other进去超级用户拥有最高的权限 1.1(桥接模式)设置静态IP ,,修改配置文件,虚拟机IP192.168. ...
- CentOS 6.5 伪分布安装
CentOS 6.5 伪分布安装 软件准备 jdk-6u24-linux-i586.bin .hadoop-1.2.1.tar.gz.hadoop-eclipse-plugin-1.2.1.jar ...
- hadoop 2.7.3伪分布式安装
hadoop 2.7.3伪分布式安装 hadoop集群的伪分布式部署由于只需要一台服务器,在测试,开发过程中还是很方便实用的,有必要将搭建伪分布式的过程记录下来,好记性不如烂笔头. hadoop 2. ...
- Hadoop生态圈-hbase介绍-伪分布式安装
Hadoop生态圈-hbase介绍-伪分布式安装 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.HBase简介 HBase是一个分布式的,持久的,强一致性的存储系统,具有近似最 ...
- centos 7下Hadoop 2.7.2 伪分布式安装
centos 7 下Hadoop 2.7.2 伪分布式安装,安装jdk,免密匙登录,配置mapreduce,配置YARN.详细步骤如下: 1.0 安装JDK 1.1 查看是否安装了openjdk [l ...
- hadoop: hbase1.0.1.1 伪分布安装
环境:hadoop 2.6.0 + hbase 1.0.1.1 + mac OS X yosemite 10.10.3 安装步骤: 一.下载解压 到官网 http://hbase.apache.org ...
- hadoop伪分布安装
解压 将安装包hadoop-2.2.0.tar.gz存放到/home/haozhulin/install/目录下,并解压 #将hadoop解压到/home/haozhulin/install路径下,定 ...
随机推荐
- 今天maven install时碰到的两个问题(堆溢出和编译错误)
问题1.maven install时出现,日志如下: 系统资源不足.有关详细信息,请参阅以下堆栈追踪. java.lang.OutOfMemoryError: Java heap space at c ...
- mysql JDBC URL格式各个参数详解
mysql JDBC URL格式如下: jdbc:mysql://[host:port],[host:port].../[database][?参数名1][=参数值1][&参数名2][=参数值 ...
- UVa 11019 (AC自动机 二维模式串匹配) Matrix Matcher
就向书上说得那样,如果模式串P的第i行出现在文本串T的第r行第c列,则cnt[r-i][c]++; 还有个很棘手的问题就是模式串中可能会有相同的串,所以用repr[i]来记录第i个模式串P[i]第一次 ...
- UVa (二分) 11627 Slalom
题意: 有宽度相同的水平的n个旗门,水平(纵坐标严格递增)滑行的最大速度为Vh(水平速度可以任意调节).然后还有S双滑雪板,每双滑雪板的垂直速度一定. 然后求能通过的滑板鞋的最大速度. 分析: 显然, ...
- 使用Java API创建(create),查看(describe),列举(list),删除(delete)Kafka主题(Topic)
使用Kafka的同学都知道,我们每次创建Kafka主题(Topic)的时候可以指定分区数和副本数等信息,如果将这些属性配置到server.properties文件中,以后调用Java API生成的主题 ...
- ios多手势事件
开发ios应用时我们经常用到多手势来处理事情,如给scrollView增加点击事件,scrollView不能响应view的touch事件,但有时候却要用到多手势事件,那么我们可以给这个scrollVi ...
- BZOJ 1984 月下“毛景树”
我觉得我要把BZOJ上的链剖写完了吧.... #include<iostream> #include<cstdio> #include<cstring> #incl ...
- Python 删除 数组
numpy删除一列 从0开始,第三个参数是第几个维度 可以多删几个
- 每天一个Linux命令(2): ls
ls命令是linux下最常用的命令.ls命令就是list的缩写缺省下ls用来打印出当前目录的清单如果ls指定其他目录那么就会显示指定目录里的文件及文件夹清单. 通过ls 命令不仅可以查看linu ...
- 递归神经网络(Recurrent Neural Networks,RNN)
在深度学习领域,传统的多层感知机(MLP)具有出色的表现,取得了许多成功,它曾在许多不同的任务上——包括手写数字识别和目标分类上创造了记录.甚至到了今天,MLP在解决分类任务上始终都比其他方法要略胜一 ...