Hadoop入门学习笔记---part1
随着毕业设计的进行,大学四年正式进入尾声。任你玩四年的大学的最后一次作业最后在激烈的选题中尘埃落定。无论选择了怎样的选题,无论最后的结果是怎样的,对于大学里面的这最后一份作业,也希望自己能够尽心尽力,好好做。正是因为选题和hadoop有关,现在正式开始学习hadoop。将笔记整理于此,希望与志同道合的朋友共同交流。
作者:itRed 邮箱:it_red@sina.com 个人博客链接:http://www.cnblogs.com/itred
好了,废话不多说。进入正题!开始hadoop的学习。
part1的主要任务是了解Hadoop项目,理解Hadoop的相关术语,了解Hadoop的部署模式,为伪分布式模式准备集群的环境。
一.Hadoop项目简介:
这就是Hadoop的logo。而Hadoop的形象代言人就是这只棕黄色的小象。实际是一小孩儿的填充玩具,如果有兴趣了解Hadoop的名字起源。可以百度。
这里对Hadoop的介绍仅仅起到一个抛砖引玉的作用,我相信没有任何文档的介绍能够比得上Hadoop的官方文档。贴出Hadoop官网:http://hadoop.apache.org/,因此阅读官方文档时最好的一种真正理解这门技术的方式。在此,我谈谈自己的理解。Hadoop是一个分布式系统基础架构,但是它可以让开发者在不需要了解分布式底层的基础上,开发分布式程序和应用。而且可以充分利用其集群的能力来进行高速运算和存储。一句话,就是它是适合大数据的分布式存储与计算平台。
Hadoop的核心设计就是HDFS(Hadoop分布式文件系统)和MapReduce。关于这些术语的介绍我会在后文给出解释。HDFS为海量的数据提供了存储,而MapReduce为海量数据提供了计算。
Hadoop项目主要包含的模块有:
Hadoop Common:这个Common套件主要为支持其他的Hadoop模块;
HDFS:一种分布式文件系统,支持高吞吐量的应用数据;
Hadoop YARN:一种任务调度的框架和群资源管理;
Hadoop MapReduce:YARN依靠的系统,主要用于处理大数据。
二.Hadoop 重要术语理解:
HDFS:Hadoop Distributed File System (Hadoop分布式文件系统)默认的最基本的存储单位是64M的数据块。而在HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。
MapReduce:就是一种编程模型,用于大规模数据集(大于1TB)的并行运算。"Map(映射)"和"Reduce(归约)",以及它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。
三.Hadoop的部署模式主要分为三种:
本地模式:此时Hadoop使用本地文件系统而非分布式文件系统,而且其也不会启动任何Hadoop守护进程,Map和Reduce任务都作为同一进程的不同部分来执行。因此,本地模式下的Hadoop仅运行于本机。此种模式仅用于开发或调试MapReduce应用程序但却避免了复杂的后续操作。
伪分布模式:hadoop将所有进程运行于同一台主机上,但此时Hadoop将使用分布式文件系统,而且各jobs也是由JobTracker服务管理的独立进程。同时,由于伪分布式的Hadoop集群只有一个节点,因此HDFS的块复制将限制为单个副本,其secondary-master和slave也都将运行于本地主机。此种模式除了并非真正意义的分布式之外,其程序执行逻辑完全类似于完全分布式,因此,常用于开发人员测试程序执行。
集群模式:hadoop守护进程运行在一个集群上。
四.为安装Hadoop准备环境(伪分布模式):实现伪分布模式下的hadoop集群环境搭建。
准备软件:
在虚拟机中装一个linux系统;
Jdk;(版本根据您的实际情况来选择)
在linxu中安装jdk时,需要给jdk权限命令:chmod o+x jdk..(根据版本的实际情况来);
然后利用 ./jdk….(版本) 进行安装;
安装后的路径在: /usr/java
然后将java加入环境变量:#vi /etc/profile
JAVA_HOME=/usr/java/jdk….
PATH=$PATH:/usr/java/jdk../bin
CLASSPATH=.:/usr/java/jdk…/jre/lib/rt.jar
Export JAVA_HOME PATH CLASSPATH
关闭linux防火墙:
命令:
#service iptables status //查看防火墙状态
#service iptables stop //关闭防火墙
#chkconfig iptables off //设置防火墙的自动启动为off,即禁止自启动
修改ip:网络链接方式设置为host-only ,根据自己的实际宿主机ip地址进行更改
命令:# vi /etc/sysconfig/network-s/ifcfg-eth0 //利用vi修改
修改hostname:
命令:#vi /etc/sysconfig/network //机器重启后有效
HOSTNAME=Hadoop
ssh自动登陆:注意并不是java三大框架!
命令操作如下:
#cd ~/.ssh
#ssh-keygen –t rsa //然后就一直按Enter键,按着默认的进行下去;
#cp id_rsa.pub authorized_keys
#ssh localhost //利用这个命令进行验证
完成后,输入ssh localhost完成验证。
今天只是重点了解一下Hadoop项目,具体安装将在《Hadoop入门学习笔记---part2》中进行。
作者:itRed
邮箱:it_red@sina.com
博客:http://www.cnblogs.com/itred
***版权声明:本文版权归作者和博客园共有,欢迎转载,但请在文章显眼位置标明文章出处。未经本人书面同意,将其作为他用,本人保留追究责任的所有权利。
Hadoop入门学习笔记---part1的更多相关文章
- Hadoop入门学习笔记---part2
在<Hadoop入门学习笔记---part1>中感觉自己虽然总结的比较详细,但是始终感觉有点凌乱.不够系统化,不够简洁.经过自己的推敲和总结,现在在此处概括性的总结一下,认为在准备搭建ha ...
- Hadoop入门学习笔记---part4
紧接着<Hadoop入门学习笔记---part3>中的继续了解如何用java在程序中操作HDFS. 众所周知,对文件的操作无非是创建,查看,下载,删除.下面我们就开始应用java程序进行操 ...
- Hadoop入门学习笔记---part3
2015年元旦,好好学习,天天向上.良好的开端是成功的一半,任何学习都不能中断,只有坚持才会出结果.继续学习Hadoop.冰冻三尺,非一日之寒! 经过Hadoop的伪分布集群环境的搭建,基本对Hado ...
- Hadoop入门学习笔记(一)
Week2 学习笔记 Hadoop核心组件 Hadoop HDFS(分布式文件存储系统):解决海量数据存储 Hadoop YARN(集群资源管理和任务调度框架):解决资源任务调度 Hadoop Map ...
- Hadoop入门学习笔记总结系列文章导航
一.为何要学习Hadoop? 这是一个信息爆炸的时代.经过数十年的积累,很多企业都聚集了大量的数据.这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废为宝炼数成金成为当务之急.但数据增长 ...
- Hadoop入门学习笔记之一
http://hadoop.apache.org/docs/r1.2.1/api/index.html 适当的利用 null 在map中可以实现对文件的简单处理,如排序,和分集合输出等. 需要关心的内 ...
- Hadoop入门学习笔记(二)
Yarn学习 YARN简介 YARN是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度 YARN功能说明 资源管理系统:集群的硬件资源,和程序运行相关,比如内存.CPU等. 调度平 ...
- Hadoop入门学习笔记-第一天 (HDFS:分布式存储系统简单集群)
准备工作: 1.安装VMware Workstation Pro 2.新建三个虚拟机,安装centOS7.0 版本不限 配置工作: 1.准备三台服务器(nameNode10.dataNode20.da ...
- Hadoop入门学习笔记-第二天 (HDFS:NodeName高可用集群配置)
说明:hdfs:nn单点故障,压力过大,内存受限,扩展受阻.hdfs ha :主备切换方式解决单点故障hdfs Federation联邦:解决鸭梨过大.支持水平扩展,每个nn分管一部分目录,所有nn共 ...
随机推荐
- 【C-顺序程序结构】
一.C语句 可分为以下五类: ① 表达式语句 表达式: ②.函数调用语句 函数名(实际参数表); ③.控制语句 条件判断语句:if语句.switch语句: 循环执行语句:do while语句.whil ...
- [.NET领域驱动设计实战系列]专题九:DDD案例:网上书店AOP和站点地图的实现
一.引言 在前面一专题介绍到,要让缓存生效还需要实现对AOP(面向切面编程)的支持.所以本专题将介绍了网上书店案例中AOP的实现.关于AOP的概念,大家可以参考文章:http://www.cnblog ...
- 上层建筑——DOM元素的特性与属性(dojo/dom-attr)
上一篇返本求源中,我们从DOM基础的角度出发,总结了特性与属性的关系.本文中,我们来看看dojo框架是如何处理特性与属性的.dojo框架中特性的处理位于dojo/dom-attr模块属性的处理为与do ...
- Flume概述和简单实例
Flume概述 Flume是一个分布式.可靠.和高可用的海量日志采集.聚合和传输的系统.支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方( ...
- js函数实现转换css中常用的颜色编码
//转换css中常用颜色编码 var toRGB = function (val){ var reg1 = /^#([0-9A-F]{2})([0-9A-F]{2})([0-9A-F]{2})$/i; ...
- [ACM_动态规划] Alignment (将军排队)
http://acm.hust.edu.cn/vjudge/contest/view.action?cid=28415#problem/F 题目大意:有n个士兵排成一列,将军想从中抽出最少人数使队伍中 ...
- 分享最新的博客到LinkedIn Timeline
使用Octopress作为我的博客框架有两年了.使用起来一直很顺手,这个工具真正的把博客跟写代码等同起来,非常酷炫.再加上各种各样的定制化,简直是随心所欲.我针对自己的需求对Octopress框架进行 ...
- C#高级二
编程小虾米大侠之梦 软件环境:win7 开发工具:vs 2010 平台:.NET 语言:C# 类库版本:.NET Framework 2.0 语言特点:强类型语言 规划知识点: 1..net fram ...
- netstat 1
lsof -i :8086 第二个参数需要:开头 netstat linux -a (all)显示所有选项,默认不显示LISTEN相关 理解这个很关键, 这是为什么我们netstat -a 不显 ...
- thinkphp里的session、cookie方法
thinkphp里,对于session和cookie的操作,不管是存值.获取.删除,均只有一个方法.现分享出来,供大家参考参考. /** * session管理函数 * @param string|a ...