Hadoop权威指南学习笔记三
HDFS简单介绍
声明:本文是本人基于Hadoop权威指南学习的一些个人理解和笔记,仅供学习參考。有什么不到之处还望指出,一起学习一起进步。
转载请注明:http://blog.csdn.net/my_acm
Hadoop说白了就是一个提供了处理分析大数据的文件集群,当中最重要的无疑是HDFS(Hadoop Distributed File System)即Hadoop分布式文件系统。
1、
HDFS是一种以流式数据訪问模式(一次写入多次读取的模式)存储超大文件的系统。
其不须要的高端的硬件系统,普通市面上的硬件就能满足要求。
眼下不适合应用HDFS的有:低延迟的数据訪问、大量小的文件、多用户写入随意改动文件等。
2、
HDFS存储以块为单位,通常块大小为64M。之所以要分为这么大的块,主要是为了降低寻址时间,由于眼下来看。传输数据速率越来越快,对于HDFS处理大数据时,假设频繁的寻址必定会使得执行时间变长。
HDFS集群有两种节点名称节点和多个数据节点。当中名称节点充当管理者,数据节点充当工作者。
名称节点相当于HDFS文件树上的枝干分叉点,而数据节点则标注着全部块的存储信息。所以名称节点的丢失就意味着HDFS的瘫痪。
因此Hadoop提供了两种机制解决这一问题:
一种是复制组成文件系统元数据的持久状态文件。即在本地磁盘写入的同一时候也写入一个远程NFS挂载。
还有一种是设置一个二级名称节点。
3、
HDFS提供命令行接口的交互。
4、
Hadoop是一个抽象的文件系统概念,HDFS是当中的一个详细实现,java抽象类org.apache.hadoop.fs.FileSystem展示了Hadoop的一个文件系统,并且有几个详细实现。
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvbXlfYWNt/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">
如上图所看到的。Hadoop提供了很多文件的接口,一般是通过URL来确定使用何种文件系统实现交互。
5、
Hadoop是java实现的所以,java接口无疑是当中重中之重。以下是java接口的一些详细实现。
(1) 数据读取:
使用URL读取数据
Java识别Hadoop文件系统的URL方案,就是通过一个FsUrlStreamHandlerFactory实例来调用在URL中的setURLStreamHandlerFactory方法。
注意:这样的方法在java虚拟机中仅仅能被调用一次。所以通常设置为static,也因此假设程序其它部件(可能不是在你控制的第三方部件)设置了一个URLStreamHandlerFactory,那么久再也不能从Hadoop读取数据。
代码:
输入执行:
% hadoop URLCat hdfs://localhost/user/tom/test.txt
结果:
Hello world Hello world
Hello world
Hello world Hello world
使用FileSystem API读取数据
直接看代码吧。注意看凝视
(2) 数据写入
FileSystem类有一系列创建文件的方法。
public FSDataOutputStream create(Pathf) throws IOException
用create创建文件是可用exists()推断其父文件夹是否存在。
另一个用于传递回调接口的重载方法 Progressable,如此一来。我们所写的应用就会被告知数据写入数据节点的进度。
package org.apache.hadoop.util;
public interface Progressable{
publicvoid progress();
}
创建文件的还能够用例如以下方法:
Public FSDataOutputStream append(Pathf) throws IOException
此方法同意在打开文件的末尾追加数据。
(3) 文件夹
FileSystem题目了创建文件夹的方法:
public Boolean mkdirs(Path f) thorwsIOException
(4) 查询文件系统
FileStatus类封装了文件系统中文件和文件夹的元数据。包含文件长度、块大小、副本、改动时间、全部者以及许可信息。
FileSystem的getFileStatus()提供了获取一个文件或文件夹的状态对象方法。
假设仅仅是推断一个文件是否存在。则能够使用前文提到的exists(Path f)方法。
Hadoop有时要查询批量文件时通常要用到通配符。所以它为运行通配符提供了
Hadoop支持与Unix bash同样的通配符两个FileSystem方法:
public FileStatus[] globStatus (PathpathPattern) throws IOException
public FileStatus[] globStatus (Path pathPattern,PathFileter filter)throws IOException
通配符:
(5) 删除数据
FileSystem中的delete()方法能够永久删除文件夹。
public Boolean delete(Path f,Boolean recursive) throwsIOException
Hadoop权威指南学习笔记三的更多相关文章
- Hadoop权威指南学习笔记二
MapReduce简单介绍 声明:本文是本人基于Hadoop权威指南学习的一些个人理解和笔记,仅供学习參考,有什么不到之处还望指出,一起学习一起进步. 转载请注明:http://blog.csdn.n ...
- Hadoop权威指南学习笔记一
Hadoop简单介绍 声明:本文是本人基于Hadoop权威指南学习的一些个人理解和笔记,仅供学习參考,有什么不到之处还望指出.一起学习一起进步. 转载请注明:http://blog.csdn.net/ ...
- 转载:Hadoop权威指南学习笔记
转自:http://pieux.github.io/blog/2013-05-08-learn-hadoop-the-definitive-guide.html 1 前言 Hadoop的内部工作机制: ...
- netty权威指南学习笔记三——TCP粘包/拆包之粘包现象
TCP是个流协议,流没有一定界限.TCP底层不了解业务,他会根据TCP缓冲区的实际情况进行包划分,在业务上,一个业务完整的包,可能会被TCP底层拆分为多个包进行发送,也可能多个小包组合成一个大的数据包 ...
- Hadoop权威指南 - 学习笔记
初识Hadoop.关于MapReduce Hadoop宏观介绍 相对于其他系统的优势 关系型数据库管理系统 为什么不能用配有大量硬盘的数据库进行大规模分析?为什么需要Hadoop? 因为计算机硬盘的发 ...
- IDA Pro 权威指南学习笔记(三) - IDA 桌面简介
IDA 的默认桌面如下图 工具栏区域(1)包含与 IDA 的常用操作对应的工具,可以使用 View -> Toolbar 显示或隐藏工具栏 可以使用 View -> Toolbars -& ...
- HTTP权威指南-学习笔记
目录 HTTP权威指南-学习笔记 HTTP: Web的基础 URL与资源 HTTP报文 连接管理 HTTP结构 Web服务器 代理 缓存 集成点: 网关,隧道及中继 Web机器人 识别,认证与安全 客 ...
- JavaScript 权威指南-学习笔记(一)
本文所有教程及源码.软件仅为技术研究.不涉及计算机信息系统功能的删除.修改.增加.干扰,更不会影响计算机信息系统的正常运行.不得将代码用于非法用途,如侵立删! ## JavaScript 权威指南-学 ...
- CSS权威指南学习笔记系列(1)CSS和文档
题外话:HTML是一种结构化语言,而CSS是它的补充:这是一种样式语言.CSS是前端三板斧之一,因此学习CSS很重要.而我还是菜鸟,所以需要加强学习CSS.这个是我学习CSS权威指南的笔记,如有不对, ...
随机推荐
- 题解 P3243 【[HNOI2015]菜肴制作】
这道题看起来就是个裸的拓扑排序,抄上模板就能AC. 上面这种想法一看就不现实,然鹅我第一次还真就这么写了,然后被随意hack. 我们需要注意一句话: 现在,酒店希望能求出一个最优的菜肴的制作顺序,使得 ...
- POJ 1035-Spell checker(字符串)
题目地址:POJ 1035 题意:输入一部字典.输入若干单词. 若某个单词能在字典中找到,则输出corret.若某个单词能通过 变换 或 删除 或 加入一个字符后.在字典中找得到.则输出这些单词.输出 ...
- c++开源爬虫-Larbin简单介绍
原文地址:http://leihuang.net/2014/06/16/Larbin-Introduction/ 由于近期学校实训.做的是一个搜索相关的项目,而且是c++的一个项目.所以就想到了lar ...
- python yield学习
yield的功能类似于return,但是不同之处在于它返回的是生成器. 生成器生成器是通过一个或多个yield表达式构成的函数,每一个生成器都是一个迭代器(但是迭代器不一定是生成器). 如果一个函数包 ...
- Spring 热点面试题:
1.谈谈你对Springaop的理解? spring用代理类包裹切面,把他们织入到Spring管理的bean中.也就是说代理类伪装成目标类,它会截取对目标类中方法的调用,让调用者对目标类的调用都先变成 ...
- python全栈_day01
计算机容量 1位 = 1bit 8bit = 1byte = 1字节 1024bytes = 1kbytes =1KB 1024个字符,小文档 ,几百k可以表示一张图片 1024KB ...
- 紫书 习题 10-17 UVa 11105 (筛法)
类似于素数筛的思想去做,不然暴力会超时而且还要判重 #include<cstdio> #include<cstring> #include<vector> #def ...
- 【Android】各式各样的弹出框与对菜单键、返回键的监听
Android自带各式各样的弹出框.弹出框也是安卓主要的组件之中的一个.同一时候安卓程序能够对菜单键.返回键的监听.但在安卓4.0之后就禁止对Home键的屏蔽与监听,强制保留为系统守护按键.假设非要对 ...
- 【java】itoo项目实战之大数据查询之使用 new map 优化hibernate之级联查询
在我的上一篇博客<[java]itoo项目实战之hibernate 懒载入优化性能>中,我曾提到过学生数据有2万条,查询数据十分的慢,这是让人非常受不了的事情.看着页面进度条一直转着圈圈, ...
- 13.2 UPDATE
13.2 UPDATE正在更新内容.请稍后