MR系类:

①hadoop生态

>MapReduce:分布式处理

>Hdfs:hadoop distribut file system

>其他相关框架

->unstructured data:收集日志 flume,scribe

->structured data:sqoop hdfs与关系型数据库相互转换

->OLTP:HBASE(低延时) online transection process

->monitor/manage:监控集群状态

->Hight level interfaces:JAQL HIVE

->support:

->workflow:

->more Hight level interfaces:封装了算法的高级接口 数据挖掘算法BI

②hadoop:分布式存储和计算平台

③hadoop核心系统:

>hdfs:

->主从分布式:

namenode(主节点):管理从节点,提供API,管理文件与block,block与datanode之间的关系。(存储单位为block)

datanode(从节点):存储数据,文件被分成block存储在磁盘,同时block是有副本的。

>mapReduce:

->主从分布式:

jobTracker(主节点):提供api,分配任务给tasktracker,监控其执行情况

taskTracker(从节点):执行分配的计算任务。

④hadoop分布式特点:

>扩容能力:

>成本低:低廉主机,团体集群。

>高效率:并行执行

>可靠性:自动维护数据副本

⑤hadoop集群:

>伪分布:

①安装jdk,hadoop软件

>真实分布:

⑥HDFS学习笔记:

>概念:

->dfs:分布式文件系统,适合于一次写入多次查询的情况,不支持并发写,不适合小文件。

->namenode:维护和管理目录系统,

->HDFS:

->namenode:元数据(目录数据):

->fsimage:目录数据

->edit:用户操作的事务,当事务完成后,会将新的目录数据加入fsimage.

->secondaryNode:合并fsimage与edit

->datanode:物理数据(原始数据):物理数据本身

->文件块block:默认大小64M,当不足64M时,占用实际的大小的物理空间。

->replication:副本,默认三个。优先放在本机的datanode中。

->关于HDFS的HA:

->在配置文件中设置多个namenode的copy

->secondaryNode:将edit合并到fsimage。

>shell接口:

->hadoop fs 命令 -ls,-lsr,-put,-get,-text等

->hadoop fs ls = hadoop fs -ls hdfs://hadoop:9000/

>java接口:

->IOUtil连接普通文件系统和HDFS

->FileSystem:hds中定义的文件系统对象

>RPC远程过程调用:Remote process call 不同进程间的方法调用

->客户端调用服务器端实现VersionedProtocol协议的接口中的方法。

->hadoop中存在的5的服务进程,就是RPC的服务器端

The NameNode controls two critical tables:

1)  filename->blocksequence (namespace) 外存中,静态的,存放在fsimage

2)  block->machinelist ("inodes") 内存中,namenode启动的时候重建。

hdfs的唯一一个核心类:FileSystem

⑦MapReduce:

八个步骤:

1>Map

1.1>解析hdfs中的文件,每行数据形成<k1,v1> :k1为每行开始位置,v1为每行的内容

1.2>覆盖map(),接受1.1产生的<k1,v1>进行处理,转换成新的<k2,v2> :如对每行的数据即v1进行拆分,就可以得到多个v2

1.3>对1.2中输出的数据<k2,v2>进行分区,默认为1个:

1.4>对1.3中输出的数据<k3,v3>进行排序(按照k3),分组(相同key的不同value放在一个集合中),输出<k4,{v4}>

1.5>对1.4中输出的数据进行规约。

2>Reduce

2.1>多个map任务的输出,按照不同的分区,通过网络 copy到不同的reduce节点中:

2.2>对2.1中获得的数据,进行合并排序,覆盖reduce函数,接受集合数据,统计k4对应集合中所有值的和,输出<k5,v5>:

2.3>对2.2中产生的<k5,v5>的输出,写回hdfs中。

Hadoop数据类型:

Hadoop key/value数据必须实现的接口:

①writeable接口:

public interface Writable {

* Serialize the fields of this object to <code>out</code>.

void write(DataOutput out) throws IOException;

* Deserialize the fields of this object from <code>in</code>.

void readFields(DataInput in) throws IOException;

}

Hadoop key数据必须实现的接口:

②Comparable接口:

③WritableComparable接口:

comparaTo()方法

1>序列化和反序列化必须实现一下几个方法:

①equals()

②hashcode()

③tostring()

④必须有无参构造方法,为了方便反射创建对象。

2>序列化:将结构化对象转化为字节流,以便在网络传输或者保存在磁盘进行永久存储。

·反序列化:将序列化字节流,反序列化为结构化对象。

为了实现对序列化字节对象的直接比较,

①comparator接口:

hadoop基础学习的更多相关文章

  1. Hadoop基础学习(一)分析、编写并执行WordCount词频统计程序

    版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/jiq408694711/article/details/34181439 前面已经在我的Ubuntu ...

  2. Hadoop基础学习框架

    我们主要使用Hadoop的2个部分:分布式文件存储系统(HDFS)和MapReduce计算模型. 关于这2个部分,可以参考一下Google的论文:The Google File System 和 Ma ...

  3. hadoop基础学习---数据管理策略

    上图中的ABCDE都代表默认大小64M的数据块 nameNode与dataNode之间有一个心跳机制,datanode每隔多秒钟定期的发送心跳到nameNode

  4. hadoop基础学习---基本概念

    1.组成部分HDFS和MapReduce 2.HDFS这几架构

  5. 零基础学习hadoop到上手工作线路指导

    零基础学习hadoop,没有想象的那么困难,也没有想象的那么容易.在刚接触云计算,曾经想过培训,但是培训机构的选择就让我很纠结.所以索性就自己学习了.整个过程整理一下,给大家参考,欢迎讨论,共同学习. ...

  6. 零基础学习Hadoop

    零基础学习hadoop,没有想象的那么困难,也没有想象的那么容易.在刚接触云计算,曾经想过培训,但是培训机构的选择就让我很纠结.所以索性就自己学习了.整个过程整理一下,给大家参考,欢迎讨论,共同学习. ...

  7. 零基础学习hadoop到上手工作线路指导初级篇:hive及mapreduce(转)

    零基础学习hadoop到上手工作线路指导初级篇:hive及mapreduce:http://www.aboutyun.com/thread-7567-1-1.html mapreduce学习目录总结 ...

  8. 零基础学习hadoop开发所必须具体的三个基础知识

    大数据hadoop无疑是当前互联网领域受关注热度最高的词之一,大数据技术的应用正在潜移默化中对我们的生活和工作产生巨大的改变.这种改变给我们的感觉是“水到渠成”,更为让人惊叹的是大数据已经仅仅是互联网 ...

  9. 零基础学习hadoop到上手工作线路指导(编程篇)

    问题导读: 1.hadoop编程需要哪些基础? 2.hadoop编程需要注意哪些问题? 3.如何创建mapreduce程序及其包含几部分? 4.如何远程连接eclipse,可能会遇到什么问题? 5.如 ...

随机推荐

  1. 【剑指Offer】62、二叉搜索树的第k个结点

      题目描述:   给定一棵二叉搜索树,请找出其中的第k小的结点.例如(5,3,7,2,4,6,8) 中,按结点数值大小顺序第三小结点的值为4.   解题思路:   本题实际上比较简单,主要还是考察对 ...

  2. swift UITableViewCell 中的单选控制样式

    我昨天在网上找了一晚上的资料,但是大多都是OC得语法,swift资料实在是太少了,使得我这个刚入门swift的彩笔好不吃力,后面一直各种翻阅资料,终于让我找到了 visibleCells 这个方法,直 ...

  3. MySQL7.5.15数据库配置主从服务器实现双机热备实例教程

    环境说明 程序在:Web服务器192.168.0.57上面 数据库在:MySQL服务器192.168.0.67上面 实现目的:增加一台MySQL备份服务器(192.168.0.68),做为MySQL服 ...

  4. 批量重命名B站下载文件

    将B站下载的文件统一修改文件名 事情来由 事情是这样的,我在B站上发现一个教程,看了一下,非常不错,于是想下载下来(免得B站和谐). 问题就是这样来了,我手机没多少内存,下载后下发现文件在手机中都是以 ...

  5. lunix下的redis数据库操作——zset有序集合

    创建:(有序集合存在一个权重的概念) zadd zset 1 a 2 b 3 c 4 d 5 e 6 f 7 g # 输出: # 1) "a" # 2) "b" ...

  6. HDU 1569 方格取数(2)

    方格取数(2) Time Limit: 5000ms Memory Limit: 32768KB This problem will be judged on HDU. Original ID: 15 ...

  7. SGU - 296 - Sasha vs. Kate

    上题目: 296. Sasha vs. Kate Time limit per test: 1 second(s)Memory limit: 65536 kilobytes input: standa ...

  8. [MySQL]--查询性能分析工具-explain关键字

    explain显示了MySQL如何使用索引来处理select语句以及连接表.可以帮助选择更好的索引和写出更优化的查询语句. explain的使用方法很简单,只需要在select查询语句前面加上expl ...

  9. C#使用PowerShell 操作Exchange

    先介绍一篇文章来参考一下 点开文章 该文章的最后使用了SSL来保证账户在连接服务器的时候不发生账户认证错误,但是我经过测试发现这个是不可行的,有一种更为简单的方法 首先要对服务器进行winrm设置 就 ...

  10. 洛谷 P3004 [USACO10DEC]宝箱Treasure Chest

    P3004 [USACO10DEC]宝箱Treasure Chest 题目描述 Bessie and Bonnie have found a treasure chest full of marvel ...