写在学习笔记之前的话:


寒假已经开始好几天了,似乎按现在的时间算,明天就要过年了。在家的这几天,该忙的也都差不多了,其实也都是瞎忙。接下来的几点,哪里也不去了,静静的呆在家里学点东西。所以学习一下Hadoop的相关知识,跟自己的研究方向毛关系没有啊,就当自己的兴趣爱好吧。

学习目标:


(1)掌握Hadoop基本知识,进行Hadoop的HDFS和MapReduce应用开发,搭建Hadoop集群。

(2)掌握HBase基本知识,搭建HBase集群,HBase的基本操作。

(3)掌握数据仓库基本知识,用Hive建立数据仓库,并进行多维数据分析。

Hadoop简介:


Hadoop的核心分为两部分:文件管理系统(HDFS)负责存储和管理文件,MapReduce是专门负责计算的另一个核心,计算的数据来自HDFS。这种计算是要用java代码调用Hadoop的API才能实现的,那么这样一来Hadoop的应用面就变得非常窄,当遇到了大的项目的时候,里面的各种关系就变得很复杂。在这个背景下就诞生了各种框架,也就是上面图中的各种框架,当然我们在实际应用中用到的一般都是这些框架,但是Hadoop的基本核心原理知识也是必须要理解的,不然在框架出现问题的时候就不能很好的解决。

(1)非结构化的数据,比如说软件运行的日志文件等,Flume等框架都是用来收集这些非结构化数据的。

(2)结构化的数据,这些数据是存储在关系型数据库中的,当然一些不够结构化的数据是能够转化成结构化的数据的,反之亦然。也就是说他们是能够互相转换的,用到的工具就是Sqoop这个框架。具体的应用就是公司随着业务的扩大,数据量也不断的增大,原先的关系型数据库已经满足不了现在的需求,所以就要Hadoop上场,这时就得把原来的关系型数据库的数据导出到Hadoop的HDFS中去,这时候就用到了Sqoop这个框架了。

(3)HBase处理OLTP在线事务处理,反应延时很小,HBase是hadoop的在线数据库。与之对应的是分析型事务处理,它的特点是对延时性要求不高。

(4)运维监控框架,Hue、Ganglla、Eclipse等负责监控内存、CPU的使用情况。

(5)High Level Interfaces,hadoop在计算的时候是使用Java代码调用hadoop的API实现的,这里高level的地方在于它不是使用java代码,而是使用SQL调用hadoop的API。

(6)More High Level Interfaces,封装了数据挖掘算法的框架,如mahout框架。

Hadoop学习笔记(1)概述的更多相关文章

  1. 十四、Hadoop学习笔记————Zookeeper概述与基本概念

    顺序一致性:严格按照顺序在zookeeper上执行 原子性:所有事物请求的结果,在整个集群的应用情况一致 单一视图:无论从哪个服务器进入集群,看到的东西都是一致的 可靠性:服务端成功响应后,状态会 一 ...

  2. Hadoop学习笔记—22.Hadoop2.x环境搭建与配置

    自从2015年花了2个多月时间把Hadoop1.x的学习教程学习了一遍,对Hadoop这个神奇的小象有了一个初步的了解,还对每次学习的内容进行了总结,也形成了我的一个博文系列<Hadoop学习笔 ...

  3. Hadoop学习笔记(7) ——高级编程

    Hadoop学习笔记(7) ——高级编程 从前面的学习中,我们了解到了MapReduce整个过程需要经过以下几个步骤: 1.输入(input):将输入数据分成一个个split,并将split进一步拆成 ...

  4. Hadoop学习笔记(6) ——重新认识Hadoop

    Hadoop学习笔记(6) ——重新认识Hadoop 之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果.现是得开始稍微更深入地了解hadoop了. Hadoop包含了两大功 ...

  5. Hadoop学习笔记(2)

    Hadoop学习笔记(2) ——解读Hello World 上一章中,我们把hadoop下载.安装.运行起来,最后还执行了一个Hello world程序,看到了结果.现在我们就来解读一下这个Hello ...

  6. Hadoop学习笔记(5) ——编写HelloWorld(2)

    Hadoop学习笔记(5) ——编写HelloWorld(2) 前面我们写了一个Hadoop程序,并让它跑起来了.但想想不对啊,Hadoop不是有两块功能么,DFS和MapReduce.没错,上一节我 ...

  7. Hadoop学习笔记(3)——分布式环境搭建

    Hadoop学习笔记(3) ——分布式环境搭建 前面,我们已经在单机上把Hadoop运行起来了,但我们知道Hadoop支持分布式的,而它的优点就是在分布上突出的,所以我们得搭个环境模拟一下. 在这里, ...

  8. Hadoop学习笔记(2) ——解读Hello World

    Hadoop学习笔记(2) ——解读Hello World 上一章中,我们把hadoop下载.安装.运行起来,最后还执行了一个Hello world程序,看到了结果.现在我们就来解读一下这个Hello ...

  9. Hadoop学习笔记(1) ——菜鸟入门

    Hadoop学习笔记(1) ——菜鸟入门 Hadoop是什么?先问一下百度吧: [百度百科]一个分布式系统基础架构,由Apache基金会所开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序. ...

  10. Hadoop学习笔记(两)设置单节点集群

    本文描写叙述怎样设置一个单一节点的 Hadoop 安装.以便您能够高速运行简单的操作,使用 Hadoop MapReduce 和 Hadoop 分布式文件系统 (HDFS). 參考官方文档:Hadoo ...

随机推荐

  1. copyleft 与 copyright

    直到今天才知道Copyleft这个名词(orz...) 我们经常能见到的是 Copyright(著作权),这个对版权的保护,保证作者权益. 它的对立面就是Copyleft,它允许用户自由修改 使用作品 ...

  2. 使用Spire PDF for .NET将HTML转换成PDF文档

    目录 开发环境说明 Spire PDF for .NET (free edition)体验 资源下载 开发环境说明 Microsoft Visual Studio 2013 Ultimate Edit ...

  3. css position 属性 (absolute 和fixed 区别)

    在css3中,position的属性值有:inherit, static, relative ,absolute, fixed. inherit 是继承父元素的position属性值,IE不支持. s ...

  4. BootStrap 模态框禁用空白处点击关闭问题

    模态框为信息编辑窗口,涉及好多内容,填了半天,若一不小心点了空白处,那就前功尽弃了..... 所以我们很有必要禁用鼠标点击空白处模态框关闭的功能. $('#myModal').modal({backd ...

  5. .wsdl文件生成.cs文件

    1.打开VS文件命令行工具(一般在安装文件的Common7\Tools\Shortcuts下面例如[E:\VS2013安装程序\Common7\Tools\Shortcuts\VS2013 x64 本 ...

  6. 经典SQL语句集锦

      下列语句部分是MsSql语句,不可以在access中使用. SQL分类: DDL—数据定义语言(CREATE,ALTER,DROP,DECLARE) DML—数据操纵语言(SELECT,DELET ...

  7. sql语句中特殊函数的用法

    1.concat CONCAT(字串1, 字串2, 字串3, ...): 将字串1.字串2.字串3,等字串连在一起. 例如: Geography 表格 region_name     store_na ...

  8. JAVA 语 言 如 何 进 行 异 常 处 理 , 关 键 字 : throws,throw,try,catch,final

    throws是获取异常throw是抛出异常try是将会发生异常的语句括起来,从而进行异常的处理,catch是如果有异常就会执行他里面的语句,而finally不论是否有异常都会进行执行的语句.

  9. BZOJ 1021: [SHOI2008]Debt 循环的债务( dp )

    dp(i, j, k)表示考虑了前i种钱币(从小到大), Alice的钱数为j, Bob的钱数为k, 最小次数. 脑补一下可以发现, 只有A->B.C, B->A.C, C->A.B ...

  10. nginx args

    $args $content_length $content_type $document_root $document_uri $host $http_user_agent $http_cookie ...