本自学笔记来自于Yutube上的视频Hadoop系列。网址:

https://www.youtube.com/watch?v=-TaAVaAwZTs(当中一个)

以后不再赘述

自学笔记,难免有各类错误纰漏。请看者谨慎。

Hadoop的使用还有大数据时代什么的就不说了。Hadoop不是一个单独的工具,而是一整个生态系统。包括一系列工具。所以首先要先介绍一下Hadoop相关的工具和各类概念,是以后经常会接触到的。

1. Hadoop Core



a) HDFS  Hadoop分布式文件系统,Hadoop的核心之中的一个。会把TB, PB, ZB的数据切割成为以64M(默认)大小的数据块分布存储在不同硬盘上,而且给予备份(默认3份)

b) MapReduce Hadoop的数据处理模型。

简单来说,处理能够分为Map阶段和Reduce阶段。Map阶段找出要处理的数据,Reduce阶段来处理这些数据得到想要的结果。

c) YARN  未来版本号,相当于MapReduce2.0版。

一些升级比方。原来的MapReduce系统中,有JobTracker和TaskTracker,前者关注Name Node, 后者关注TaskNode, 在YARN里面JobTracker 会更仔细一点,分成几个分别关注job或者data等

2. Hadoop Projects

a) Pig,Hive:负责分析数据的。有点类似Hadoop里面的SQL工具。主要是由于每次使用就去写MapReduce程序太麻烦(并且也不是人人都喜欢java),所以有这些工具来提供类SQL的支持。差别是Pig更像提供了一种脚本语言,然后会将其转化为MapReduce, 而Hive提供类SQL语言。叫HiveQL。

b) HBase, Cassandra.  HBase是NOSQL类的数据库。Hadoop的数据存储方式。而且与Pig和Hive无缝集成,基于google的big table, 能够支持数百万列和亿行的数据。

Cassandra主要涉及用来与Hadoop数据进行即时交互的工具。

c) HCatalog, Lucene, Hama, Crunch: HCatalog是日志工具,能够记录我们用不同的工具如Pig, Hive的查询记录等。Lucene提供搜索功能。各类搜索。Hama在分析科学研究数据时候经常使用,Crunch用来表现MapReduce的pipeline。上述四个工具都能够提供可视化的界面。

d) Avro, Thrift: 提供数据的序列化/,让我们能够把数据序列化后在不同的程序间共享。Avro能够说是Hadoop基本的数据序列化工具。 Thrift主要用于不同开发语言间的数据序列化。

e) Drill, Mahout: 数据智能化。Drill用于数据挖掘;Mahout用于数据分类等。比方依据你听的音乐智能推荐。

3. Hadoop Incubation:

a) Sqoop: 关系数据库和hadoop之间的数据交换

b) Flume: 即时日志处理系统

c) Chukwa:

d) Zookeeper:同步server和不同的Cluster之间和合作,同一时候提供统一管理界面

e) Oozie: 大致相当于任务管理,比方先完毕一个Pig,然后再做一个Hive,然后Sqoop转换,用Oozie控制

f) Knok。安全控制

g) HDT。用eclipse来开发Hadoop,比方MapReduce等。

h) Spark:宣称比Hadoop快上百倍,主要把hadoop硬盘操作的东西放入内存中操作。Shark类似Spark,相相应hive.

i) Ambari:管理整个project的工具

j) 具体每一种工具,能够去incubator.apache.org/projects/

Hadoop自学笔记(一)常见Hadoop相关项目一览的更多相关文章

  1. Hadoop自学笔记(三)MapReduce简单介绍

    1. MapReduce Architecture MapReduce是一套可编程的框架,大部分MapReduce的工作都能够用Pig或者Hive完毕.可是还是要了解MapReduce本身是怎样工作的 ...

  2. hadoop学习笔记--找到执行hadoop的入口

    参与个hadoop项目,之前没搞过,赶紧学习: 照葫芦画瓢,得到代码是hdfs2local.sh脚本和LiaoNingFilter.jar包,迫不及待用jd-gui打开jar包,搜索到main(在MA ...

  3. Hadoop自学系列集(三) ---- Hadoop安装

    这节就开始讲述Hadoop的安装吧.在这之前先配置下SSH免密码登录,为什么需要配置这个呢?大家都知道Hadoop集群中可能有几十台机器甚至是上千台机器,而每次启动Hadoop都需要输入密码才能够登录 ...

  4. Hadoop自学系列集(四) ---- Hadoop集群

    久等了,近期公司比较忙,学习的时间都没有啊,到今日才有时间呢!!!好了,下面就跟着笔者开始配置Hadoop集群吧. hosts文件和SSH免密码登录配置好了之后,现在进入Hadoop安装目录,修改一些 ...

  5. Hadoop学习笔记—20.网站日志分析项目案例

    1.1 项目来源 本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖.回帖,如图1所示. 图1 项目来源网站-技术学习论坛 本次实践的目的就在于 ...

  6. Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗

    网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html 网站日志分析项目案例(二)数据清洗:当前页面 网站日志分析项目案例 ...

  7. Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍

    网站日志分析项目案例(一)项目介绍:当前页面 网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html 网站日志分析项目案例 ...

  8. Hadoop学习笔记—20.网站日志分析项目案例(三)统计分析

    网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html 网站日志分析项目案例(二)数据清洗:http://www.cnbl ...

  9. Hadoop自学笔记(五)配置分布式Hadoop环境

    上一课讲了怎样在一台机器上建立Hadoop环境.我们仅仅配置了一个NHName Node, 这个Name Node里面包括了我们全部Hadoop的东西.包括Name Node, Secondary N ...

随机推荐

  1. 安卓项目开发实战(1)--首页顶部菜单BAR实现

    从今天開始,我将開始自己手写一个星座运势的项目,星座运势的数据来源採用MYAPI的星座数据,client全然自己实现. 这个系列主要是讲project中主要界面的布局展示和一些项目中的难点解析.因为本 ...

  2. HDU - 4054 Hexadecimal View (2011 Asia Dalian Regional Contest)

    题意:按要求输出.第一列是表示第几行.每行仅仅能有16个字节的字母,第二列是16进制的ASCII码.第三列大写和小写转换 思路:纯模拟,注意字母的十六进制是2位 #include <iostre ...

  3. Geeks - Range Minimum Query RMQ范围最小值查询

    使用线段树预处理.能够使得查询RMQ时间效率在O(lgn). 线段树是记录某范围内的最小值. 标准的线段树应用. Geeks上仅仅有两道线段树的题目了.并且没有讲到pushUp和pushDown操作. ...

  4. mysqli数据库操作简单实例

    mysqli数据库操作简单实例 代码 结果

  5. Spark SQL 编程API入门系列之Spark SQL的作用与使用方式

    不多说,直接上干货! Spark程序中使用SparkSQL 轻松读取数据并使用SQL 查询,同时还能把这一过程和普通的Python/Java/Scala 程序代码结合在一起. CLI---Spark ...

  6. 0-NULL-nullptr

    NULL In C A null-pointer constant is an integral constant expression that evaluates to zero (like 0 ...

  7. CorelDRAW升级计划--如何购买

    了解通过全新 CorelDRAW 2017升级计划更新此图形设计软件所有最新功能的实惠方案.助升级计划,您可以在下一主要产品版本推出时便收到该版本,从而始终使您的产品保持最新.升级计划取代为 X6 和 ...

  8. Android 7.0 Gallery图库源码分析4 - SlotView手势监听及页面跳转

    上篇文章讲了初始化View时会实例化一个SlotView并监听其事件,至于它是怎么实现的,用的是Android自带的GestureDetector. GestureDetector是Android自带 ...

  9. Windows 错误 0x80070570

    Windows程序运行或者删除文件提示错误0x80070570:文件或目录损坏且无法读取. 环境 Windows 10 解决办法 管理员权限打开cmd,输入chkdsk 盘符: /f,提示输入Y,修复 ...

  10. pip常见用法汇总

    1.pip安装 yum -y install epel-release && yum -y install python-pip 2.pip安装软件 (1)安装单个软件:pip ins ...