一、大数据介绍

1、大数据指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的形式的信息。

2、大数据,可帮助我们能察觉商业趋势、判断研究质量、避免疾病扩散、打击犯罪或测定即时交通路况等。

3、麦肯锡全球研究院(MGI)预测,到2020年,全球数据使用量预计达到35ZB(1ZB=1000EB,1EB=1000PB,1PB=1000TB,1TB=1000GB).

4、Google每天要处理的数据高达几百PB。百度每天处理数据几十PB。腾讯微信活跃用户数达7亿,每天产生的数据量上百TB,2016年除夕当日,微信红包的参与人数达到4.2亿人,收发总量达80.8亿个。

5、多源异构:描述同一主题的数据由不同的用户、不同的网站产生。网络数据有多种不同的呈现形式,如音视频、图片、文本等,导致网络数据格式上的异构性。

6、交互性:不同于测量和传感获取的大规模科学数据,微博等社交网络兴起导致大量网络数据具有很强的交互性。

7、时效性:在网络平台上,每时每刻都有大量新的网络数据发布,网络信息内容不断变化,导致了信息传播的时序相关性。

8:社会性:网络上用户根据自己的需要和喜好发布、恢复或转发信息,因为网络数据成了对社会状态的直接反应。

9、突发性:有些信息在传播过程中会短时间内引起大量新的网络数据与信息的产生,并使相关的网络用户形成网络群体,体现出网络大数据以及网络群体的突发特性。

10、高噪声:网络数据来自于众多不同的网络用户,具有很高的噪声。

二、Hadoop介绍

1、Hadoop是一个开源分布式计算平台架构,基于apache协议发布,由java语言开发。官方网址 http://Hadoop.apache.org

2、Hadoop两大核心组件:HDFS(分布式文件系统,为分布式计算提供了数据存储)和MapReduce(应用程序被分成许多小部分,而每个部分都能在集群中的任意节点上运行,一句话就是人物的分解和结果的汇总)。

3、另外两个模块:Common、YARN。

4、其他和Hadoop相关的项目:Ambari、Avro、Cassandra、Chukwa、Hbase、Hive、Mahout、Pig、Spark、Tez、ZooKeeper。

5、Hadoop支持有廉价的计算机搭建集群,有强大的冗余机制。

6、Hadoop在各大互联网企业中应用广泛,百度使用Hadoop进行搜索日志的分析和网页数据的挖掘工作;淘宝使用Hadoop存储并处理电子商务交易相关数据;facebook使用Hadoop进行数据分析和机器学习。

7、还有那些企业在使用Hadoop?可通过此站点进行查看:http://wiki.apache.org/Hadoop/PoweredBy

三、Hadoop组件和相关项目介绍

1、Common:为其他组件提供常用工具支持。

2、YARN:作业调度和集群管理的框架。

3、Ambari:是Apache Software Foundation中的一个项目。就Ambari的作用来说。就是创建、管理、监视Hadoop的集群,但是这里Hadoop是广义,指的是Hadoop整个生态圈(例如Hive,Hbase,ZooKeeper等)。用一句话来说,Ambari就是为了让Hadoop以及相关的大数据软件更容易使用的一个工具。Ambari下载安装方法:http://www.ibm.com/developerworks/cn/opensource/os-cn-bigdata-ambari/index.html

4、Avro:Avro是Hadoop中的一个子项目,也是Apache中一个独立的项目,Avro是一个基于二进制数据传输高性能的中间件,在Hadoop的其他项目中例如HBase(Ref)和Hive(Ref)的Client端与服务端的数据传输也采用了这个工具,Avro是一个数据序列化的系统,Avro可以将数据结构或对象转化成便于存储或传输的格式,Avro设计之初用来支持数据密集型应用,适合于远程或本地大规模数据的存储和交换。官方地址:http://www.open-open.com/lib/view/open1369363962228.html

5、Cassandra:可扩展的多主数据库,不存在单点故障。

6、Chukwa:是数据收集系统,用于监控和分析大型分布式系统的数据。

7、HBase:是一个分布式面向列的数据库。

8、Hive:最早由facebook设计,是建立在Hadoop基础之上的数据仓库,它提供了一些用于数据整理、特殊查询和分析在Hadoop文件中数据集工具。

9、Mahout:可扩展的机器学习和数据挖掘库。

10、Pig:是一种高级语言和并行计算可执行框架,他是对一个大型数据集分析和评估的平台。

11、Spark:一个快速和通用计算的Hadoop数据引擎。和MapReduce类似,但是要比MapReduce快,它提供了一个简单而丰富的编程模型,支持多种应用,包括ETL、机器学习、数据流处理、图形计算。参考文档:http://www.techweb.com.cn/network/system/2016-01-25/2267414.shtml

12、Tez:是Apache最新的支持DAG作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能。Tez并不直接面向最终用户,事实上他允许开发者为最终给用户构建性能更快、扩展性更好的应用程序。Hadoop传统上还有一些工作则不太适合MapReduce,例如机器学习,Tez的目的就是帮助Hadoop处理这些用例场景。

13、ZooKeeper:ZooKeeper是一组工具,用来配置和支持分布式调度,一个重要功能就是对所有节点进行配置的同步,他能处理分布式应用的“部分失败”问题,部分失败是分布式处理系统的固有特征,即发送者无法知道接受者是否收到消息,它的出现可能和网络传输问题、接受进程意外死掉等有关。ZooKeeper是Hadoop生态系统的一部分,但又远不止如此,它能支持更多类似的分布式平台和系统,如Jubatus,Cassender等等。

Hadoop及其相关组件简介的更多相关文章

  1. hadoop以及相关组件介绍以及个人理解

    前言 本人是由java后端转型大数据方向,目前也有近一年半时间了,不过我平时的开发平台是阿里云的Maxcompute,通过这么长时间的开发,对数据仓库也有了一定的理解,ETL这些经验还算比较丰富.但是 ...

  2. 【Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之RAC 工作原理和相关组件(三)

    RAC 工作原理和相关组件(三) 概述:写下本文档的初衷和动力,来源于上篇的<oracle基本操作手册>.oracle基本操作手册是作者研一假期对oracle基础知识学习的汇总.然后形成体 ...

  3. Spark学习之基础相关组件(1)

    Spark学习之基础相关组件(1) 1. Spark是一个用来实现快速而通用的集群计算的平台. 2. Spark的一个主要特点是能够在内存中进行计算,因而更快. 3. RDD(resilient di ...

  4. 【转】【Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之RAC 工作原理和相关组件(三)

    原文地址:http://www.cnblogs.com/baiboy/p/orc3.html 阅读目录 目录 RAC 工作原理和相关组件 ClusterWare 架构 RAC 软件结构 集群注册(OC ...

  5. HBase的部署与其它相关组件(Hive和Phoenix)的集成

    HBase的部署与其它相关组件(Hive和Phoenix)的集成 一.HBase部署 1.1.Zookeeper正常部署 首先保证Zookeeper集群的正常部署,并启动之: /opt/module/ ...

  6. Hadoop框架:HDFS简介与Shell管理命令

    本文源码:GitHub·点这里 || GitEE·点这里 一.HDFS基本概述 1.HDFS描述 大数据领域一直面对的两大核心模块:数据存储,数据计算,HDFS作为最重要的大数据存储技术,具有高度的容 ...

  7. node.js及相关组件安装

    第一步:下载安装文件(下载地址:官网http://www.nodejs.org/download/ )第二步:安装nodejs(双击直接安装) 安装完成后使用命令行查看版本信息,出现版本号说明安装成功 ...

  8. Netty 源码(一)Netty 组件简介

    Netty 源码(一)Netty 组件简介 Netty 系列目录(https://www.cnblogs.com/binarylei/p/10117436.html) 一.Netty 架构 Core: ...

  9. 转载:【Oracle 集群】RAC知识图文详细教程(三)--RAC工作原理和相关组件

    文章导航 集群概念介绍(一) ORACLE集群概念和原理(二) RAC 工作原理和相关组件(三) 缓存融合技术(四) RAC 特殊问题和实战经验(五) ORACLE 11 G版本2 RAC在LINUX ...

随机推荐

  1. 深入浅出设计模式——装饰模式(Decorator Pattern)

    模式动机 一般有两种方式可以实现给一个类或对象增加行为: 继承机制,使用继承机制是给现有类添加功能的一种有效途径,通过继承一个现有类可以使得子类在拥有自身方法的同时还拥有父类的方法.但是这种方法是静 ...

  2. VPN推荐

    最近ZF加强了对谷歌的屏蔽,推荐一些VPN azuressh.com ¥10/m http://www.archsocks.com/ ¥12/年 豆荚VPN,免费800M/月,偶尔连不上,可付费

  3. JavaWeb基础: ServletConfig

    基本概念 ServletConfig用于配置Servlet的参数:在Servlet的配置文件中,可以使用一个或者是多个<init-param> 标签为Servlet配置一些初始化参数.当有 ...

  4. Makefile.am链接openCV库的写法

    6 INCLUDES = `pkg-config opencv --cflags` -I./ 17 bin_PROGRAMS+=SegRecogServerDeme 18 SegRecogServer ...

  5. systemctl命令

    systemctl命令是系统服务管理器指令,它实际上将 service 和 chkconfig 这两个命令组合到一起. 任务 旧指令 新指令 使某服务自动启动 chkconfig --level 3 ...

  6. SSH集成log4j日志环境[转]

    第一步:在web.xml初始化log4j <context-param> <param-name>log4jConfigLocation</param-name> ...

  7. 存储过程实现登录(.net)

    工作中,可能有时为了安全等的考虑,需要更多 的运用存储过程.有的公司甚至在登录一栏也会提出这样的要求,那么怎么用存储过程实现登录呢.好处就不用言名了,一个速度,一个就是安全系统更高. 下面贴上:1.存 ...

  8. Android Studio插件推荐(PreIOC,GsonFormat)

    好的插件能加快项目的开发速度,尤其是一些针对重复性的代码的插件,所以在这里向大家推荐2款不错的插件,如果以后发现新的好的插件,还会继续推荐,同时欢迎大家推荐 GsonFormat GsonFormat ...

  9. 横竖屏切换时候Activity的生命周期的总结

    1.新建一个Activity,并把各个生命周期打印出来 2.运行Activity,得到如下信息 onCreate--> onStart--> onResume--> 3.按crtl+ ...

  10. eclipse配置ros cakin编译环境

    先安装eclipse,之前的博客:http://www.cnblogs.com/CZM-/p/5942435.html Catkin-y 方法使用catkin无法make eclipse工程,生成pr ...