What Is Apache Hadoop?

The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.

Hadoop项目是为了开发可靠、可伸缩的分布式计算的开源软件。

The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.

Hadoop 软件库是一个框架,这个框架允许使用简单的编程模型就可以分布式地处理大量数据集,这些数据集本身是跨越多个集群的。Hadoop设计规模可从单机扩展到几千台机器,每台机器可提供本机的计算与存储能力。不像某些设计依赖硬件来达到高可用性,Hadoop 软件库本身在应用层被设计用来检测和处理故障。因此,它能提供一个在集群机器之上的高可用性服务,集群中的每台机器都可能遭遇故障。

The project includes these modules:

  • Hadoop Common: The common utilities that support the other Hadoop modules.

  通用的初始化组件,能够支持其他Hadoop模块。

  • Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.

  Hadoop分布式文件系统:一套分布式文件系统,能够提供对应用数据的高穿透性访问能力。

  • Hadoop YARN: A framework for job scheduling and cluster resource management.

  YARN:一套任务调度和集群资源管理框架。

  • Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.

  MapReduce:一套基于YARN的并行处理大量数据集的系统。

Other Hadoop-related projects at Apache include:

  • Ambari™: A web-based tool for provisioning, managing, and monitoring Apache Hadoop clusters which includes support for Hadoop HDFS, Hadoop MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig and Sqoop. Ambari also provides a dashboard for viewing cluster health such as heatmaps and ability to view MapReduce, Pig and Hive applications visually alongwith features to diagnose their performance characteristics in a user-friendly manner.
  • Ambari,是一个基于web的配置,管理和监控阿帕奇的Hadoop集群的工具,它支持Hadoop HDFS,Hadoop MapReduce,Hive,HCatelog,HBase,ZooKeeper,Oozie,Pig和Soop。Ambari也提供一个仪表盘,这个仪表盘可以查看集群健康状况(例如热力图)以及以用户友好的方式,一站式可视化对MapReduce,Pig和Hive应用性能特性进行诊断的能力。
  • Avro™: A data serialization system.
  • Avro,一套序列化系统。
  • Cassandra™: A scalable multi-master database with no single points of failure.
  • Cassandra,一种可伸缩的多主机(主从机模式)数据库,可以避免单点故障。
  • Chukwa™: A data collection system for managing large distributed systems.
  • Chukwa,一套数据集合系统,可以管理大规模的分布式系统。
  • HBase™: A scalable, distributed database that supports structured data storage for large tables.
  • HBase,一套可伸缩的分布式数据库,可以支持大量数据表的结构化数据存储。
  • Hive™: A data warehouse infrastructure that provides data summarization and ad hoc querying.
  • Hive,一套数据仓库架构,可以提供数据摘要和约束即席查询。
  • Mahout™: A Scalable machine learning and data mining library.
  • Mahout,一套可伸缩的机器学习和数据挖掘库。
  • Pig™: A high-level data-flow language and execution framework for parallel computation.
  • Pig,一套高层数据流语言和执行框架,支持并行计算。
  • Spark™: A fast and general compute engine for Hadoop data. Spark provides a simple and expressive programming model that supports a wide range of applications, including ETL, machine learning, stream processing, and graph computation.
  • Spark,一套对Hadoop数据进行快速和通用计算的引擎。它提供一套简单并富有表现力的编程模型,支持一系列应用,包括ETL(Extract,Transform and Load),机器学习,流处理,以及图谱计算。
  • Tez™: A generalized data-flow programming framework, built on Hadoop YARN, which provides a powerful and flexible engine to execute an arbitrary DAG of tasks to process data for both batch and interactive use-cases. Tez is being adopted by Hive™, Pig™ and other frameworks in the Hadoop ecosystem, and also by other commercial software (e.g. ETL tools), to replace Hadoop™ MapReduce as the underlying execution engine.
  • Tez,一套泛型化的数据流编程框架,建立在Hadoop YARN之上。它能提供一个强大,弹性的引擎,这套引擎可以执行一个任意的DAG(有向无环图)任务,去处理批量的和可交互的用例。Tez已经被Hive,Pig和其他Hadoop生态系统的框架所采用,也被其他商业软件(例如ETL工具)用Hadoop MapReduce作为底层执行引擎使用。
  • ZooKeeper™: A high-performance coordination service for distributed applications.
  • ZooKeeper,是一项高性能的分布式应用的协同服务。

引申:

HDFS,同类竞品有GFS(Google File System),亚马逊,阿里,腾讯,各自有自己命名的分布式文件系统。

What Is Apache Hadoop的更多相关文章

  1. Hive创建表格报【Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException】引发的血案

    在成功启动Hive之后感慨这次终于没有出现Bug了,满怀信心地打了长长的创建表格的命令,结果现实再一次给了我一棒,报了以下的错误Error, return code 1 from org.apache ...

  2. hive 使用where条件报错 java.lang.NoSuchMethodError: org.apache.hadoop.hive.ql.ppd.ExprWalkerInfo.getConvertedNode

    hadoop 版本 2.6.0 hive版本 1.1.1 错误: java.lang.NoSuchMethodError: org.apache.hadoop.hive.ql.ppd.ExprWalk ...

  3. Hive:org.apache.hadoop.hdfs.protocol.NSQuotaExceededException: The NameSpace quota (directories and files) of directory /mydir is exceeded: quota=100000 file count=100001

    集群中遇到了文件个数超出限制的错误: 0)昨天晚上spark 任务突然抛出了异常:org.apache.hadoop.hdfs.protocol.NSQuotaExceededException: T ...

  4. Hadoop程序运行中的Error(1)-Error: org.apache.hadoop.hdfs.BlockMissingException

    15/03/18 09:59:21 INFO mapreduce.Job: Task Id : attempt_1426641074924_0002_m_000000_2, Status : FAIL ...

  5. Ubuntu14.04用apt在线/离线安装CDH5.1.2[Apache Hadoop 2.3.0]

    目录 [TOC] 1.CDH介绍 1.1.什么是CDH和CM? CDH一个对Apache Hadoop的集成环境的封装,可以使用Cloudera Manager进行自动化安装. Cloudera-Ma ...

  6. 【解决】org.apache.hadoop.util.Shell$ExitCodeException: /bin/bash: line 0: fg: no job control

    [环境信息] Hadoop版本:2.4.0 客户端OS:Windows Server 2008 R2 服务器端OS:CentOS 6.4 [问题现象] 在通过Windows客户端向Linux服务器提交 ...

  7. ERROR [org.apache.hadoop.security.UserGroupInformation] - PriviledgedActionExcep

    换了个环境,出现此异常 016-10-18 23:54:01,334 WARN [org.apache.hadoop.util.NativeCodeLoader] - Unable to load n ...

  8. org.apache.hadoop.ipc.RemoteException(java.io.IOException)

    昨晚突然之间mr跑步起来了 jps查看 进程都在的,但是在reduce任务跑了85%的时候会抛异常 异常情况如下: 2016-09-21 21:32:28,538 INFO [org.apache.h ...

  9. kylin cube测试时,报错:org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x

    异常: org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=WRITE, i ...

  10. org.apache.hadoop.security.AccessControlException: Permission denied:

    org.apache.hadoop.security.AccessControlException: Permission denied: user=xxj, access=WRITE, inode= ...

随机推荐

  1. mvn 的 provided 以及 test等等 还有git团队开发技巧

    mvn 的 provided 以及 test等等 还有git团队开发技巧

  2. Laravel小项目之第4节 Laravel-通过表单实现新增及操作状态提示功能

    第4节 Laravel-通过表单实现新增及操作状态提示功能 4.1 显示新增表单视图 4.2 通过模型实现新增 4.3 操作状态提示 4.1 显示新增表单视图 修改边栏的链接 \resources\v ...

  3. RocketMQ集群部署记录

    RocketMQ集群部署记录 #引用    https://cloud.tencent.com/developer/article/1147765         一.RocketMQ基础知识介绍 A ...

  4. ucml 查询组件

    查询视图组件通常用于通过某些字段来查询数据,在页面设计处选好需要查询的字段,并设置操作符等信息最后设计页面添加执行查询的按钮即可,页面效果同编辑视图组件. 具体操作示例: 1.添加一个新的查询组件VC ...

  5. 转载 Net多线程编程—System.Threading.Tasks.Parallel

    .Net多线程编程—System.Threading.Tasks.Parallel   System.Threading.Tasks.Parallel类提供了Parallel.Invoke,Paral ...

  6. stm32cubemx学习要点记录

    如果有些外设的HAL库函数找不到的话,你可以到IAR工程的文件夹显示栏中找如下图所示:

  7. Android学习之基础知识十三 — 四大组件之服务详解第二讲(完整版的下载示例)

    上一讲学习了很多关于服务的使用技巧,但是当在真正的项目里需要用到服务的时候,可能还会有一些棘手的问题让你不知所措.接下来就来综合运用一下,尝试实现一下在服务中经常会使用到的功能——下载. 在这一讲我们 ...

  8. Android学习之基础知识九 — 数据存储(持久化技术)之SQLite数据库存储

    前面一讲介绍了数据持久化技术的前两种:文件存储.SharedPreferences存储.下面介绍第三种技术:SQLite数据库存储 一.SQLite数据库存储 SQLite数据库是一款轻量级的关系型数 ...

  9. cc攻击和ddos攻击的区别和攻防 + 调SYN连接参数

    1.一个是WEB网络层拒绝服务攻击(DDoS),一个是WEB应用层拒绝服务攻击(CC),网络层就是利用肉鸡的流量去攻击目标网站的服务器,针对比较本源的东西去攻击,服务器瘫痪了,那么运行在服务器上的网站 ...

  10. HashMap 的实现原理

    hashMap用了一个名字为table的数组:还有若干个名字为entry的链表.看hashMap是如何应用这些数据结构的.用插 入<key,value>举例:hashMap首先会通过key ...