Hadoop简介

官方网站： http://hadoop.apache.org/

中文网站： http://hadoop.apache.org/docs/r1.0.4/cn/

Hadoop设计来源

根据Google的三大论文 GFS（Google File System）：

Google的分布式文件系统 http://www.cnblogs.com/999-/p/7120490.html

MapReduce： Google的MapReduce开源分布式并行计算框架 http://www.cnblogs.com/999-/p/7120503.html

BigTable：一个大型的分布式数据库 http://www.cnblogs.com/999-/p/7120499.html

创始人

Hadoop之父Doug Cutting，Hadoop这个名字不是一个缩写，而是一个虚构的名字。该项目的创建者，Doug Cutting解释Hadoop的得名：“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短，容易发音和拼写，没有太多的意义

Hadoop可以做什么

1.HDFS用于存储大数据

2.分布式概念

3.MapReduce用于处理数据

Map分配数据到各个节点，Reduce拉取处理后数据

4.HBase用于存储数据，快速高效查询处理

5.Zookeeper用于协调各个组件

6.Hadoop生态圈

Hadoop优点

适合大数据的处理 --GB,TB,PB级别的数据量 --百万规模以上的文件数量

高容错性 --数据自动保存多个副本 --副本丢失后，自动恢复

流式文件访问 --一次性写入、多次并行读取 --保证数据的一致性

可构建在廉价机器上 --通过多副本提高可靠性 --提供了容错和恢复机制

适合批处理 --移动计算而非移动数据 --数据位置暴露给计算框架

Hadoop缺点

不适合低延迟数据访问场景 --比如毫秒级 --低延迟与高吞吐率

小文件存取 --占用NameNode大量内存 --寻道时间超过读取时间

不适合并发写入、文件随时修改 --一个文件只能有一个写入者 --仅支持append

应用场景

1.海量数据的可靠性存储

2.数据归档

01. 数据存档（data archiving）是将不再经常使用的数据移到一个单独的存储设备来进行长期保存的过程。

02. 数据存档由旧的数据组成，但它是以后参考所必需且很重要的数据，其数据必须遵从规则来保存。

03. 数据存档具有索引和搜索功能，这样文件可以很容易地找到.

大数据Hadoop——初识Hadoop的更多相关文章

大数据测试之初识Hadoop
大数据测试之初识Hadoop POPTEST老李认为测试开发工程师是面向测试的开发,也就是说,写代码就是为完成测试任务服务的,写自动化测试(性能自动化,功能自动化,安全自动化,接口自动化等等)的cas ...
【大数据】初识Hadoop
因为项目日志体量较大,每天有4-7T的日志量,传统的sqlserver已经不能满足,所以现在需要使用到大数据的相关工具进行记录和使用. 虽然公共项目提供了组件和解决方案,但是对于一些名词.概念还是有必 ...
大数据时代之hadoop(五)：hadoop 分布式计算框架（MapReduce）
大数据时代之hadoop(一):hadoop安装大数据时代之hadoop(二):hadoop脚本解析大数据时代之hadoop(三):hadoop数据流(生命周期) 大数据时代之hadoop(四): ...
一篇了解大数据架构及Hadoop生态圈
一篇了解大数据架构及Hadoop生态圈阅读建议,有一定基础的阅读顺序为1,2,3,4节,没有基础的阅读顺序为2,3,4,1节. 第一节集群规划大数据集群规划(以CDH集群为例),参考链接: ht ...
[Hadoop大数据]——Hive初识
Hive出现的背景 Hadoop提供了大数据的通用解决方案,比如存储提供了Hdfs,计算提供了MapReduce思想.但是想要写出MapReduce算法还是比较繁琐的,对于开发者来说,需要了解底层的h ...
初识大数据（二. Hadoop是什么）
hadoop是一个由Apache基金会所发布的用于大规模集群上的分布式系统并行编程基础框架.目前已经是大数据领域最流行的开发架构.并且已经从HDFS.MapReduce.Hbase三大核心组件成长为一 ...
从Hadoop Summit 2016看大数据行业与Hadoop的发展
前言: 好吧我承认已经有四年多没有更新博客了.... 在这四年中发生了很多事情,换了工作,换了工作的方向.在工作的第一年的时候接触机器学习,从那之后的一年非常狂热的学习机器学习的相关技术,也写了一些自 ...
ASP.NET + SqlSever 大数据解决方案 PK HADOOP
半个月前看到博客园有人说.NET不行那篇文章,我只想说你们有时间去抱怨不如多写些实在的东西. 1.SQLSERVER优点和缺点? 优点:支持索引.事务.安全性以及容错性高缺点:数据量达到100万以 ...
大数据时代之hadoop(四)：hadoop 分布式文件系统（HDFS)
分布式文件系统即是网络中多台计算机组合在一起提供一个统一存储及管理的系统. Hadoop提供了一个文件系统接口和多个分布式文件系统实现,其中比较重要的就是HDFS(Hadoop Distributed ...

随机推荐

zipkin链路追踪
zipkin架构说明 zipkin api 我想自己搞一些满足zipkin格式的日志,入库es,然后让zipkin仅做展示 1.需要了解zipkin组件 2,学习zipkin设计原理,何时何地产生日志 ...
内网gitlab11.2升级至11.4.5
当前gitlab版本宿主机是一台ubuntu 运行备份命令 sudo gitlab-rake gitlab:backup:create STRATEGY=copy 升级命令 sudo apt-get ...
【原创】canvas裁剪上传图片异步提交
<!DOCTYPE html> canvas裁剪图片,纯前端裁剪文件后台返回获取裁剪后的文件
codeforces-4
这题使用到了类似于双数据 Maximal Continuous #include<iostream> #include<algorithm> #include<stdio ...
hdu 2838 Cow Sorting
题意: 给出一个数组,要求把他们排成升序,两个数字交换的代价是x + y,求代价的总和. 思路: 简单的逆序对变形,树状数组维护小于的cnt和sum即可. 代码: #include <stdio ...
IDEA SpringBoot 打包（jar）
项目结构: sf-xxx-api sf-xxx-domain sf-xxx-common sf-xxx-web (web模块) 期望输出结果目录 bin/server.sh libs/**.jar,* ...
php读取文件使用redis的pipeline（管道）导入大批量数据
需求:需要做一个后台上传TXT文件,读取其中的内容,然后导入redis库中.要求速度快,并且支持至少10W以上的数据,而内容也就一个字段存类似openid和QQ 传统做法:我一开始做的时候就老套路,遍 ...
c语言的一些易错知识积累
1. #ifdef 和#if defined 的区别: 后者可以组成复杂的预编译条件,而如果判断的是单个宏定义的时候,两种用法的效果都是一样的. 2.#if 0 { code }#endif ...
Java SE中的Synchronized
1 引言在多线程并发的编程中Synchronized一直是元老级的角色,很多人会称呼它为重量级锁,但是随着Java SE1.6对Synchronized进行了各种优化以后,有些情况下它并不那么重了. ...
修改Vim内注释字体颜色
vim /etc/vimrc 然后按大写 G 到最后一行,插入 hi comment ctermfg=6 wq保存退出 PS:默认的注释颜色是4 然后有0,1,2,3,4,5 ...

大数据Hadoop——初识Hadoop