hadoop的概念

网上会经常遇到各种hadoop的概念，Hive，HBase，Hdfs都各是什么呢？

首先从hdfs说起，hdfs是分布式文件系统，它把集群当作单机一样做文件操作，文件可能存在于多个机器上，具体的存储细节会对使用者隐藏。

map_reduce是一个计算框架，google提出的，用于大规模数据计算，它们的主要思想，是从函数式编程中借来的特性。

hdfs和map_reduce统称为我们常说的Hadoop架构，这个架构能存储PB级别的数据，也能进行成千上万的独立计算。

好，现在已经有了这个框架了，这个框架包含了底层的存储结构，但是却并不是那么好用，我们大家还是擅长于使用sql语句来进行数据精炼，查询和分析的。这个时候，就出现了Hive。Hive的功能是把sql语句解析成map_reduce的计算任务，当然这样的拆分会导致查询变慢，可能一个sql查询需要分钟甚至小时级别的，不像mysql那样秒级以内查询出结果。

基于Hadoop框架，Powerset公司提出了另外一种非关系行分布式数据库HBase。它是使用JAVA实现的，最大的特点是基于列存储的。列存储的好处是什么？列存储就是把不同行相同的数据存储在一起，这样比如有的行没有的属性，在行存储中还需要留空余空间，但是在列存储中就完全不需要。列存储也能把相同属性的字段存储在一起，这样对数据压缩也有好处。所以列存储很适合大数据领域。

我们经常看到文章比较HBase和Hive，一般都是比较他们的查询效率，其实他们并不是一个维度的东西。HBase的查询效率会优于Hive，而Hive一般用于做离线的数据分析。

参考

大数据存取的选择：行存储还是列存储？
hive 、hbase区别分析

hadoop的概念的更多相关文章

hadoop分布式存储（1）-hadoop基础概念（毕业设计）
hadoop是一种用于海量数据存储.管理.分析的分布式系统.需要hadoop需要储备一定的基础知识:1.掌握一定的linux操作命令 2.会java编程.因此hadoop必须安装在有jdk的linux ...
Hadoop基本概念
一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运算和存储.Hadoop实现了一个分布式文件系统(Hadoop Dist ...
Hadoop基础概念介绍
基于YARN的配置信息, 参见: http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/ hadoop入门 - 基础概念 ...
大数据 - hadoop基础概念 - HDFS
Hadoop之HDFS的概念及用法 1.概念介绍 Hadoop是Apache旗下的一个项目.他由HDFS.MapReduce.Hive.HBase和ZooKeeper等成员组成. HDFS是一个高度容 ...
hadoop 核心概念及入门
Hadoop Hadoop背景什么是HADOOP HADOOP是apache旗下的一套开源软件平台HADOOP提供利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理,HADOOP的核 ...
Hadoop 基本概念
一.Hadoop 简介 Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构,它可以使用户在不了解分布式底层细节的情況下开发分布式程序,充分利用集群的威力进行高速运算和存储. 从其定 ...
hadoop分布式存储（1）-hadoop基础概念
hadoop是一种用于海量数据存储.管理.分析的分布式系统.需要hadoop需要储备一定的基础知识:1.掌握一定的linux操作命令 2.会java编程.因此hadoop必须安装在有jdk的linux ...
Hadoop基础概念
Apache Hadoop有2个核心的组件,他们分别是: HDFS: HDFS是一个分布式文件系统集群,它可以将大的文件分裂成块并将他们冗余地分布在多个节点上,HDFS是运行在用户空间的文件系统 Ma ...
大数据及hadoop简要概念
大数据大数据简要概念指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合.需要新处理模式,才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产. 大数据作 ...

随机推荐

.NET开发的大型网站列表、各大公司.NET职位精选，C#王者归来
简洁.优雅.高效的C#语言,神一样的C#创始人Anders Hejlsberg,async/await编译器级异步语法,N年前就有的lambda表达式,.NET Native媲美C++的原生编译性能, ...
软将工程课设day1与day2
在稍迟的时候,收集了三份用户体验,自己编辑整理之后上交于组. 和老师确定了一下每日的工作流程与需要提交的任务. 与组讨论了软件优化方向,包括整理收集到的“反馈信息”.“额外需求信息”.“体验信息”.
使用阿里云负载均衡遭遇的http重定向https的问题
昨天解决了在阿里云负载均衡上部署https证书的问题(详见一个空行引起的阿里云负载均衡上部署https证书的问题),并完成了部署,负载均衡的监听配置是这样的: 用户与负载均衡之间走https协议,负载 ...
bidi(双向文字)与RTL布局总结
BIDI 双向文字就是一个字符串中包含了两种文字,既包含从左到右的文字又包含从右到左的文字. 大多数文字都是从左到右的书写习惯,比如拉丁文字(英文字母)和汉字,少数文字是从右到左的书写方式比如阿拉伯文 ...
在GitHub注册账户的过程
(1)第一步:首先起一个属于自己用户的名字(username),用户名字只能包含字母数字的字符或者单个连字符,不能只用单个连字符开始或者结束(only contain alphanumeric cha ...
Android Studio 1.0.2项目实战——从一个APP的开发过程认识Android Studio
Android Studio 1.0.1刚刚发布不久,谷歌紧接着发布了Android Studio 1.0.2版本,和1.0.0一样,是一个Bug修复版本.在上一篇Android Studio 1.0 ...
.NET轻量级MVC框架：Nancy入门教程(一)——初识Nancy
当我们要接到一个新的项目的时候,我们第一时间想到的是用微软的MVC框架,但是你是否想过微软的MVC是不是有点笨重?我们这个项目用MVC是不是有点大材小用?有没有可以替代MVC的东西呢?看到这里也许你会 ...
一天一小段js代码（no.4）
最近在看网上的前端笔试题,借鉴别人的自己来试一下: 题目: 写一段脚本,实现:当页面上任意一个链接被点击的时候,alert出这个链接在页面上的顺序号,如第一个链接则alert(1), 依次类推. 有一 ...
【译】Activitys, Threads和内存泄露
Android编程中一个共同的困难就是协调Activity的生命周期和长时间运行的任务(task),并且要避免可能的内存泄露.思考下面Activity的代码,在它启动的时候开启一个线程并循环执行任务. ...
解决URL中文乱码问题
在做一个HTTPS连接时, 要客户端合成一段HTTPS地址如果地址含中文的话程序会crash, 检查发现原来是中文没有转码的原因在NSString库里面找到了下面两个方法 - (NSString ...

hadoop的概念

hadoop的概念

参考

hadoop的概念的更多相关文章

随机推荐

热门专题