一、背景介绍

  我们生活在一个互联网的时代,这个时代的特点是,无论任何事情,只要我们想知道,都可以通过互联网迅速的检索到问题的答案,并且答案是有用的,并非常切合我们的需要。

  因此,很多公司都开始致力于提供更加有针对性的,个性化的服务。因为这种能力会直接影响公司在商业上的成败

  为什么以前我们没有出现这样的服务呢?是因为我们不需要这些信息?还是其他原因呢?

  因为以前缺乏“划算”的方式来存储所有信息。因此,公司可能会忽略掉某些数据源,但这种方式站在今天,会让公司失去竞争力,因为大数据时代的到来,今天的我们不仅只关心“开始”与“结束”,我们更关心中间的过程。

  通过将相应“过程”信息存储在计算机中,我们可以利用新机器学习算法的引入,收集更多数据需求,为我们的客户提供更切合需求的定制化服务,真正实现“私人定制”的目标;

  而实现这一切的“起点”,首先需要解决的就是——“存” 。

二、Hbase

  Hbase和Hadoop都是Apache软件基金会下的顶级子项目。HBase是一个分布式的、面向列的开源数据库。该技术思想来源于Google发表的“Bigtable”论文;

  HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库,另一个不同的是HBase基于列的而不是基于行的模式。

三、优势对比

  传统关系型数据库的缺陷:

  1、高并发读写的瓶颈
  2、可扩展性的限制
  3、数据量大的查询的负面影响
  4、复杂SQL查询的弱化

  非关系型数据库的优势:

  1、可扩展性强
  2、并发性能好
  3、数据模型灵活

四、应用领域

  2006年底由PowerSet 的Chad Walters和Jim Kellerman 发起,2008年成为Apache Hadoop的一个子项目,目前,Hbase和Hadoop都是Apache基金会下的顶级项目。

   

  国外应用:Facebook、Yahoo、Adobe、Twitter、Trend Micro、ebay。
  国内应用:阿里巴巴、苏宁、京东、腾讯、百度、新浪、人人网、中国移动、乐视、优酷、联想。

   

  学科领域的应用:金融、生物信息学、智能电网、销售、基因组学、移动电话服务、军事、环境工程。

五、Hbase与Hadoop

  Hbase是搭建在Hadoop之上的,Hbase可单独使用,即只做存储功能,也可与Hadoop可实现无缝集成。

  存放在Hbase的数据可直接通过Hadoop来进行分析,Hadoop分析后的结果可直接写入Hbase中。

  HDFS(Hadoop Distributed File System)只是一个存储空间,Hbase是一个内存数据库,Hbase中的表、索引等是存在HDFS之上的,总而言之,Hbase所有数据文件在HDFS上存储。

六、应用场景

  1、大数据量且有快速随机访问的需求
  2、数据容量的横向扩展
  3、业务场景简单,不需要关系数据库中很多特性(例如事务,连接等等)
  4、需要很高的读写吞吐量
  5、存储结构化和半结构化的数据

Hbase简单介绍的更多相关文章

  1. Phoenix(sql on hbase)简单介绍

    Phoenix(sql on hbase)简单介绍 介绍: Phoenix is a SQL skin over HBase delivered as a client-embedded JDBC d ...

  2. 一起学HBase——简单介绍HBase各种组件

    HBase是谷歌BigTble的开源实现.谷歌的三篇论文拉开了大数据江湖的序幕,铸就了现在以Hadoop为主的大数据技术生态圈.而HBase是开源的大数据数据库,和传统的行式数据库不同的是,HBase ...

  3. Hbase:简单介绍一下Hbase表的结构

    HBase 是一个NoSQL数据库,用于处理海量数据,可以支持10亿行百万列的大表,下面我就和大家分享一下数据是如何存放在HBase表中的 为了更好的理解HBase表的思路,先回顾一下关系数据库中表的 ...

  4. Cloudera impala简单介绍及安装具体解释

    一.Impala简单介绍 Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL.除了像Hive使用同样的统一存储平台,Impala也使 ...

  5. Hadoop简单介绍

    Hadoop历史 雏形开始于2002年的Apache的Nutch,Nutch是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. 随后在2003 ...

  6. HDFS简单介绍及用C语言訪问HDFS接口操作实践

    一.概述 近年来,大数据技术如火如荼,怎样存储海量数据也成了当今的热点和难点问题,而HDFS分布式文件系统作为Hadoop项目的分布式存储基础,也为HBASE提供数据持久化功能,它在大数据项目中有很广 ...

  7. Python常用的库简单介绍一下

    Python常用的库简单介绍一下fuzzywuzzy ,字符串模糊匹配. esmre ,正则表达式的加速器. colorama 主要用来给文本添加各种颜色,并且非常简单易用. Prettytable ...

  8. 【Hadoop离线基础总结】Hue的简单介绍和安装部署

    目录 Hue的简单介绍 概述 核心功能 安装部署 下载Hue的压缩包并上传到linux解压 编译安装启动 启动Hue进程 hue与其他框架的集成 Hue与Hadoop集成 Hue与Hive集成 Hue ...

  9. 【Hadoop离线基础总结】impala简单介绍及安装部署

    目录 impala的简单介绍 概述 优点 缺点 impala和Hive的关系 impala如何和CDH一起工作 impala的架构及查询计划 impala/hive/spark 对比 impala的安 ...

  10. Linux配置zookeeper 和zookeeper简单介绍

    一.zookeeper介绍? 一.zookeeper 简单介绍? 1.什么是集群? // 很多台服务器保持连接通讯状态,并且所有的服务器做同一件事就称之为集群 2.什么是zookeeper? 注册中心 ...

随机推荐

  1. Vue tinymce富文本编辑器整合

    最近再弄一个后台管理系统,挑选了不少的编辑器,最终选择了tinymce,UI精美,功能模块多,可按需加载配置 vue cli 3 + tinymce5.0版本整合参考:https://liubing. ...

  2. SpringBoot 动态数据源

    SpringBoot 实现动态数据源切换 Spring Boot + Mybatis Plus + Druid + MySQL 实现动态数据源切换及动态 SQL 语句执行. 项目默认加载 applic ...

  3. C# 排序算法2:选择排序

    选择排序法 ,是在要排序的一组数中,选出最小(或最大)的一个数与第一个位置的数交换:在剩下的数当中找最小的与第二个位置的数交换,即顺序放在已排好序的数列的最后,如此循环,直到全部数据元素排完为止. 原 ...

  4. 扒一扒迅雷11新功能——6T云盘功能、极致传输、高清播放、跨端同步

    云盘功能 极致传输 高清播放 跨端同步

  5. Mysql 查询优化及索引优化总结

    本文为博主原创,转载请注明出处: 一.Mysql 索引的优缺点: 优点:加快数据的检索速度,这是应用索引的主要用途: 使用唯一索引可以保证数据的唯一性 缺点: 索引也需要占用物理空间,并不是索引越多越 ...

  6. 使用Amber计算单点能三步走

    技术背景 Amber是一个在分子动力学中非常常用的一个软件,可以用于进行分子动力学模拟计算,可以与一些软件配合进行增强采样.这里我们简单介绍一下如何使用Amber去计算一个分子构象的单点势能值,及其对 ...

  7. 问题--去除CSDN水印

    1.问题如上 有时候需要使用其中的图片,但是水印很让人烦恼 确实可以用PS中的修复画笔工具,修复工具等进行处理 但是当水印覆盖到字体时,就会破坏到原有字体 2.解决方式 从CSDN添加水印的方式入手 ...

  8. [转帖]46岁加入谷歌,51岁发明Go,他的编程原则影响了一大批程序员!

    https://www.zhihu.com/tardis/zm/art/551945410?source_id=1005 今年3月,万众瞩目的Go 1.18版本发布,Go终于开始支持泛型了!该版本不仅 ...

  9. [转帖]mysql8.0 MySQL函数

    PART1. MySQL函数介绍 函数表示对输入参数值返回一个具有特定关系的值,MySQL提供了大量丰富的函数,在进行数据库管理以及数据的查询和操作时将会经常用到各种函数.各类函数从功能方面主要分为数 ...

  10. [转帖]如何在一个Docker中同时运行多个程序进程?

    https://cloud.tencent.com/developer/article/1683445 我们都知道Docker容器的哲学是一个Docker容器只运行一个进程,但是有时候我们就是需要在一 ...