大数据时代数据库-云HBase架构&生态&实践

　　业务的挑战

　　存储量量/并发计算增大

　　现如今大量的中小型公司并没有大规模的数据，如果一家公司的数据量超过100T，且能通过数据产生新的价值，基本可以说是大数据公司了。起初，一个创业公司的基本思路就是首先架构一个或者几个ECS，后面加入MySQL,如果有图片需求还可加入磁盘，该架构的基本能力包括事务、存储、索引和计算力。随着公司的慢慢发展，数据量在不断地增大，其通过MySQL及磁盘基本无法满足需求，只有分布式化。这个时候MySQL变成了HBase,检索变成了Solr/ES，再ECS提供的计算力变成了Spark。但这也会面临存储量大且存储成本高等问题。

如果你想了解大数据的学习路线，想学习大数据知识以及需要免费的学习资料可以加群：784789432.欢迎你的加入。每天下午三点开直播分享基础知识，晚上20:00都会开直播给大家分享大数据项目实战。

　　非结构化业务增多

　　另外一个趋势就是非结构化的数据越来越多，数据结构的模式不仅仅是SQL，时序、时空、graph模式也越来越多，需要一些新的存储结构或新的算法去解决这类问题，也意味着所需要做的工程量就会相对较高。

　　引入更多的数据

　　对于数据处理大致可归类为四个方面，分别是复杂性、灵活性、延迟<读,写>和分布式，其中分布式肯定是不可少的，一旦缺少分布式就无法解决大规模问题。灵活性的意思是业务可以任意改变的;复杂性就是运行一条SQL能够访问多少数据或者说SQL是否复杂;延迟也可分为读与写的延迟。hadoop & Spark可以解决计算复杂性和灵活性，但是解决不了延迟的问题;HBase&分布式索引、分布式数据库可以解决灵活性与延迟的问题，但由于它没有很多计算节点，所以解决不了计算复杂性的问题。Kylin(满足读延迟)在计算复杂性与延迟之间找了一个平衡点，这个平衡点就是怎样快速出报表，但对于这个结果的输入时间我们并不关心，对于大部分的报表类的需求就是这样的。每个引擎都是一定的侧重，没有银弹!

　　ApsaraDB HBase产品架构及改进

　　应对的办法

　　我们也不能解决所有的问题，我们只是解决其中大部分的问题。如何找到一个在工程上能够解决大部分问题的方案至关重要，应对办法：

　　分布式：提供扩展性

　　计算力延伸：算子+SQL，从ECS到Spark其本质其实就是一种计算力的延伸

　　分层设计：降低复杂性，提供多模式的存储模型

　　云化：复用资源&弹性，降低成本

　　基本构架

　　首先包含了两个分离

　　分别是HDFS与分布式Region分布式检索分离

　　SQL时空图时序Cube与分布式Region检索分离

　　大致的分层机构如下：

　　第一层：介质层，热SSD介质、温SSD&SATA 混合、冷纯SATA(做EC)

　　第二层：分布式文件系统，也就是盘古。事实上越是底层越容易做封装优化。

　　第三层：分布式安全隔离保障层QOS，如果我们做存储计算分离，就意味着底层的三个集群需要布三套，这样每个集群就会有几十台甚至几百台的节点，此时存储力是由大家来均摊的，这就意味着分布式安全隔离保障层要做好隔离性，引入QOS就意味着会增加延迟，此时会引入一些新的硬件(比如RDMA)去尽可能的减小延迟。

　　第四层：分布式文件接口：HDFS & API(此层看情况可有可无)

　　第五层：我们提供了两个组件，分布式Region-HBase与分布式检索-Solr，在研究分布索引的时候发现单机索引是相对简单的，我们提供针对二级索引采取内置的分布式Region的分布式架构，针对全文索引采取外置Solr分布式索引方案

　　第六层：建设在分布式KV之上，有NewSQL套件、时空套件、时序套件、图套件及Cube套件

　　另外，可以引入spark来分析，这个也是社区目前通用的方案

　　解决成本的方案

　　对于解决成本的方案简单介绍如下：

　　分级存储：SSD与SATA的价格相差很多，在冷数据上，我们建议直接采取冷存储的方式，可以节约500%的成本

　　高压缩比：在分级存储上有一个较好的压缩，尤其是在冷数据，我们可以提高压缩比例，另外分布式文件系统可以采取EC进一步降低存储成本，节约100%的成本

　　基础设施共享：库存压力分担，云平台可以释放红利给客户

　　存储与计算分离：按需计费

　　优化性能：再把性能提升1倍左右

　　云数据库基本部署结构

　　假设在北京有三个机房可用区A、B和C,我们会在可用区A中部署一个热的存储集群，在北京整体区域部一个冷的存储集群，实际上有几个可用区就可以有几个热集群，主要是保障延迟的;冷集群对延迟相对不敏感，可以地域单独部署，只要交换机满足冷集群所需的带宽即可。这样的好处是三个区共享一个冷集群，就意味着可以共享库存。

　　ApsaraDB HBase产品能力

　　我们提供两个版本，一是单节点版，其特点是给开发测试用或者可用性不高，数据量不大的场景。二是集群版本其特点是高至5000w QPS，多达10P存储与高可靠低延迟等。

　　• 数据可靠性：99.99999999%：之所以可靠性可以达到如此之高，其核心的原因就是存储集群是单独部署的，其会根据机架等进行副本放置优化

　　服务可用性：单集群99.9% 双集群99.99%。

　　服务保障：服务未满足SLA赔付。

　　数据备份及恢复。

　　数据热冷分离分级存储。

　　企业级安全：认证授权及加密。

　　提供检索及二级索引及NewSQL能力。

　　提供时序/图/时空/Cube相关能力。

　　与Spark无缝集成，提供AP能力。

　　数据备份及恢复

　　备份分为全量备份HFile与增量量备份HLog;恢复分为HLog转化为HFile和BulkLoad加载。阿里云集团迄今为止已经有一万两千多台的HBase,大部分都是主备集群的，在云上由于客户成本的原因，大部分不选择主备，所以需要对数据进行备份。其难点在于备份需要引入计算资源，我们需要引入弹性的计算资源来处理备份的相关计算任务

　　Compaction 离线Compaction(研究中)

　　我们在内部研究如何通FPGA对Compaction进行加速，这会使得集群运行比较平缓，特别是对计算资源少，存储量大的情况下，可以通过离线的作业处理Compaction。

　　组件层

　　我们有5中组件，NewSQL(Phoenix)、时序OpenTSDB、时空GeoMesa、图JanusGraph及Cube的Kylin，及提供HTAP能力的Spark。这里简单描述几个，如下：

　　NewSQL-Phoenix

　　客户还是比较喜欢用SQL的,Phoenix会支持SQL及二级索引，在超过1T的数据量的情况下，对事务的需求就很少(所以我们并没有支持事务);二级索引是通过再新建一张HBase表来实现的。在命中索引的情况下，万亿级别的访问基本在毫秒级别，但由于Phoenix聚合点在一个节点，所以不能做Shuffle类似的事情，同时也就不能处理复杂的计算，所以任何说我是HTAP架构的，如果不能做Shuffle，就基本不能做复杂的计算。

　　HTAP-Spark

　　在HTAP-Spark这部分主要介绍一下RDD API、 SQL、直接访问HFile，它们的特点如下：

　　RDD API具有简单方便，默认支持的特点，但高并发scan大表会影响稳定性;

　　SQL支持算子下推、schema映射、各种参数调优，高并发scan大表会影响稳定性;

　　直接访问HFile，直接访问存储不经过计算，大批量量访问性能最好，需要snapshot对齐数据。

　　时序-OpenTSDB & HiTSDB

　　TSD没有状态，可以动态加减节点，并按照时序数据的特点设计表结构，其内置针对浮点的高压缩比的算法，我们云上专业版的HiTSDB增加倒排等能力，并能够针对时序增加插值、降精度等优化。

　　大数据数据库的实际案例

　　以下简单介绍几个客户的案例，目前已经在云上ApsaraDB HBase运行，数据量基本在10T以上：

　　某车联网公司

　　这是一个车联网的客户，有100万车，每辆车每10秒上传一次，每次1KB，这样一年就有300T数据，六个月以上是数据低频访问，所以他要做分级存储，把冷数据放到低介质上

　　某大数据控公司

　　这是一个大数据控公司，它大约有200T+的数据量，将HBase数据 (在线实时大数据存储)作为主数据库，先用HBase做算法训练，再用HBase SQL出报表，另外做了一套ECS进行实时查以便与客户之间进行数据交换。

　　某社交公司

　　社交会有大量的推荐，所以SLA要求高达99.99，并采用双集群保障，单集群读写高峰QPS 可以达到1000w+，数据量在30T左右。

　　某基金公司

　　这是一个金融公司，它有10000亿以上的交易数据，目前用多个二级索引支持毫秒级别的查询，数据量在100T左右

　　某公司报表系统

　　先离线建好Cube再把数据同步到HBase中，实时数据通过Blink对接进行更新，数据量在可达20T左右。

　　封神：真名曹龙，09年加入阿里，现任阿里云高级技术专家、架构师，专注于大数据分布式计算、数据库、存储领域，先后研发上万台Hadoop、ODPS集群，负责阿里YARN、Spark及自主研发内存计算引擎，目前为广大公共云用户提供专业的云HBase数据库及计算服务
。

大数据时代数据库-云HBase架构&生态&实践的更多相关文章

柯南君：看大数据时代下的IT架构（3）消息队列之RabbitMQ-安装、配置与监控
柯南君:看大数据时代下的IT架构(3)消息队列之RabbitMQ-安装.配置与监控一.安装 1.安装Erlang 1)系统编译环境(这里采用linux/unix 环境) ① 安装环境虚拟机:VMw ...
看大数据时代下的IT架构（1）业界消息队列对比
一.MQ(Message Queue) 即消息队列,一般用于应用系统解耦.消息异步分发,能够提高系统吞吐量.MQ的产品有很多,有开源的,也有闭源,比如ZeroMQ.RabbitMQ. ActiveM ...
柯南君：看大数据时代下的IT架构（5）消息队列之RabbitMQ--案例（Work Queues起航）
二.Work Queues(using the Java Client) 走起在第上一个教程中我们写程序从一个命名队列发送和接收消息.在这一次我们将创建一个工作队列,将用于分发耗时的任务在多个工 ...
柯南君：看大数据时代下的IT架构（4）消息队列之RabbitMQ--案例（Helloword起航）
柯南君:看大数据时代下的IT架构(4)消息队列之RabbitMQ--案例(Helloword起航) 二.起航本章节,柯南君将从几个层面,用官网例子讲解一下RabbitMQ的实操经典程序案例,让大家重 ...
柯南君：看大数据时代下的IT架构（9）消息队列之RabbitMQ--案例（RPC起航）
二.Remote procedure call (RPC)(using the Java client) 三.Client interface(客户端接口) 为了展示一个RPC服务是如何使用的,我们将 ...
柯南君：看大数据时代下的IT架构（6）消息队列之RabbitMQ--案例（Publish/Subscribe起航）
二.Publish/Subscribe(发布/订阅)(using the Java Client) 为了说明这个模式,我们将构建一个简单的日志系统.它将包括两个项目: 第一个将发出日志消息第二个将接 ...
柯南君：看大数据时代下的IT架构（2）消息队列之RabbitMQ-基础概念详细介绍
一.基础概念详细介绍 1.引言你是否遇到过两个(多个)系统间需要通过定时任务来同步某些数据?你是否在为异构系统的不同进程间相互调用.通讯的问题而苦恼.挣扎?如果是,那么恭喜你,消息服务让你可以很轻松 ...
柯南君：看大数据时代下的IT架构（8）消息队列之RabbitMQ--案例（topic起航）
二.Topic(主题) (using the Java client) 上一篇文章中,我们进步改良了我们的日志系统.我们使用direct类型转发器,使得接收者有能力进行选择性的接收日志,,而非fano ...
柯南君：看大数据时代下的IT架构（7）消息队列之RabbitMQ--案例（routing 起航）
二.Routing(路由) (using the Java client) 在前面的学习中,构建了一个简单的日志记录系统,能够广播所有的日志给多个接收者,在该部分学习中,将添加一个新的特点,就是可以只 ...

随机推荐

Linux下tomcat端口、自启问题
一.防火墙开放8080端口命令: 以下命令只针对 CentOs 7 以上版本,CentOS升级到7之后,使用firewalld代替了原来的iptables: 启动: # systemctl star ...
mysql在linux下的安装mysql-5.6.33
一.下载源码包 wget http://mirrors.sohu.com/mysql/MySQL-5.6/mysql-5.6.35-linux-glibc2.5-x86_64.tar.gz 二.解压源 ...
[Vijos 1768] 顺序对的值
顺序对的值描述给定一个序列a,a中任意两个元素都不等.如果i<j,且a[i]<a[j],则我们称a[i],a[j]为一个顺序对,这个顺序对的值是指a[i+1],a[i+2]…….a[j ...
Selenium2+python自动化
一.打开网站1.第一步:从selenium里面导入webdriver模块2.打开Firefox浏览器(Ie和Chrome对应下面的)3.打开百度网址二.设置休眠1.由于打开百度网址后,页面加载需要几秒 ...
Hdfs&MapReduce测试
Hdfs&MapReduce测试测试上传文件到hdfs 随意打开一个文件夹传一个文件试试(把javafx-src.zip传到hdfs的/根目录下):hadoop fs -put javaf ...
codeforces 633E Startup Funding（浮点数处理）
codeforces 633E Startup Funding 题意枚举左端点,对于每个左端点求一个最大的右端点使得最大. 对于得到的这个数组,随机选择k个数,求最小值期望. 题解对于每个左端点, ...
Echarts 嵌套饼图实现，内环点击控制外环显示
Echarts有交互事件,但是如果用其进行图形变更,恐怕就只有重新修改配置了. 如图,我想要实现,内圈的数据控制外圈的图形,当点击内环的某一块时,就可以实现,更改外环的目的. 起初我想能不能直接修改o ...
转一篇shell中关于各种括号的讲解
shell中各种括号的作用().(()).[].[[]].{} 一.小括号,圆括号()1.单小括号 () ①命令组.括号中的命令将会新开一个子shell顺序执行,所以括号中的变量不能够被脚本余下的 ...
angularJs的工具方法1
一.angular.bind(); 改this指向 <!DOCTYPE HTML> <html ng-app> <head> <meta http-equ ...
ubuntu服务器下tomcat安装（不推荐使用apt-get）
最近在阿里云服务器上装tomcat,一开始为了省事直接使用了apt-get安装,结果整个程序被拆开散到了好多地方,尤其是像网上说要把打包好了.war文件放到webapps文件夹下,但是开始并没有在/u ...

大数据时代数据库-云HBase架构&生态&实践

大数据时代数据库-云HBase架构&生态&实践的更多相关文章

随机推荐

热门专题