聊起 BigTable,让你不再胆怯
谷歌“三驾马车”的出现,才真正把我们带入了大数据时代,并指明了大数据的发展方向。
GFS 作为其中一驾宝车,解决了大数据存储的难题。它能够把大量廉价的普通机器,聚在一起,充分让每台廉价的机器发挥光和热。其中在《从谷歌 GFS 架构设计聊开去》中我们针对 GFS 进行了管中窥豹,体会到其中一斑,不得不说是人多力量大,团结就是力量的体现。
MapReduce 作为其中一座宝驾出现,主要解决海量数据计算的头痛难题。在《悟懂MapReduce,不纠结!》中我们引入一个接地气的“农村掰玉米”的案例进行了 MapReduce 思想的体会,大体意思是说, Map 就像人手掰一垅玉米(有个别生玉米+多数熟玉米),负责掰就行;Reduce 就像有专门收生玉米的;有专门收熟玉米的,然后各自进行汇总统计。
简单去讲,GFS 解决了分布式文件的存储,MapReduce 解决了海量数据的计算。
但是天生好奇,心生疑问“实时在线应用的海量结构化数据该如何存储呢?”那么不得不提及谷歌的第三驾马车“BigTable”。
背景?
众所周知,Google 要存储海量的网页,而且要能够存储一个 URL 的不同时期的多个版本的网页内容(因为网页会不断的更新,所以爬虫也要不断的针对同一个 URL 进行爬取)。
上图是摘自 BigTable 的论文,老图配新曲,在此处主要用来阐述 BigTable 产生的其中一个背景,从中我们能够得出如下公式。
com.cnn.www + contents: + t3 => html网页内容
com.cnn.www + contents: + t5 => html网页内容
com.cnn.www + contents: + t6 => html网页内容
那么 Google 就需要设计一款类似以“URL + contents + time stamp”为 key,以“html 网页内容”为值的存储系统,于是就有了 BigTable 这个键值系统的存在。
是啥?
Bigtable is a distributed storage system for managing structured data that is designed to scale to a very large size: petabytes of data across thousands of commodity servers.
官方定义。Bigtable 是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通服务器上的 PB 级的数据。
说清楚 BigTable 存储啥样子?一段话(一箪食)
A Bigtable is a sparse, distributed, persistentmulti-dimensionalsorted map.The map is indexed by a row key, column key, and a timestamp;each value in the map is an uninterpreted array of bytes.
BigTable 是一个稀疏的、分布式的、持久化存储的多维度排序的 Map.(写过两天代码的都不陌生,Map 由 key 和 value 组成);
Map 的 key 是行关键字、列关键字以及时间戳组成;
Map 的 value 都是一个未经解析的 byte 数组。
看透彻 BigTable 存储啥样子?一张图(一瓢饮)
可以看出 BigTable 用三维(row 行关键字、column 列关键字、time 时间戳)方式定位数据,也就是以“行关键字、列关键字、时间戳”为 key 来定位数据;
我们也可以认为 BigTable 是属于 key-Value 的 NOSQL 数据库系列(为你在技术选型时再加一备选)。
一段话(一箪食)+ 一张图(一瓢饮) = BigTable(足矣)。
好了,到这应该对 BigTable 懵懵懂,如果感觉蒙圈、迷茫了,建议动动手指分享转发一下(言外之意:如果没看懂,就忽略此篇分享,莫要影响心情,因为愉悦的心情真的很重要!!!);如果感觉稍微有点意思或者豁然开朗,那就继续往下追。
设计?
默默跟随“一猿小讲”脚步的应该都清楚,GFS 也好、MapReduce 也罢,参与者角色都采取了简单就是美的大道至简的思想设计,都秉承了“一人掌权,其他人办事”的理念,那我们不妨看看 BigTable 背后是不是也是这样的设计呢?
BigTable 主要参与者:链接到客户程序中的库、一个 Master 服务器和多个 Tablet 服务器(这不就是咱们之前说 GFS 的皇上~宰相模式)。
Master服务器 (皇上)主要负责以下工作:
为 Tablet 服务器分配 Tablets;
检测新加入的或者过期失效的 Tablet 服务器;
对 Tablet 服务器进行负载均衡;
对保存在 GFS 上的文件进行垃圾收集;
对模式的相关修改操作,例如建立表和列族。
Tablet服务器 (宰相)主要负责以下工作:
管理一个 Tablet 的集合(通常每个服务器有大约数十个至上千个 Tablet);
负责处理它所加载的 Tablet 的读写操作;
负责在 Tablets 过大时,对其进行分割。
运转?
写操作。
Tablet 服务器首先检查这个操作格式是否正确、操作发起者是否有执行这个操作的权限;
如果校验通过,将写请求提交到日志 tablet log;
然后将数据写入内存中的 memtable;
当 memtable 存到一定规模会被冻结,Bigtable 随之创建一个新的 memtable,并将冻结的 memtable 写入分布式文件系统 GFS。
读操作。
Tablet 服务器首先进行完整性和权限检查;
然后将一系列 SSTable 和 memtable 的存储内容组成一个
大的视图,然后从中进行读取。
设计要点:读也好,写也罢,客户程序其实直接和 Tablet 服务器通信进行读写操作,所以 Master 服务器的负载是很轻的。
技术栈?
BigTable 使用 Google 的分布式文件系统 GFS作为底层数据存储。
BigTable 内部存储数据的文件是 Google SSTable 格式的;(SSTable 是一个持久化的、排序的、不可更改的 Map 结构,点一首杨坤的“无所谓”送给你,该纠结时纠结,不该纠结时莫纠结,重要的是心情愉悦)。
BigTable 使用 Chubby 提供协同服务管理(若懵圈了,就想想 ZooKeeper)。
思考?
画龙画虎难画骨!目前的一切还是浮于表象,有没有更进一步的认识呢?那就让时间来告诉我们吧!
好了,这篇分享都到这儿吧,希望你们能够喜欢,如果感觉有点帮助,那就动动手指转发分享一下吧。

聊起 BigTable,让你不再胆怯的更多相关文章
- Strophe.js连接XMPP服务器Openfire、Tigase实现Web私聊、群聊(MUC)
XMPP(Extensible Messaging and Presence Protocol)是一种网络即时通讯协议,它基于XML,具有很强的扩展性,被广泛使用在即时通讯软件.网络游戏聊天.Web聊 ...
- [转载]bigtable 中文版
转载厦门大学林子雨老师的译文 原文: http://dblab.xmu.edu.cn/post/google-bigtable/ Google Bigtable (中文版) 林子雨2012-05-08 ...
- 转:Google论文之一----Bigtable学习翻译
文章来自于:http://www.cnblogs.com/geekma/archive/2013/05/30/3108391.html Bigtable研究 摘要 Bigtable是一个用于管理结构型 ...
- 谷歌三大核心技术(三)Google BigTable中文版
谷歌三大核心技术(三)Google BigTable中文版 Bigtable:一个分布式的结构化数据存储系统 译者:alex 摘要 Bigtable是一个分布式的结构化数据存储系统,它被设计用来处理海 ...
- Tinychatserver: 一个简易的命令行群聊程序
这是学习网络编程后写的一个练手的小程序,可以帮助复习socket,I/O复用,非阻塞I/O等知识点. 通过回顾写的过程中遇到的问题的形式记录程序的关键点,最后给出完整程序代码. 0. 功能 编写一个简 ...
- 使用asyncsocket群聊
#import "ViewController.h" #import "AsyncSocket.h" @interface ViewController ()& ...
- Google Bigtable (中文版)
http://dblab.xmu.edu.cn/post/google-bigtable/ Abstract BigTable是一个分布式存储系统,它可以支持扩展到很大尺寸的数据:PB级别的数据,包含 ...
- Java Socket通信实现私聊、群聊
前言 闲言少叙,上代码! 代码编写 server服务端 /** * 服务端 */ public class Server { private static ServerSocket server = ...
- IM群聊消息究竟是存1份(即扩散读)还是存多份(即扩散写)?
1.前言 IM的群聊消息,究竟存1份(即扩散读方式)还是存多份(即扩散写方式)? 上一篇文章<IM群聊消息的已读回执功能该怎么实现?>是说,“很容易想到,是存一份”,被网友们骂了,大家争论 ...
随机推荐
- 在Linux上查询物理机信息-不用去拆机器了
目录 一.查看系统信息(包含机器型号) 1.1 查看机型和品牌 二.查看CPU 信息 2.1 查看CPU 型号 2.2 查看CPU的物理数量 2.3 查看 CPU核心数量(非逻辑CPU) 2.4 查看 ...
- 【07】openlayers 矢量图层
创建地图: //创建地图 var map = new ol.Map({ //设置显示地图的视图 view: new ol.View({ center: [0, 0],//义地图显示中心于经度0度,纬度 ...
- LeetCode 41,一题解读in-place思想
本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是LeetCode题解系列第21篇,今天来看一道人狠话不多的题目. 题面 题目非常简单,只有一句话,给定一个整数数组,要求返回最小的不在 ...
- vector的初始化方式及用法笔记(不断更新)
vector的初始化方式 1)第一种,类似于数组的方式:vector<string> letter(3);letter[0] = "find";letter[1] = ...
- nodeJS中定时任务cron的使用
cron模块可以帮助我们在node中定时执行任务.如果你的定时需求是简单的setInterval()与setTimeout()计时器所无法满足的比较复杂的定时规则,推荐使用cron来配置. 安装cro ...
- eclipse操作快捷键
Eclipse最全快捷键,熟悉快捷键可以帮助开发事半功倍,节省更多的时间来用于做有意义的事情. Ctrl+1 快速修复(最经典的快捷键,就不用多说了) Ctrl+D: 删除当前行 Ctrl+Alt+↓ ...
- 【简说Python WEB】数据库
目录 [简说Python WEB]数据库 数据库表 docker安装MySQL Flask-SQLAlchemy操纵MySQL数据库 初始化 定义模型 定义关系 数据库的CRUD操作 创建表 inse ...
- git 使用和一些错误
一.简单使用 Git是目前世界上最先进的分布式版本控制系统,用于自动记录每次文件的改动,但是和所有版本控制系统一样,只能跟踪文本文件的改动,比如TXT文件,网页,所有的程序代码等,而图片.视频这些二进 ...
- python之路---装饰器函数
阅读目录 楔子 装饰器的形成过程 开放封闭原则 谈装饰器主要功能和装饰器固定结构 带参数的装饰器 多个装饰器装饰一个函数 返回顶部 楔子 作为一个会写函数的python开发,我们从今天开始要去公司上班 ...
- 动态规划-Distinct Subsequences
2020-01-03 13:29:04 问题描述: 问题求解: 经典的动态规划题目,一般来说dp题目是递推关系公式难想,但是实际代码量还是比较少的. 有尝试过dfs来做,但是由于时间复杂度是指数级别的 ...