前言

近几年NoSQL数据库兴起,各种新的产品层出不穷,在此学习下NoSQL的基本理论,并认识下常见的NoSQL数据库。

一 NoSQL数据库兴起的原因

随着大数据技术兴起和Web2.0时代的到来。传统关系型数据库已经无法满足当前的数据库需求了。

无法满足的需求主要有3点:

  • 海量数据的存储与管理 (传统关系型数据库已经无法支撑
  • 大数据量下的并发性 (传统关系型数据库严格的事务机制导致了海量数据的操作会导致大范围的数据锁定,降低并发性
  • 高可用性,高扩展性(用户更关注是否功能可用。海量数据需要横向扩展数据库满足需求,纵向已经无法满足

与之相比原本关系型数据库的优点已经不被许多公司所需要,主要也有3点:

  • 严格的数据库事务(如微信,新浪微博等互联网公司,丢失一条消息等,ACID的实现与否并不是很重要
  • 严格的读写实时性(同理,一条消息服务器写入后,其他人是否立即看到并不太重要
  • 复杂的条件查询(为了节约硬件存储空间降低冗余,传统关系型数据库会将各种信息分表存储,但是现在硬件性能已经足够将信息全部存储。并不太需要复杂的多表查询操作

为了满足大数据量下的业务需求,传统关系型数据库也发展出多种技术手段,但是最终事实证明NoSQL数据库才是最适合的选择。传统关系型数据库的解决方案经历了如下几个阶段:

  1. 主从复制,实现读写分离。设置一个主服务器,若干从服务器。主服务器负责写操作,并实时复制修改内容到从服务器上。从服务器负责读操作。(但是对于写请求的负担仍然无法解决
  2. 分库,分流一部分请求。分库又分为横向分库和纵向分库,横向分库即将不同业务维度的数据库拆分开来,服务器根据业务场景,查询不同数据库。纵向分库即将数据行按照一定的规律分别存储到不同数据库内。如:根据hash,根据生产时间等。(但是导致了不同库之间不能直接查询,且仍然无法满足更大的数据要求
  3. 分表,类似于分库。通过横向或者纵向切分表。

二 NoSQL数据库的四大类型

分别是 :

  • 键值数据库
  • 列族数据库
  • 文档数据库
  • 图数据库

2.1 普遍的特性(优点)

  • 数据结构灵活。(传统关系型数据库有严格的字段要求,且后续修改复杂
  • 可扩展性强(容易横向扩展,支持分布式,且扩展的复杂度不高,对比传统关系型数据库的扩展非常复杂
  • 支持高并发操作。

2.2 各自的特性

  1. 键值数据库。是键值对的存储数据库。
  • 优点:适合大量写操作。
  • 缺点:但是存储的数据没有结构化,复杂查询效率低。
  • 应用:常用做内容缓存。
  • 代表产品:Redis,Memcached
  1. 列族数据库,底层基于列族进行存储的数据库。(查找时,基于行键列族查找,可以看做键值数据库的变种)
  • 优点:查询速度快,横向扩展性尤其好,适合分布式系统,屏蔽了分布式的复杂性。
  • 缺点:功能简单,大都不支持事务一致性。(Hadoop的HBase是支持的
  • 应用:分布式的数据存储。
  • 代表产品:Cassandra,HBase
  1. 文档数据库,基于键存储文档。(也可看做键值数据库的变种)
  • 优点:半结构化,数据格式可以自解释,如:JSON,XML。因此数据结构非常灵活,且并发性高。
  • 缺点:缺乏统一的查询语法
  • 应用:存储文档型数据,半结构化数据。
  • 代表产品:MongoDB,CouchDB
  1. 图数据库,基于图数据结构的数据库。
  • 优点:支持复杂的图算法与关系图谱
  • 缺点:只适合图和关系的应用领域,其他领域性能较差。
  • 应用:复杂图结构,如社交网络,关系图谱。
  • 代表产品:Neo4J,InfoGrid

三 NoSQL数据库的三大基石

3.1 CAP理论三个特性

  • C:一致性(任何一个读操作总是能读取到之前完成的写操作结果)
  • A:可用性(每一个操作总是能够在确定的时间内返回,也就是系统随时都是可用的)
  • P:分区容忍性(出现网络分区,整个系统仍然可用)

经过证明,一个分布式系统不能同时满足三个特性,最多满足两个。

传统关系型数据库满足了CA,放弃了P。因此扩展困难。而现在大部分互联网系统都是分布式系统,不可能放弃P特性。

通俗的解释下为何只能同时满足两个特性:

假设同时满足C和A和P。P保证了系统存在不同的网络节点,那么为了保证C,系统会尝试与其他的节点同步数据信息,但是出现网络问题导致系统分区时(即节点无法互相通信),会导致同步无法立刻完成,这样就无法满足A了。

此时只需要去除一个特性即可:

  1. 去除P,保留CA。则没有了网络通信问题,在实现C数据一致性时,可以很快的完成,也保证了A。
  2. 去除A,保留CP。则不要求立刻完成,在实现C数据一致性时,即使出现了网络分区P,也可以慢慢等待。
  3. 去除C,保留AP。则不需要保证数据一致性了,即使网络出现分区,各个节点都能单独运行,保证了用户可用(反正系统已经不在乎各个节点数据的一致了)。

3.2 BASE理论

BASE模型反ACID模型,完全不同ACID模型,牺牲高一致性,获得可用性。

  • BA:基本可用。一部分分区出现问题,系统仍然可用,主要保证核心功能可用。(电商大促时,为了应对访问量激增,部分用户可能会被引导到降级页面,服务层也可能只提供降级服务。这就是损失部分可用性的体现
  • S:软状态。数据的一致性要求降低,可以一段时间不满足一致性。相对应的是硬状态。(分布式存储中一般一份数据至少会有三个副本,允许不同节点间副本同步的延时就是软状态的体现。mysql replication的异步复制也是一种体现。
  • E:最终一致性。弱一致性,后续操作无法立刻获取更新的信息。相对应的是强一致性。最终一致性是特殊的弱一致性,只保证了。

3.3 最终一致性

(明明BASE就包含了最终一致性,不知道书中为何又将它单独列为三大理论基础之一)

NoSQL数据库兴起的更多相关文章

  1. NoSQL数据库探讨之一 - 为什么要用非关系数据库?

    随着互联网web2.0网站的兴起,非关系型的数据库现在成了一个极其热门的新领域,非关系数据库产品的发展非常迅速.而传统的关系数据库在应付 web2.0网站,特别是超大规模和高并发的SNS类型的web2 ...

  2. 15一个NoSql数据库

    随着因特网web2.0该网站的兴起.非关系型数据库,现在已经成为一个非常受欢迎的新领域.非关系数据库产品的发展非常迅速.而在处理传统的关系数据库web2.0现场.特别是大规模,高并发SNS类型web2 ...

  3. NoSQL数据库

    NoSQL数据库 1.NoSQL简介 最初表示"反SQL"运动,用新型的非关系型数据库取代关系数据库:现在表示"Not only SQL"关系和非关系型数据库各 ...

  4. Redis - NoSQL数据库技术(一)

    NoSQL入门概述(一) 作者 : Stanley 罗昊 [转载请注明出处和署名,谢谢!] 什么是NoSQL NoSQL(NoSQL - Not Only SQL),意“不仅仅是SQL”: 泛指非关系 ...

  5. 译:为什么使用 NoSQL 数据库

    原文链接:Why NoSQL Database? 向数据时代的转变正在推动 NoSQL 随着各行各业朝着数据时代转变,商业世界正在经历巨大的变革.这是由互联网以及其他二十一世纪新技术--云计算.移动应 ...

  6. 关系型数据库和NoSQL数据库

    一.数据库排名和流行趋势 1.1 Complete ranking 链接: https://db-engines.com/en/ranking 在这个网站列出了所有数据库的排名,还可以看到所属数据库类 ...

  7. NoSQL数据库--简介

    一.What's NoSQL? NoSQL,全称是”Not Only Sql”,指的是非关系型的数据库.这类数据库主要有这些特点:非关系型的.分布式的.开源的.水平可扩展的.原始的目的是为了大规模we ...

  8. Linux实战教学笔记44:NoSQL数据库开篇之应用指南

    第1章 NoSQL数据库 1.1 NoSQL概述 自关系型数据库诞生40年以来,从理论产生发展到现实产品,例如:大家最常见的MySQL和Oracle,逐渐在数据库领域里上升到了霸主地位,形成每年高达数 ...

  9. 第五章 大数据平台与技术 第13讲 NoSQL数据库

    NoSQL不是不用SQL,是Not only SQL,不仅仅是结构化的查询. NoSQL兴起的原因 在Web2.0时代新浪一分钟可以发送两万条微博,苹果可以下载4.7万次应用. 数据的高并发性,同时有 ...

随机推荐

  1. 制作WPF时钟之2

    原文:制作WPF时钟之2 前段时间写了一篇"制作简单的WPF时钟",今天再制作了一个更漂亮的WPF时钟,目前仅完成了设计部分,准备将它制作成一个无边框窗体式的时钟. 效果图:   ...

  2. WPF透明窗体制作

    原文:WPF透明窗体制作 窗体的样式: <Grid Width="{Binding Width, ElementName=w}" Height="{Binding ...

  3. Oracle 11g系统分区表中的新功能

    在11g有一个新的特点是分区表系统.下面做一个实验: SQL> select * from v$version; BANNER --------------------------------- ...

  4. Linux 获得了其首款基于 RISC-V 的多核开源处理器

    去年,硅谷创业公司 SiFive 发布了首款开源 SoC(片上系统 System on a Chip),命名为 Freeform Everywhere 310.现在,该公司从嵌入式系统领先一步,发布了 ...

  5. TestNg依靠先进的采用强制的依赖,并依赖序列的------TestNg依赖于特定的解释(两)

    原创文章,版权所有所有,转载,归因:http://blog.csdn.net/wanghantong TestNg使用dependsOnGroups属性来进行依赖測试, 測试方法依赖于某个或某些方法, ...

  6. Hadoop MapReduce编程入门案例

    Hadoop入门例程简介 一个.有些指令 (1)Hadoop新与旧API差异 新API倾向于使用虚拟课堂(象类),而不是接口.由于这更easy扩展. 比如,能够无需改动类的实现而在虚类中加入一个方法( ...

  7. Angular升级流程

    执行命令 ng update @angular/cli --migrate-only --from=1.7.1 npm install --save-dev @angular/cli@latest 注 ...

  8. Vue-cli入门(一)——项目搭建

    Vue-cli入门(一)——项目搭建 前言: Vue-cli是一款基于vue的项目脚手架工具,其集成了webpack环境和主要的依赖,对于我们的项目搭建.开发.打包.维护管理等都是非常的方便. 主要内 ...

  9. Win8 Metro(C#)数字图像处理--2.43图像马赛克效果算法

    原文:Win8 Metro(C#)数字图像处理--2.43图像马赛克效果算法  [函数名称] 图像马赛克效果        MosaicProcess(WriteableBitmap src, i ...

  10. 硬盘的结构和介绍,硬盘MBR详细介绍(超详细彩图)

    一.物理结构 1.磁道,扇区,柱面和磁头数 硬盘最基本的组成部分是由坚硬金属材料制成的涂以磁性介质的盘片,不同容量硬盘的盘片数不等.每个盘片有两面,都可记录信息.盘片被分成许多扇形的区域,每个区域叫一 ...