为什么NoSql快--磁盘顺序写

数据写入方式

1. update-in-place原地更新

2. append-only btree/copy on write tree顺序文件末尾追加

数据被按照特定方式放置，提升读性能，但写性能下降，对b+树和hash更新时需要随机读写：

1. 二分查找，将文件数据有序保存，使用二分查找来完成指定key的查找

2. 哈希，用哈希将数据分割为不同的bucket

3. B+树，减少外部文件的读取

4. 外部文件，将数据保存为日志，并创建一个hash或者查找树映射相应的文件

存储结构（磁盘因为寻道等因素，顺序读取比随机读取块N个数量级）：

将整个磁盘就看做事一个日志，在日志中存放永久性数据及其索引，每次都添加到日志末尾；

通过将很多小文件的存储转换为连续的大批量传输，是的对于文件系统的大多数存取都是顺序性的，从而提高磁盘宽带利用率，故障恢复速度快。

简单来说分为一部分常驻内存，可以为任何方便键值查找的数据结构，另一个常驻硬盘，与B-Tree类似，这部分经常访问的节点也会被缓存在内存中

首先将日志文件写入插入操作日志。然后写入内存部分。当内存接近阈值则滚动合并到硬盘。

将数据添加到文件，因为完全顺序，所以写操作性能优秀，但从日志文件读一些数据将比写操作消耗更多的时间，需要倒序扫描，知道找到所需内容。

日志适用的场景：

数据是被整体访问，WAL（write-ahead-log）

知道明确的offset，kafka

Log-Structured Merge-Tree，LSM-tree

将之前使用的一个大的查找结构变换为将写操作顺序的保存到一些相似的有序文件（sstable）中。每个文件包含了短时间段内的一些改动，因为文件有序，后续查找也会很快。文件不可修改，永远不会更新，新操作只会写到新文件中，读写检查所有文件，通过周期性的合并来减少文件的个数。保持了日志文件的写性能，让操作顺序化，不断追加而不是修改，延迟更新，批量写入硬盘，适合于大量插入环境

写操作被分批处理，只写到顺序块上，周期性合并会影响IO，都操作有可能访问大量的文件（散乱的读）

更新操作-》内存缓存（memtable）中使用树结构来保持key有序-》WAL写磁盘防丢/恢复/-》达到一定规模刷到磁盘上一个新文件里，这里简单生成新文件没有编辑，所以是顺序写，速度快

越多的数据到存储系统中，就会有越多的不可修改的顺序sstable文件被创建，他们代表了小的，按时间顺序的修改，系统周期性发起compaction，合并文件删除重复冗余，减少文件个数，保证都操作的性能，因为sstable是有序结构，所以合并非常高效

读操作-》先检查内存数据（memtable）-》没有这个key-》逆序一个个检查sstable直到找到。

因为需要遍历所有sstable，当数量过多性能就会下降，一方面系统周期性合并sstable，用cache等技术，另一方面使用bloom来避免大量的读文件操作。

周期合并（按层/按文件大小）：为了保证LSM读取速度，所以需要维护并减少sstable文件个数

为什么NoSql快--磁盘顺序写的更多相关文章

深入理解 linux磁盘顺序写、随机写
一.前言 ● 随机写会导致磁头不停地换道,造成效率的极大降低:顺序写磁头几乎不用换道,或者换道的时间很短 ● 本文来讨论一下两者具体的差别以及相应的内核调用二.环境准备组件版本 OS Ubunt ...
磁盘IO单线程顺序写时最快的，如果多线程写，磁盘的磁头要不断重新寻址，所以写入速度反而会慢
(1) 读写最好还是不要多线程,硬盘读写的速度有限,单线程时已经满负荷了,多线程又会增加线程之间的切换,会增加时间. 如果想增加读写速度,应该增加硬盘,做raid (2)首先是硬盘的写入是串行的,CP ...
SQL Server Log文件对磁盘的写操作大小是多少
原文:SQL Server Log文件对磁盘的写操作大小是多少 SQL Server 数据库有三种文件类型,分别是数据文件.次要数据文件和日志文件,其中日志文件包含着用于恢复数据库的所有日志信息,SQ ...
dd 工具使用; SSD 顺序写性能测试；
dd 工具使用: dd 也是我们经常使用到的磁盘测试工具,Linux服务器装好系统之后,想要知道硬盘的读写是否能满足服务的需要,如果不满足硬盘的IO就是服务的一个瓶颈.我们可以使用dd命令简单进行测试 ...
XEvent – SQL Server Log文件对磁盘的写操作大小是多少
原文:XEvent – SQL Server Log文件对磁盘的写操作大小是多少本篇是上一篇SQL Server Log文件对磁盘的写操作大小是多少的续,使用XEvent收集SQL Server D ...
SSD 为什么顺序写比随机写性能更好？
SSD以Page为单位做读写,以Block为单位做垃圾回收,Page一般有16KB大小,Block一般有几十MB大小,SSD写数据的逻辑是: 1)将该块数据所在的Page读出 2)修改该Page中该块 ...
Log4J是Apache组织的开源一个开源项目，通过Log4J，可以指定日志信息输出的目的地，如console、file等。Log4J采用日志级别机制，请按照输出级别由低到高的顺序写出日志输出级别。
Log4J是Apache组织的开源一个开源项目,通过Log4J,可以指定日志信息输出的目的地,如console.file等.Log4J采用日志级别机制,请按照输出级别由低到高的顺序写出日志输出级别. ...
你知道hover、active这四个伪类为什么要按顺序写吗
刨根问底,你知道:hover等4个伪类为什么要按顺序排列吗引言 :link,:visited,:hover,:active这4个伪类大家都不陌生,4个伪类要按照LvHa这个爱恨原则来排(外国友人起的 ...
Spring Data Redis 让 NoSQL 快如闪电(2)
[编者按]本文作者为 Xinyu Liu,文章的第一部分重点概述了 Redis 方方面面的特性.在第二部分,将介绍详细的用例.文章系国内 ITOM 管理平台 OneAPM 编译呈现. 把 Redis ...

随机推荐

C#获取本机IP地址（ipv4）
获取本机所有IP地址: 这些地址是包含所有网卡(虚拟网卡)的ipv4和ipv6地址. string name = Dns.GetHostName(); IPAddress[] ipadrlist = ...
转-使用 CefSharp 在 C# App 中嵌入 Chrome 浏览器
使用 CefSharp 在 C# App 中嵌入 Chrome 浏览器 2016-09-23 分类:.NET开发.编程开发.首页精华0人评论分享到:更多3 本文由码农网 – 小峰原创翻译,转载 ...
TFS撤销其他人的迁出
1.cd C:\Program Files (x86)\Microsoft Visual Studio 10.0\Common7\IDE 2.查看工作区tf workspaces /owner:zho ...
POSIX 消息队列之概述链接方式
NAMEmq_overview —— POSIX消息队列概述 DESCRIPTIONPOSIX消息队列允许进程以消息的形式交换数据.此API与System V消息队列(msgget(2),msgsnd ...
在VS2010中配置ICE插件的步骤
ICE为不同的IDE都提供了插件.本文介绍VS2010下的配置. 首先建立一个控制台工程,以此为例,进行介绍. 1.激活插件选择工具-> IceConfiguration或者在工程右键选择Ic ...
vertical-align表单元素垂直对齐
原文地址:http://www.blueidea.com/tech/web/2009/6910.asp 最近的项目涉及到很多表单的制作,特别是复选框(checkbox)和单选框(radio).但是在前 ...
Linux 命令集合-错误
错误1 说明:在linux下,./xxx.sh执行shell脚本时会提示No such file or directory.但shell明明存在,为什么就是会提示这个呢? 这种其实是因为编码方式不对, ...
apache 服务器在ubuntu上图片无法显示解决
很简单的一段代码实例: <!DOCTYPE html> <html> <body> <h2>Welcome here!</h2> <i ...
mdm9x07 ATC AT+QCFG usbnet
1 中文AT命令详解 1.1. AT+QCFG 扩展配置 AT+ QCFG 扩展配置测试命令 AT+QCFG=? 响应 …… +QCFG: "usbnet" ...
在ie6下的png图片的兼容问题
png图片在ie6下是这样的: 正确样式: 这样解决: html代码: <body> <div class="gys"></div> </ ...

为什么NoSql快--磁盘顺序写

为什么NoSql快--磁盘顺序写的更多相关文章

随机推荐

热门专题