MYSQL之B+TREE索引原理

1.什么是索引？

索引：加速查询的数据结构。

2.索引常见数据结构

顺序查找：最基本的查询算法-复杂度O（n）,大数据量此算法效率糟糕。
二叉树查找：（binary tree search）: O(log2n) ，二叉查找树根节点固定，非平衡。树高度深，高度决定io次数，io耗时大。
hash索引无法满足范围查找。
二叉树、红黑树：导致树高度非常高(平衡二叉树一个节点只能有左子树和右子树),逻辑上很近的节点（父子）物理上可能很远，无法利用局部性，IO次数多查找慢,效率低。todo 逻辑上相邻节点没法直接通过顺序指针关联，可能需要迭代回到上层节点重复向下遍历找到对应节点，效率低。
B-Tree：结构：B-TREE 每个节点都是一个二元数组: [key, data]，所有节点都可以存储数据。key为索引key,data为除key之外的数据。

　　　　　　　　检索原理：首先从根节点进行二分查找，如果找到则返回对应节点的data，否则对相应区间的指针指向的节点递归进行查找，直到找到节点或未找到节点返回null指针。

　　　　　　　　缺点：1.插入删除新的数据记录会破坏B-Tree的性质，因此在插入删除时，需要对树进行一个分裂、合并、转移等操作以保持B-Tree性质。造成IO操作频繁。2.区间查找可能需要返回上层节点重复遍历，IO操作繁琐。

B+Tree：B-Tree的变种，与B-Tree相比，B+Tree有以下不同点：非叶子节点不存储data，只存储索引key；只有叶子节点才存储data。

　　　　Mysql中B+Tree：在经典B+Tree的基础上进行了优化，增加了顺序访问指针。在B+Tree的每个叶子节点增加一个指向相邻叶子节点的指针，就形成了带有顺序访问指针的B+Tree。这样就提高了区间访问性能：如果要查询key为从18到49的所有数据记录，当找到18后，只需顺着节点和指针顺序遍历就可以一次性访问到所有数据节点，极大提到了区间查询效率(无需返回上层父节点重复遍历查找减少IO操作)。

结构如下：

3.为什么Mysql选择B+TREE索引? B+TREE索引有什么好处?

　　　　索引本身也很大，不可能全部存储在内存中，因此索引往往以索引文件的形式存储的磁盘上。这样的话，索引查找过程中就要产生磁盘I/O消耗，相对于内存存取，I/O存取的消耗要高几个数量级，所以索引的结构组织要尽量减少查找过程中磁盘I/O的存取次数，提升索引效率。

磁盘存取原理：

　　　　索引一般以文件形式存储在磁盘上，索引检索需要磁盘I/O操作。与主存不同，磁盘I/O存在机械运动耗费，因此磁盘I/O的时间消耗是巨大的。

4.B-/+Tree索引的性能优势：一般使用磁盘I/O次数评价索引优劣。

1.结合操作系统存储结构优化处理： mysql巧妙运用操作系统存储结构(一个节点分配到一个存储页中->尽量减少IO次数) & 磁盘预读(缓存预读->加速预读马上要用到的数据).
2.B+Tree 单个节点能放多个子节点，相同IO次数，检索出更多信息。
3.B+TREE 只在叶子节点存储数据 & 所有叶子结点包含一个链指针 & 其他内层非叶子节点只存储索引数据。只利用索引快速定位数据索引范围，先定位索引再通过索引高效快速定位数据。

B-Tree索引、B+Tree索引： 单个节点能放多个子节点，查询IO次数相同(mysql查询IO次数最多3-5次-所以需要每个节点需要存储很多数据)
B+TREE 只在叶子节点存储数据 & 所有叶子结点包含一个链指针 & 其他内层非叶子节点只存储索引数据。只利用索引快速定位数据索引范围，先定位索引再通过索引高效快速定位数据。
B+Tree更适合外存索引，原因和内节点出度d有关。从上面分析可以看到，d越大索引的性能越好，而出度的上限取决于节点内key和data的大小：
B+Tree内节点去掉了data域，因此可以拥有更大的出度，拥有更好的性能。只利用索引快速定位数据索引范围，先定位索引再通过索引高效快速定位数据。

5.B+树（平衡多路查找树）

　　B+树是为了磁盘或其它直接存取设备设计的一种平衡多路查找树。在B+树里是，所以记录节点都是键值的大小顺序存放在同一层的叶子节点上，由各叶子节点指针进行连接。

　　B+树索引在数据库中有高扇出性的特点，因此在数据库中，B+树的高度一般在2~4层，也就是说查找某一键值的行记录时最多只需要2~4次IO.

　　数据库中的B+树索引可以分为聚集索引和辅助索引，其内部都是B+树的，高度平衡，叶子节点存放着数据。

　　聚集索引和辅助索引不同的是，叶子节点存放的是否是一整行的信息。