学习Elasticsearch原理笔记

Elasticsearch是一个分布式可拓展的实时搜索和分析引擎

　　分布式实时文件存储，并将每一个字段都编入索引，使其可以被搜索

　　实时分析的分布式搜索引擎

　　可以拓展到上百台服务器，处理PB级别的结构化或非结构化数据

文件存储：Elasticsearch，面向文档型数据库，一条数据就是一个文档，用JSON作为文档序列化的格式

MySQL和Elasticsearch数据关系术语对比：

　　关系数据库-数据库-表-行-列

　　Elasticsearch-索引-类型-文档-字段

Elasticsearch的交互：可以使用Java API，也可以直接使用HTTP的Restful API方式

Elasticsearch强大的索引能力：精髓-一切设计都是为了提高搜索的性能

什么是倒排索引？举个例子

| ID | Name | Age | Sex |

| - - |:-------:| -----:| -----:|

| 1 | Kate | 24 | Female

| 2 | John | 24 | Male

| 3 | Bill | 29 | Male

ID是Elasticsearch自建的文档ID，Name、Age、Sex索引如下：

Name:| Term | Posting List |

　　　| -- |:----:|

　　　| Kate | 1 |

　　　| John | 2 |

　　　| Bill | 3 |

Age:| Term | Posting List |

　　| -- |:----:|

　　| 24 | [1,2] |

　　| 29 | 3 |

Sex:| Term | Posting List |

　　| -- |:----:|

　　| Female | 1 |

　　| Male | [2,3] |

Posting List

　　Elasticsearch分别为每个field都建立了一个倒排索引，

　　Kate ，24，Female，John，Male，Bill，29这些是Term。

　　而1，2，3是文档ID，[1][3][1,2][2,3]这些就是Posting List。

　　Posting List就是一个int的数组，存储了所有符合这个Term的文档ID。

Term Dictionnary

　　Elasticsearch将所有的Term排个序，二分法查找Term，logN的查找效率。

Term Index

　　Term Index是Term Dictionnary的索引，包含的是Term的一些前缀。

Frame Of Reference

　　Elasticsearch要求Posting List是有序的，方便压缩。

　　原理：通过增量，将原来的大数变成小数，仅储存增量值，再按bit排好队，最后通过字节存储。

Roaring Bitmaps

　　Bitmap是一种数据结构，假设Posting List[1,3,4,7,10]，对应的Bitmap就是[1,0,1,1,0,0,1,0,0,1]，非常直观，用0/1表示某个值是否存在。

　　Bitmap的缺点是存储空间随着文档个数线性增长。Roaring bitmaps需要用到某些指数特性：将posting list按照65535为界限分块，用<商，余数>的组合表示每一组id。

联合索引

　　如果多个field索引的联合查询，倒排索引如何满足快速查询的要求呢？

　　利用跳表的数据结构快速做”与“运算，或者利用bitset按位”与“。

Elasticsearch的索引思路：

　　将磁盘里的东西尽量搬进内存，减少磁盘随机读取次数（同时也利用磁盘顺序读特性），结合各种压缩算法，用极其苛刻的态度使用内存。

所以，对于使用Elasticsearch进行索引时需要注意:

　　不需要索引的字段，一定要明确定义出来，因为默认是自动建索引的

　　同样的道理，对于String类型的字段，不需要analysis的也需要明确定义出来，因为默认也是会analysis的

　　选择有规律的ID很重要，随机性太大的ID(比如java的UUID)不利于查询

关于最后一点，个人认为有多个因素:

　　上面看到的压缩算法，都是对Posting list里的大量ID进行压缩的，那如果ID是顺序的，或者是有公共前缀等具有一定规律性的ID，压缩比会比较高；

　　最影响查询性能的，应该是最后通过Posting list里的ID到磁盘中查找Document信息的那步，因为Elasticsearch是分Segment存储的，Term定位到Segment的效率直接影响了最后查询的性能，

　　如果ID是有规律的，可以快速跳过不包含该ID的Segment，从而减少不必要的磁盘读次数

学习Elasticsearch原理笔记的更多相关文章

读Flask源代码学习Python--config原理
读Flask源代码学习Python--config原理个人学习笔记,水平有限.如果理解错误的地方,请大家指出来,谢谢!第一次写文章,发现好累--!. 起因莫名其妙在第一份工作中使用了从来没有接 ...
ElasticSearch原理
Elasticsearch-基础介绍及索引原理分析最近在参与一个基于Elasticsearch作为底层数据框架提供大数据量(亿级)的实时统计查询的方案设计工作,花了些时间学习Elasticsearc ...
Elasticsearch7.X 入门学习第九课笔记-----聚合分析Aggregation
原文:Elasticsearch7.X 入门学习第九课笔记-----聚合分析Aggregation 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. ...
Elasticsearch7.X 入门学习第二课笔记----基本api操作和CRUD
原文:Elasticsearch7.X 入门学习第二课笔记----基本api操作和CRUD 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链 ...
Elasticsearch7.X 入门学习第一课笔记----基本概念
原文:Elasticsearch7.X 入门学习第一课笔记----基本概念版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https: ...
ElasticSearch详细笔记
ElasticSearch详细笔记什么是ElasticSearch Elasticsearch(简称ES)是一个基于Apache Lucene(TM)的开源搜索引擎,无论在开源还是专有领域,Luce ...
Head插件——学习Elasticsearch的锋刃利器！
在学习Elasticsearch的过程中,必不可少需要通过一些工具查看es的运行状态以及数据.如果都是通过rest请求,未免太过麻烦,而且也不够人性化. 此时,head可以完美的帮助你快速学习和使用e ...
hadoop2.5.2学习及实践笔记（二）—— 编译源代码及导入源码至eclipse
生产环境中hadoop一般会选择64位版本,官方下载的hadoop安装包中的native库是32位的,因此运行64位版本时,需要自己编译64位的native库,并替换掉自带native库. 源码包下的 ...
Python学习的个人笔记（基础语法）
Python学习的个人笔记题外话: 我是一个大二的计算机系的学生,这份python学习个人笔记是趁寒假这一周在慕课网,w3cschool,还有借鉴了一些博客,资料整理出来的,用于自己方便的时候查阅, ...

随机推荐

（7）打鸡儿教你Vue.js
计算属性 computed <div id="app"> {{ message.split('').reverse().join('') }} </div> ...
PHP全栈学习笔记28
数据库Mysql概述,数据库操作,数据表操作,数据类型,管理数据库 order by asc; 升序 desc 降序 sql标准语言: 数据查询语言 select 数据定义语言 create/alte ...
javaee三层架构案例--简单学生管理系统
背景学了jdbc.jsp等需要串起来,不然会忘记项目环境 win10 jdk11 mysql8.0.13 jar包 c3p0-0.9.5.2 commons-dbutils-1.7 jstl mc ...
[端口安全]Hydra密码爆破
目录 0x01 简介 0x02 常见参数 0x03 使用案例 0x04 密码字典 0x01 简介 Hydra中文名:九头蛇,这是一款相当强大的爆破工具,它基本支持了所有可爆破协议,而且容容错率非常好 ...
Android中View大小的确定过程
View and ViewGroup 安卓中有5种基本的 ViewGroup: FrameLayout RelativeLayout LinearLayout TableLayout Absolute ...
Arts打卡第9周
Algorithm.主要是为了编程训练和学习. 每周至少做一个 leetcode 的算法题(先从Easy开始,然后再Medium,最后才Hard). 进行编程训练,如果不训练你看再多的算法书,你依然不 ...
sublime的一些常用快捷键总结
下面是四种快捷键类型: 1.编辑类 Ctrl+J 合并选中的多行代码为一行.举个例子:将多行格式的CSS属性合并为一行.Ctrl+Shift+D 复制光标所在整行,插入到下一行.Tab 向右缩进.Sh ...
NTC热敏电阻温度计算方法，Steinhart-Hart方程和B值法（转）
NTC热敏电阻计算器使用方法 NTC热敏电阻计算器 V1.0 10K负温度系数热敏电阻(NTC)温度与阻值对应关系表 Rt = R(25℃)*EXP[B*(1/T - 1/(T+25))] 说明: 1 ...
SIT测试和 UAT测试
在企业级软件的测试过程中,经常会划分为三个阶段——单元测试,SIT和UAT,如果开发人员足够,通常还会在SIT之前引入代码审查机制(Code Review)来保证软件符合客户需求且流程正确.下面简单介 ...
关于采样率&位深&码率&无损的一些心得
转载自:https://blog.csdn.net/Marenow/article/details/85253283 记笔记,记下来自己的一些关于音频基础知识的总结. 采样率外界的声音都是模拟信号,在 ...

学习Elasticsearch原理笔记

学习Elasticsearch原理笔记的更多相关文章

随机推荐

热门专题