一、ES基于_version 进行乐观锁并发控制

post /index/type/id/_update?retry_on_conflict=5&version=6

1.内部版本号

第一次创建document的version版本号为1，以后每次对这个document修改或删除操作，version自动加1。

同时带上数据的版本号，确保es中数据的版本号，跟客户端中的数据的版本号是相同的，才能修改。

可以指定更新失败之后的重试次数：retry_on_conflict，版本冲突时重试次数

## 2.external version

可以基于你自己维护的一个版本号来进行并发控制。举个列子，加入你的数据在mysql里也有一份，然后你的应用系统本身就维护了一个版本号，无论是什么自己生成的，程序控制的。这个时候，你进行乐观锁并发控制的时候，可能并不是想要用es内部的_version来进行控制，而是用你自己维护的那个version来进行控制。

二、document路由原理

1.路由算法

2.决定document在哪个shard上，最主要的就是routing的值，默认是id，也可以手动指定。

3.这就是primary shard 不可变的原因

三、写一致性原理

put /index/type/id?consistency=quorum

1.one

要求我们这个写操作，只要有一个primary shard是活跃可用的，就可以执行。

2.all

要求我们这个写操作，必须所有的primary shard和replica shrad 都是活跃的，才可以执行这个写操作。

3.quorun

默认

要求我所有的shard中，大部分的都是活跃可用的，才可以执行。（1个节点除外）

算法

说明：当number_of_replica>1时才生效。quorun不齐全时默认等待一分钟，可设置timeout=100ms, timeout=30ms, timeout=1m

四、增删的内部原理

1.客户端选择一个节点发送请求，这个节点叫做coordinnating node（协调节点）

2.coordinate node 对document进行路由，将请求发送给对应的node，（有primary node 的节点）

3.实际的node的primary shard 处理请求，然后将数据同步到replica node。

4.coordinate node 如果发现所有的node（primary 和 replica）都完成操作之后，就返回响应结果给客户端

五、document 写入机制原理

数据写入内存buffer缓冲和translog日志文件

每隔一秒钟，buffer中的数据被写入新的segment file，并进入os cache，此时segment被打开并供search使用
buffer被清空
重复1~3，新的segment不断添加，buffer不断被清空，而translog中的数据不断累加
当translog长度达到一定程度的时候，commit操作发生
1. buffer中的所有数据写入一个新的segment，并写入os cache，打开供使用
2. buffer被清空
3. 一个commit ponit被写入磁盘，标明了所有的index segment
4. filesystem cache中的所有index segment file缓存数据，被fsync强行刷到磁盘上
5. 现有的translog被清空，创建一个新的translog

注意点：

每秒一个segment file，文件过多，而且每次search都要搜索所有的segment，很耗时

默认会在后台执行segment merge操作，在merge的时候，被标记为deleted的document也会被彻底物理删除

每次merge操作的执行流程

选择一些有相似大小的segment，merge成一个大的segment
将新的segment flush到磁盘上去
写一个新的commit point，包括了新的segment，并且排除旧的那些segment
将新的segment打开供搜索
将旧的segment删除

POST /my_index/_optimize?max_num_segments=1，尽量不要手动执行，让它自动默认执行就可以了

近实时：

数据写入os cache，并被打开供搜索的过程，叫做refresh，默认是每隔1秒refresh一次。也就是说，每隔一秒就会将buffer中的数据写入一个新的index segment file，先写入os cache中。所以，es是近实时的，数据写入到可以被搜索，默认是1秒。

手动refresh：

 PUT /my_index
 {
   "settings": {
     "refresh_interval": "30s" 
   }
 }

多个term对一个doc的总分数，计算出一个query vector（向量）每个doc vector计算出对query vector的弧度，最后基于这个弧度给出一个doc相对于query中多个term的总分数弧度越大，分数越底; 弧度越小，分数越高如果是多个term，那么就是线性代数来计算，无法用图表示

2.vector space model

一个term在一个doc中，出现的次数越多，那么最后给的相关度评分就会越高 IDF：inversed document frequency 一个term在所有的doc中，出现的次数越多，那么最后给的相关度评分就会越低 length norm hello搜索的那个field的长度，field长度越长，给的相关度评分越低; 最后，会将hello这个term，对doc1的分数，综合TF，IDF，length norm，计算出来一个综合性的分数

TF: term frequency

1.TF/IDF

十一、TF/IDF算法

每次都要重新构建整个索引

倒排索引不可变的坏处

不需要锁，提升并发能力，避免锁的问题
数据不变，一直保存在os cache中，只要cache内存足够
filter cache一直驻留在内存，因为数据不变
可以压缩，节省cpu和io开销

倒排索引不可变的好处

包含这个关键词的document list
包含这个关键词的所有document的数量：IDF（inverse document frequency）
这个关键词在每个document中出现的次数：TF（term frequency）
这个关键词在这个document中的次序
每个document的长度：length norm
包含这个关键词的所有document的平均长度

2. 倒排索引的结构

...

1. 倒排示例

九、倒排索引

preference决定了哪些shard会被用来执行搜索操作
两个document排序，field值相同；不同的shard上，可能排序不同；每次请求轮询打到不同的replica shard上；
每次页面上看到的搜索结果的排序都不一样，这就是bouncing result，也就是跳跃的结果。
解决方案就是将preference设置为一个字符串，比如说user_id，让每个user每次搜索的时候，都使用同一个replica shard去执行，就不会看到bouncing results了

八、结果跳跃

为每个在倒排索引中搜索到的结果，构建一个bitset，如[0, 0, 0, 1, 0, 1]
过滤器不对文档打分——仅仅是包含或者拒绝。如果文档匹配了一个过滤器，则在bitset中会置成1；否则置为0.于是ES就可以在一个紧致的bitset中存储整个分段的过滤信息。
遍历每个过滤条件对应的bitset，优先从最稀疏的开始搜索，查找满足所有filter条件的document，直到bitset遍历完caching bitset
跟踪query，在最近256个query中超过一定次数的过滤条件，缓存其bitset。对于小segment（<1000，或<3%），不缓存bitset。
如果document有新增或修改，那么cached bitset会被自动更新

七、filter执行原理

特殊情况：document如果还在建立索引过程中，可能只有primary shard有，任何一个replica shard都没有，此时可能会导致无法读取到document，但是document完成索引建立之后，primary shard和replica shard就都有了

客户端发送请求到任意一个node，成为coordinate node
oordinate node对document进行路由，将请求转发到对应的node，此时会使用round-robin随机轮询算法，在primary shard以及其所有replica中随机选择一个，让读请求负载均衡
接收请求的node返回document给coordinate node
coordinate node返回document给客户端

六、查询的内部原理

ES 知识点的更多相关文章

es知识点
版权声明:本文为博主原创文章,未经博主允许不得转载.转载请务必加上原作者:铭毅天下,原文地址:blog.csdn.net/laoyang360 https://blog.csdn.net/wojius ...
5.win上安装ES
安装步骤如下: 1.安装JDK 至少1.8.0_73以上版本,使用 java -version 这个命令进行查看java的版本 2.下载和解压缩Elasticsearch安装包, 解压后目录结构: 3 ...
Elasticsearch由浅入深（一）
什么是Elasticsearch 什么是搜索百度:我们比如说想找寻任何的信息的时候,就会上百度去搜索一下,比如说找一部自己喜欢的电影,或者说找一本喜欢的书,或者找一条感兴趣的新闻(提到搜索的第一印象 ...
es中级部分知识点总结
--------------------------------------------------------------- 搜索开始-------------------------------- ...
es中的一些知识点记录
1. forcemerge接口强制段合并,设置为1时,是期望最终只有1个索引段.但实际情况是,合并的结果是段的总数会减少,但仍大于1,可以多次执行强制合并的命令. 设置的的目标值越小.合并消耗的时间 ...
ES 基础知识点总结
为什么使用 ES? 在传统的数据库中,如果使用某列记录某件商品的标题或简介.在检索时要想使用关键词来查询某个记录,那么是很困难的,假设搜索关键词 "小米",那么 sql 语句就是 ...
ES小知识点
elasticsearch.yml配置文件 network.host: _site_ # network.host设置为"_site_",表明它绑定到我们的本地电脑的IP地址 di ...
【干货分享】前端面试知识点锦集01（HTML篇）——附答案
一.HTML部分 1.浏览器页面有哪三层构成,分别是什么,作用是什么? 构成:结构层.表示层.行为层分别是:HTML.CSS.JavaScript作用:HTML实现页面结构,CSS完成页面的表现与风格 ...
【经验之谈】前端面试知识点总结（HTML相关）——附答案
目录一.HTML部分 1.浏览器页面有哪三层构成,分别是什么,作用是什么? 2.HTML5的优点与缺点? 3.Doctype作用? 严格模式与混杂模式如何区分?它们有何意义? 4.HTML5有哪些新 ...

随机推荐

POI读取Excel如何判断行为空
public static boolean isRowEmpty(Row row) { for (int c = row.getFirstCellNum(); c < row.getLastCe ...
mysql中给查询结果添加序号列
今天同事给了一个小需求,从一个存有不定数量坐标数据的表(map_trace)中每隔20条取一条.最后写了下面这条SQL: select * from (select @n:=@n+1 as n, a. ...
systemctl详解
[root@hadoop01 hadoop]# systemctl --help systemctl [OPTIONS...] {COMMAND} ... Query or send control ...
Linux 一键部署脚本
在当前路径下输入 chmod 777 脚本名给脚本授权, 然后就可以执行脚本 ./脚本名 777 是最高权限,有读.写.执行权限:和属组用户和其他用户的读.写.执行权限. 其他权限分别是 -r ...
java上传视频文件
需求:项目要支持大文件上传功能,经过讨论,初步将文件上传大小控制在500M内,因此自己需要在项目中进行文件上传部分的调整和配置,自己将大小都以501M来进行限制. 第一步: 前端修改由于项目使用的是 ...
交换机配置——跨交换机划分VLAN配置
一.实验要求:实现跨交换地划分vlan的配置任务,使同一vlan下的主机能相互通讯二.拓扑图如下; 三.具体实验步骤: S1交换机配置: S1>enable --进入特权模式S1#confi ...
SpringMVC——返回值类型
1.void作为返回值类型如果你的方法写成了Void就跟原来Servlet含义是差不多的 @RequestMapping("/index*") public void first ...
[Python] 等号赋值, copy, deepcopy的区别
参考链接: 1. 介绍python中的可变类型与不可变类型:https://blog.csdn.net/answer3lin/article/details/86430074 (也可以参考转载博客 P ...
centos6升级系统内核
1.升级系统内核查看内核版本: uname -r 2.6.32-573.8.1.el6.x86_64 导入elrepo的key: rpm --import https://www.elrepo.org ...
Inter IPP & Opencv 在centos 环境下使用GCC命令行编译c++运行
Inter IPP & Opencv 的安装看这里:https://www.cnblogs.com/dzzy/p/11332907.html 考虑到服务器一般没有桌面环境,不能用IDE编译,直 ...

ES 知识点