《ElasticSearch查询》目录导航:

ElasticSearch是性能优化的分布式全文搜索引擎,存储数据的载体是文档(Document),它的优势在于搜索速度快和支持聚合操作,在更新文档时,基本上能够达到实时搜索。ElasticSearch引擎总是按照文档标识来更新数据,并发控制是通过顺序的版本ID(version)实现的,控制写-写、写-读冲突,实现数据弱一致性。

在ElasticSearch引擎中,索引定义了文档的逻辑存储,索引是由段(Segment)组成的,段不是实时更新的,这意味着,在建立索引时,一个段写入磁盘后,就不再被更新。被删除文档的信息存储在一个单独的文件中,在搜索数据时,ElasticSearch首先从段中查询,再从查询结果中过滤被删除的文档,这意味着,段中存储”未被删除文档“的密度降低。多个段可以通过段合并(Segment Merge)操作把“已删除”的文档将从段中物理删除,将未删除的文档合并成一个新段,新段中没有”已删除文档“,因此,段合并操作能够提高索引的查找速度,但段合并是IO密集型的,需要消耗大量的IO操作。

一旦数据存储在倒排索引中,就不能被修改,因此,更新文档是一项复杂的任务。在内部,ElasticSearch引擎必须首先获取文档(从_source属性中获得数据),删除旧的文档,更新_source属性,然后重新索引该文档,使之可被搜索到,就是说,文档更新的流程,实际上是先标记文档被删除,后插入新的文档,最后将新文档编入索引。

数据的更新,主要是通过_update端点,编写内嵌脚本(inline script)来实现。默认的脚本语言是Groovy,Groovy是内置的脚本语言,不需要安装,默认是禁用的,在未启用动态脚本的结点上执行脚本更新,ElasticSearch引擎将会抛出异常消息:

scripts of type [inline], operation [update] and lang [groovy] are disabled

要启用脚本更新,必须修改每个节点(node)的全局配置文件 config/elasticsearch.yml,添加配置选项:

script.inline: true
script.indexed: true

一,编入索引(Index Data)

索引API用于将一个类型化的JSON结构添加到一个索引中,或者更新索引中的一个文档,使之能够被搜索到。

1,使用文档标识编入索引

在把文档编入索引时,如果在API中显式提供文档的标识(_id),那么ElasticSearch引擎使用Upsert(更新或增加)方式更新索引,这意味着,如果索引中已经存在相同ID的文档,那么ElasticSearch更新该文档(实际上是先删除,后添加);如果索引中不存在相同ID的文档,那么把文档添加索引中。

PUT host:port/twitter/tweet/ -d
{
"user" : "kimchy",
"post_date" : "2009-11-15T14:12:12",
"message" : "trying out Elasticsearch"
}

2,指定操作类型

在编入索引时,索引操作支持参数op_type,用于指定索引数据的操作类型是create,当文档ID不存在时,将文档添加到索引中;当显式指定操作类型是create时,如果创建的文档ID已经存在于索引中,那么创建操作将失败。

PUT 'http://localhost:9200/twitter/tweet/1?op_type=create' -d
PUT 'http://localhost:9200/twitter/tweet/1/_create' -d

3,自动生成文档标识

在索引文档时,如果没有指定文档标识,那么ElasticSearch将会自动生成文档标识,并自动把操作类型(op_type)设置为create,注意,自动生成文档标识是更新操作,修改索引中的文档,而不是新建一个新的文档,因此使用POST动词,而不是PUT动词。

POST 'http://localhost:9200/twitter/tweet/' -d
'{
"user" : "kimchy",
"post_date" : "2009-11-15T14:12:12",
"message" : "trying out Elasticsearch"
}'

二,删除文档

在ElasticSearch引擎中删除文档非常简单,通过文档标识删除文档,实际上,该文档并没有从索引中物理删除,只是在其他文件中被标记删除,只要ElasticSerach 引擎执行段合并操作时,才会真正从物理上删除文档。

DELETE 'http://localhost:9200/twitter/tweet/1'

三,在更新端点(_update)更新文档

ElasticSearch引擎在更新端点(_update)上更新文档,更新操作首先从索引中查询到文档,执行更新逻辑,并将更新之后的文档重新索引,使之能够被搜索到。在更新文档时,ElasticSearch使用版本控制并发操作可能产生的冲突。更新端点(_update)主要是基于脚本的文档更新,ElasticSearch引擎从索引中获取文档,使用脚本和可选的参数执行更新操作,并将文档重新编入索引。在更新时,即使只修改文档的部分字段,ElasticSearch也会重新索引整个文档,并使用文档版本避免读-写冲突。使用端点(_update)和内嵌脚本对文档执行更新操作,必须启用_source 字段。

1,根据参数值,更新指定文档的字段

ctx 是单词context的缩写,表示文档的上下文,在script节中,使用ctx引用文档。

POST 'localhost:9200/test/type1/1/_update' -d '{
"script" : {
"inline": "ctx._source.counter += count",
"params" : { "count" : 4 }
},
"upsert" : { "counter" : 1 }
}'

示例,脚本更新文档的字段counter,把ID为1的文档的counter字段增加4。当文档中没有该字段时,例如,想要增加文档中的counter字段值,而该字段不存在,在请求中使用upsert字段,提供counter字段的默认值。

upsert参数,当指定的文档不存在时,upsert参数包含的内容将会被插入到索引中,作为一个新文档;如果指定的文档存在,ElasticSearch引擎将会执行指定的更新逻辑。

例如以下脚本,当文档存在时,把文档的counter字段设置为1;当文档不存在时,插入一个新的文档,文档的counter字段的值是2。

{
"script":{
"inline":"ctx._source.counter= 1"
},
"upsert":{"counter":}
}

2,向_source字段,增加一个字段

POST 'localhost:9200/test/type1/1/_update' -d '{
"script" : "ctx._source.name_of_new_field = \"value_of_new_field\""
}'

3,从_source字段中,删除一个字段

POST 'localhost:9200/test/type1/1/_update' -d '{
"script" : "ctx._source.remove(\"name_of_field\")"
}'

4,根据提供的文档片段更新数据

使用"doc"字段传递文档片段(Partial Document),doc字段包含完整文档的一部分字段,ElasticSearch引擎对已经存在的文档进行归并(Merge)更新,这就意味着,如果文档中存在doc节指定的字段,那么替换文档中的字段值;如果文档中部存在doc节指定的字段,那么向文档中增加新的字段,例如,对文档标识为1的文档,将该文档中的name字段更新为“new_name”:

POST 'localhost:9200/test/type1/1/_update' -d '{
"doc" : {
"name" : "new_name"
},
"detect_noop": false
}'

detect_noop参数,在更新部分文档时,文档值被归并到_source字段,默认值是true,这意味着,当ElasticSearch引擎会检测_source字段的数据发生变化时,ElasticSearch引擎将重新索引该文档;如果设置设置为False时,ElasticSearch引擎不管_source字段的数据是否变化,都会更新文档。

5,更新操作的参数

retry_on_conflict参数:指定更新操作在发生版本冲突时重试的次数。

对于文档的更新操作,ElasticSearch引擎需要顺序执行三个阶段:获取文档(Get),更新文档(Update)和索引文档(Index)。在更新文档时,其他进程可能已经把相同的文档修改了。在默认情况下,更新操作由于检测到版本冲突而就立即失败,抛出异常。参数retry_on_conflict控制在ElasticSearch引擎真正抛出异常之前,更新操作重新执行的次数。

fields 参数:从已更新的文档中,返回有关字段(Relevant Fields)的数据,如果将fields设置为_source,将返回整个文档的所有数据。

{
"doc":{
"counter":
},
"upsert":{"counter":},
"fields":["counter"],
"detect_noop":true
}

四,批量操作(_bulk)

批量端点(_bulk)用于在一个请求(Request)中封装多个操作,请求格式是/index_name/type_name/_bulk。在请求主体中,包含多个操作请求,单个请求的格式相同,不同之处在于,每个请求包含两行JSON对象:信息行和数据行,由于批量端点必须识别换行,因此,发送的请求格式 使用--data-binary 代替 -d:

POST /_bulk?pretty  --data-binary  request_body

请求主动体,有四种类型,分别是index、update、create和delete,实现数据的索引分析,文档更新,文档创建和文档删除。

1,在索引中增加或替换现有文档,使用index节

{"index":{"_index":"index_name","_type":"type_name","_id":####}}
{"doc_field1":"xx","doc_field2":"yy"}

2,从索引中移除文档,使用delete节

{"delete":{"_index":"index_name","_type":"type_name","_id":####}}

3,当索引中不存在文档定义时,在索引中增加新文档,使用create节

{"create":{"_index":"index_name","_type":"type_name","_id":####}}
{"doc_field1":"xx","doc_field2":"yy"}

4,当更新文档时,使用update节

{ "update" : {"_id" : "", "_type" : "type1", "_index" : "index1", "_retry_on_conflict" : } }
{ "doc" : {"field" : "value"} }
{ "update" : { "_id" : "", "_type" : "type1", "_index" : "index1", "_retry_on_conflict" : } }
{ "script" : { "inline": "ctx._source.counter += param1", "params" : {"param1" : }}, "upsert" : {"counter" : }}
{ "update" : {"_id" : "", "_type" : "type1", "_index" : "index1", "_retry_on_conflict" : } }
{ "doc" : {"field" : "value"}, "upsert" : true }
{ "update" : {"_id" : "", "_type" : "type1", "_index" : "index1", "fields" : ["_source"]} }
{ "doc" : {"field" : "value"} }
{ "update" : {"_id" : "", "_type" : "type1", "_index" : "index1"} }
{ "doc" : {"field" : "value"}, "fields": ["_source"]}

参考文档:

Elasticsearch Reference [2.4] » Document APIs

Elasticsearch Reference [2.4] » Document APIs » Bulk API

Elasticsearch Reference [2.4] » Document APIs » Update API

Elasticsearch Reference [2.4] » Modules » Scripting

ElasticSearch查询 第二篇:文档更新的更多相关文章

  1. elasticsearch 第五篇(文档操作接口)

    INDEX API 示例: 1 2 3 4 5 PUT /test/user/1 { "name": "silence", "age": 2 ...

  2. ElasticSearch查询 第一篇:搜索API

    <ElasticSearch查询>目录导航: ElasticSearch查询 第一篇:搜索API ElasticSearch查询 第二篇:文档更新 ElasticSearch查询 第三篇: ...

  3. Elasticsearch 7.x 之文档、索引和 REST API 【基础入门篇】

    前几天写过一篇<Elasticsearch 7.x 最详细安装及配置>,今天继续最新版基础入门内容.这一篇简单总结了 Elasticsearch 7.x 之文档.索引和 REST API. ...

  4. ElasticSearch入门 第二篇:集群配置

    这是ElasticSearch 2.4 版本系列的第二篇: ElasticSearch入门 第一篇:Windows下安装ElasticSearch ElasticSearch入门 第二篇:集群配置 E ...

  5. mongodb查询内嵌文档

    mongodb查询内嵌文档   假设有这样一个文档: db.XXX.remove(); db.XXX.insert({"id":1, "members":[{& ...

  6. MongoDB小结12 - update【多文档更新】

    当一次更新一个文档无法满足我们的脚步时,我们可以选择一次更新多个文档,及在update的第四个参数的位置添上true,及做多文档更新,建议就算不做多文档更新也显式的在第四个参数上置false,这样明确 ...

  7. 深入理解DOM节点类型第四篇——文档片段节点DocumentFragment

    × 目录 [1]特征 [2]作用 前面的话 在所有节点类型中,只有文档片段节点DocumentFragment在文档中没有对应的标记.DOM规定文档片段(document fragment)是一种“轻 ...

  8. Mxd文档更新比例尺

    在AE中,更新Mxd文档的比例尺,比较特殊.写代码以记录,更新比例尺代码如图所示: [DllImport("User32.dll")] public static extern i ...

  9. Microsoft在8月7号发布的帮助文档更新中,HelpLibrary2安装Cab文档包出现签名问题

    在VS 2017 8月2号发布15.7.6版本后,在8月7号推送了helpview程序中的绝大部分更新文档,在本次推送中多数Cab文件出现了无法进行安装的签名问题, 不论是单个下载,还是删除本地所有已 ...

随机推荐

  1. 【SPL标准库专题(8)】 Datastructures:SplFixedArray

    SplFixedArray主要是处理数组相关的主要功能,与普通php array不同的是,它是固定长度的,且以数字为键名的数组,优势就是比普通的数组处理更快. 类摘要 SplFixedArray im ...

  2. Visual Basic 6.0(VB6.0)详细安装过程

    注:大家如果没有VB6.0的安装文件,可自行百度一下下载,一般文件大小在200M左右的均为完整版的软件,可以使用. 特别提示:安装此软件的时候最好退出360杀毒软件(包括360安全卫士,电脑管家等,如 ...

  3. 《SQL Server 2008从入门到精通》--20180716

    1.锁 当多个用户同时对同一个数据进行修改时会产生并发问题,使用事务就可以解决这个问题.但是为了防止其他用户修改另一个还没完成的事务中的数据,就需要在事务中用到锁. SQL Server 2008提供 ...

  4. python: 用pygments给markdown文档染色

    首先你需要一个markdown解析器 比如有常见的markdown和markdown2,其他的可以参考这个网站的评价 我选择了mistune,自己继承写一个渲染的Renderer mistune的do ...

  5. 题解 P2920 【[USACO08NOV]时间管理Time Management】

    题面 作为一名忙碌的商人,约翰知道必须高效地安排他的时间.他有N工作要 做,比如给奶牛挤奶,清洗牛棚,修理栅栏之类的. 为了高效,列出了所有工作的清单.第i分工作需要T_i单位的时间来完成,而 且必须 ...

  6. DevExpress05、TileControl、AlertControl

    TileControl控件 该控件是根据Windows 8的用户界面设计的,可以轻松地把各个控制块集成到窗体上. 1.   IndertBetweenGroups属性 控制两个Group之间的间距: ...

  7. 网络编程_TCP协议_客户端与服务端

    客户端发数据到服务端 Tcp传输,客户端建立的过程. 1,创建tcp客户端socket服务.使用的是Socket对象.建议该对象一创建就明确目的地.要连接的主机. 2,如果连接建立成功,说明数据传输通 ...

  8. win10管理员已阻止你运行此应用”解决方法

    方法/步骤 1 按WIN+R键,打开“运行”,然后输入“gpedit.msc",就是打开组策略,这个在控制面板中也可以打开. 2 在组策略里找到“计算机配置”-“Windows设置”-“安全 ...

  9. [Message123] JMS 与 MQ

    https://www.cnblogs.com/steven520213/p/6810369.html JMS的队列消息传递过程如下图(消费者与生产者): JMS的主题消息传递过程如下图(发布/订阅) ...

  10. div宽度随屏幕大小变化

    题目: 一个页面上两个div左右铺满整个浏览器, 要保证左边的div一直为100px,右边的div跟随浏览器大小变化, 比如浏览器为500,右边div为400,浏览器为900,右边div为800. 方 ...