es第三篇：Search APIs

大多数search API都是可以操作多个索引的，除了explain API。

当执行一个search API时，可以指定routing参数，去搜索特定的主分片及其副本分片。routing参数值可以是个以逗号分隔的字符串列表，这样es会搜索每个字符串对应的分片。

默认情况下，会以轮询方式把搜索请求发送到副本组中的某个分片，我们可以修改动态配置cluster.routing.use_adaptive_replica_selection为true，指定请求转发至最优。类似于nginx的负载均衡策略。

put /_cluster/settings
{
"transient": {
"cluster.routing.use_adaptive_replica_selection": true
}
}

注意，这个更改是针对es中所有索引的，不是针对某个索引，改动会对所有索引生效。学习完settings后再来看下。

search API可以在request body中用timeout指定超时时间。也可以通过修改search.default_search_timeout值来设置默认超时时间，该值默认为-1，表示不超时。

put /_cluster/settings
{
"transient": {
"search.default_search_timeout": "5s"
}
}

可以使用标准任务取消机制取消search请求。

如上所述，如果想一次搜索多个索引，可以用逗号分隔索引名。如果想搜索所有的索引，则看直接使用_all替代具体的索引名。

get /twitter,bank/_search

get _all/_search

Request Body Search

from、size既可以放在request uri上，也可以放在request body中。from+size的值必须小于等于index.max_result_window(值默认是10000)的值，否则会报错"Result window is too large, from + size must be less than or equal to: [10000]"。from+size不能超过10000，那么分页查询时10000之后的文档该怎么办呢？查看下面的Sroll API和Search After API。

es除支持常规字段排序外，还支持按照数组字段或多值字段对文档进行排序。mode选项控制使用哪个数组值进行排序，mode值可以为：

min：选择最小值

max：选择最大值

sum：选择总值。仅适用于数字类型的数组字段

avg：选择平均值。仅适用于数字类型的数组字段

median：选择中位数

示例：

post /twitter/_doc/1?refresh
{
"product": "chocolate",
"price": [20, 4]
}

post /twitter/_search
{
"query" : {
"term" : { "product" : "chocolate" }
},
"sort" : [
{"price" : {"order" : "asc", "mode" : "avg"}}
]
}

es还支持按一个或多个嵌套对象内的字段进行排序。用nested选项，值可以是：

path：定义要排序的嵌套对象。实际排序字段必须是此嵌套对象中的直接字段。必需

filter：

nested：这一块在学习完nested之后再回来看。

es还支持按自定义脚本排序。示例：

假如twitter索引中有三个文档，分别是{"age":18,"pay":20000}、{"age":19,"pay":15000}、{"age":20,"pay":10000}，按照age*pay*某个常量/变量倒排：

get twitter/_search
{
"sort" : {
"_script" : {
"type" : "number",
"script" : {
"lang": "painless",
"source": "doc.age.value * doc.pay.value * params.factor",
"params" : {
"factor" : 1.1
}
},
"order" : "asc"
}
}
}

search默认情况下会返回文档的所有字段，可以设置_source值来指定想要的字段(支持通配符)，示例：

get twitter/_search
{
"_source": ["age*", "pay*"],
"query": {
"match_all": {}
}
}

_source值还可以直接设为false，这样将只返回文档元数据，而不返回任何文档字段，示例：

get twitter/_search
{
"query": {
"match_all": {}
},
"_source": false
}

Script Fields

search还允许通过script_fields在匹配文档的某些字段上进行函数操作，并返回操作结果，示例：

get twitter/_search
{
"query" : {
"match_all": {}
},
"script_fields" : {
"test1" : {
"script" : {
"lang": "painless",
"source": "doc.pay.value * 2"
}
},
"test2" : {
"script" : {
"lang": "painless",
"source": "doc.pay.value * params.factor",
"params" : {
"factor" : 2.0
}
}
}
}
}

Scroll

通常情况下，search请求会返回一页数据，而就像关系型数据库中的游标一样，我们可以用scroll API获取大量甚至是所有的文档。scroll API不是用于实时用户请求的，而是用于处理大量数据的，例如，将一个索引中的数据全部复制到另一个索引中，即reindex。scroll请求返回的结果反映了初始search请求时索引的状态，像快照一样。对文档的后续更改(增删改)只会影响以后的search请求。为了使用scroll，初始search请求应该在request uri上指定scroll参数，告诉es它应该保持search context存活多长时间。示例：

get /twitter/_search?scroll=1m
{
"size": 3,
"query": {
"match_all" : {}
}
}

scroll=1m，表示让scroll context存活1分钟。

这里学习有点困难，先跨过，以后再回来学。

search请求的返回结果中默认是不带文档版本号的，如果想要的话，可以在request uri上或者request body中指定version为true，示例：

get /twitter/_search
{
"version": true
}

Search After

scroll API不建议用于实时用户请求，search_after参数通过提供实时游标来解决此问题。想法是使用上一页的结果来帮助检索下一页。search_after并不能想获取哪一页就能获取哪一页的数据，而是并行滚动多个查询。感觉没啥用，用的时候再学。

Multi Search API

关键字是_msearch，发一次请求，就可执行多个针对不同索引、不同搜索条件的搜索请求。就好像bulk API一样。示例：

get /_msearch
{"index" : "twitter"}
{"query" : {"match_all" : {}}, "from" : 0, "size" : 1}
{"index" : "bank"}
{"query" : {"match" : {"age":18}}, "from" : 0, "size" : 1}

多搜索请求中的每个子请求由两行组成，第一行用index关键字指定要搜索的索引，第二行是搜索条件、分页信息等。多搜索请求响应是一个数组，数组元素依次是每个子请求的响应。

The msearch’s max_concurrent_searches request parameter can be used to control the maximum number of concurrent searches the multi search api will execute. This default is based on the number of data nodes and the default search thread pool size.

Count API

检索某索引或某些索引中符合特定条件的文档有多少个，没啥用。

官网文档这一块有很多API感觉都没有用，此文档没有介绍，如果真用到的话，去官网学习后在补充到这里。

es第三篇：Search APIs的更多相关文章

ElasticSearch入门第三篇：索引
这是ElasticSearch 2.4 版本系列的第三篇: ElasticSearch入门第一篇:Windows下安装ElasticSearch ElasticSearch入门第二篇:集群配置 E ...
SpringCloud核心教程 | 第三篇：服务注册与发现 Eureka篇
Spring Cloud简介 Spring Cloud是一个基于Spring Boot实现的云应用开发工具,它为基于JVM的云应用开发中涉及的配置管理.服务发现.断路器.智能路由.微代理.控制总线.全 ...
前端第三篇---前端基础之JavaScript
前端第三篇---前端基础之JavaScript 一.JavaScript概述二.JavaScript的基础三.词法分析四.JavaScript的内置对象和方法五.BOM对象六.DOM对象七 ...
白日梦的ES笔记三：万字长文 Elasticsearch基础概念统一扫盲
目录一.导读二.彩蛋福利:账号借用三.ES的Index.Shard及扩容机制四.ES支持的核心数据类型 4.1.数字类型 4.2.日期类型 4.3.boolean类型 4.4.二进制类型 4. ...
从0开始搭建SQL Server AlwaysOn 第三篇（配置AlwaysOn）
从0开始搭建SQL Server AlwaysOn 第三篇(配置AlwaysOn) 第一篇http://www.cnblogs.com/lyhabc/p/4678330.html第二篇http://w ...
(转) 从0开始搭建SQL Server AlwaysOn 第三篇（配置AlwaysOn）
原文地址: http://www.cnblogs.com/lyhabc/p/4682986.html 这一篇是从0开始搭建SQL Server AlwaysOn 的第三篇,这一篇才真正开始搭建Alwa ...
【第三篇】ASP.NET MVC快速入门之安全策略（MVC5+EF6）
目录 [第一篇]ASP.NET MVC快速入门之数据库操作(MVC5+EF6) [第二篇]ASP.NET MVC快速入门之数据注解(MVC5+EF6) [第三篇]ASP.NET MVC快速入门之安全策 ...
第三篇 Entity Framework Plus 之 Query Cache
离上一篇博客,快一周,工作太忙,只能利用休息日来写一些跟大家分享,Entity Framework Plus 组件系列文章,之前已经写过两篇第一篇 Entity Framework Plus 之 A ...
我的屌丝giser成长记-研三篇
进入研三以来,基本都是自己的自由时间了,从导师的项目抽离出来,慢慢的都交给师弟他们来负责.研三的核心任务就是找工作以及写毕业论文,因为有导师科研基金项目成果作为支撑,所以自己的论文没什么可担心,一切都 ...

随机推荐

win7设置开机启动virtualBOX虚拟机
如果常用VirtualBox虚拟机系统的话,设置随开机启动也是很方便的.不需要打开VirtualBox窗口,直接启动VirtualBox虚拟机系统就可以了. 设置开机自启动VirtualBox虚拟机系 ...
unittest测试框架详谈及实操(四)
测试套件应用unittest的Test Suite特性,可以将不同的测试组成一个逻辑组,然后设置统一的测试套来一起执行测试.通过TestSuite.TestLoader类来创建测试套件,最后用Tes ...
学习python5面向
类有一个名为 __init__() 的特殊方法(构造方法),该方法在类实例化时会自动调用面向过程:根据业务逻辑从上到下写代码面向对象:将数据与函数绑定到一起,进行封装,这样能够更快速的开发程序,减 ...
opencv—读取一张图片并滤波
#include <opencv2\opencv.hpp> #include <iostream> #include <string> using namespac ...
卸载超级兔子后，word打不开（无法创建工作文件），VS2010也没法用（找不到CL.exe）。
又折腾了一上午,昨天用优化大师和超级兔子整理了电脑,今天来到实验室,vs打开后报错,提示"找不到CL.exe,"(具体提示忘记了,就是找不到CL.exe),打开word2010也是 ...
linux 权限机制
系统每个文件都拥有特定的权限,所属用户及所属组,通过这样的机制限制哪些用户.哪些组可以对特定文件进行什么样的操作,一般分为读.写.执行三种权限. 每个进程都是以某个用户的身份运行,所以进程的权限与该用 ...
20145233《网络对抗》Exp6 信息收集和漏洞扫描
20145233<网络对抗>Exp6 信息收集和漏洞扫描实验问题思考哪些组织负责DNS,IP的管理全球根服务器均由美国政府授权的ICANN统一管理,负责DNS和IP地址管理.全球一共 ...
设置ArcGIS地图文档的数据源为相对路径
ArcGIS中默认情况下,地图文档的数据源路径为绝对路径.在这种情况下,如果移动/拷贝地图文档及其数据源后,再次打开地图文档时,就看不到具体图层数据了(图层列表中图层前有“!”图标,并且无法查看图层数 ...
IO--磁盘理论
磁盘从圆心由内向外被分成多个磁道,而每个磁道会被划分成多个连续的扇区扇区是磁盘寻址的最小单位,而实际上分配空间最小的单位是簇(cluster),因此导致文件大小和实际占用空间大小不一样磁盘读写数据 ...
c++实验3 链式存储线性表
1.线性表链式存储结构及基本操作算法实现 (1)单链表存储结构类的定义: #include <iostream> using namespace std; template <cla ...

es第三篇：Search APIs

es第三篇：Search APIs的更多相关文章

随机推荐

热门专题