查询优化

1 从提高查询精确度进行优化：

本部分主要针对全文搜索进行探究。

1.1 倒排索引

1.1.1 什么是倒排索引：

一个倒排索引由文档中所有不重复词的列表构成，对于其中每个词，有一个包含它的文档列表。

倒排索引的好处：

当输入一些关键词进行匹配时，包含关键词越多的文档，得分越高，即，相关度越大。

如何建立倒排索引：

好像ES会为所有精确值字段或全文字段分词后的词条自动创建倒排索引。

1.2 分析

1.2.1 什么是分析：

分析包括两部分，分词和标准化。

什么是分词：

将字符串切分成词条的过程，是我们为全文搜索添加倒排索引必不可少的一步。

什么是标准化：

比如说：

对计算机而言"diane"和"Diane"是两个不同的词。因此，如果不进行标准化，在我们的倒序索引中将会为"diane"和"Diane"分别制作文档列表。假如此时我想要搜索包含"Diane"的文档，但我的查询语句中输入的是"diane"。这个时候，只会匹配包含"diane"的文档，而绝大多数包含正确拼写的"Diane"的文档将不被匹配。我们希望，不管用户输入的是"diane"还是"Diane"，所有包含"diane"或"Diane"的文档都能被匹配。这时候，我们需要先对文档进行标准化处理，将"Diane"词条标准化为"diane"，所有包含"diane"或"Diane"的文档都对应到"diane"词条的文档列表。而在查询的时候，同样要对查询关键字进行标准化，使得不论用户输入的是"diane"还是"Diane"，计算匹配度时，都在“diane”词条的文档列表中进行搜索。

除了处理大小写，标准化还有许多其他处理能力。

1.2.2 如何分析？——分析器

ES中带有一些现成的分析器，但想要达到特定的目标，一般要创建自定义分析器。

一个 分析器 就是在一个包里面组合了三种功能的一个包装器，三种功能按照顺序被执行：

字符过滤器：用来整理一个尚未被分词的字符串。例如：使用 html清除 字符过滤器来移除掉HTML文件中所有的HTML标签。一个分析器可以0或多个字符过滤器。

分词器：一个分析器必须有一个唯一的分词器。

词单元过滤器：可以修改、添加或者移除词单元。如：lowercase 和 stop 词过滤器

1.2.3 如何创建分析器：

本部分内容较多，转至Elasticsearch自定义分析器。

2 从响应速度的角度进行优化：

1. Routing参数

当执行查询时，查询会传播到各个shard(在replica之间轮询)。如何指定在哪些shard上进行查询呢？这可以通过routing参数控制。

demo:

插入数据时，添加routing参数。这里我们希望在查询的时候，只在某个user（kimchy）的tweet中进行搜索。

POST /twitter/tweet?routing=kimchy

{

  "user":"kimchy",

  "postDate":"2009-11-15T14:12:12",

  "message":"trying out Elasticsearch"

}

查询时，指定routing为kimchy，就能只在相关的shard中进行搜索。

POST /twitter/_search?routing=kimchy

{

    "query": {

        "bool" : {

            "must" : {

                "query_string" : {

                    "query" : "out"

                }

            },

            "filter" : {

                "term" : { "user" : "kimchy" }

            }

        }

    }

}

# 返回结果：

{

  "took": 2,

  "timed_out": false,

  "_shards": {

    "total": 1,

    "successful": 1,

    "skipped": 0,

    "failed": 0

  },

  "hits": {

    "total": 1,

    "max_score": 0.2876821,

    "hits": [

      {

        "_index": "twitter",

        "_type": "tweet",

        "_id": "7tU6HmIBPZfz2v0D3QAm",

        "_score": 0.2876821,

        "_routing": "kimchy",

        "_source": {

          "user": "kimchy",

          "postDate": "2009-11-15T14:12:12",

          "message": "trying out Elasticsearch"

        }

      }

    ]

  }

}

搜索

文档中的每个字段都将被索引并且可以被查询。

全文检索，找出所有匹配关键字的文档并按照相关性（relevance） 排序后返回结果。

映射（Mapping） 描述数据在每个字段内如何存储。映射定义了类型中的域，每个域的数据类型，以及Elasticsearch如何处理这些域。映射也用于配置与类型有关的元数据。

对字符串域，可以通过index属性控制是否索引、分析该域；通过analyser属性控制如何分析该域。

分析（Analysis） 全文是如何处理使之可以被搜索的

领域特定查询语言（Query DSL） Elasticsearch 中强大灵活的查询语言

_score ：查询结果中的_score衡量了文档与查询的匹配程度。默认情况下，首先返回最相关的文档结果，就是说，返回的文档是按照 _score 降序排列的。

如果不对某一特殊的索引或者类型做限制，就会搜索集群中的所有文档。因而，若想在一个或多个特定的索引并且在一个或者多个特定的类型中进行搜索。我们可以通过在URL中指定特定的索引和类型达到这种效果。

例如：

/_search

在所有的索引中搜索所有的类型

/gb/_search

在 gb 索引中搜索所有的类型

/gb,us/_search

在 gb 和 us 索引中搜索所有的文档

/g*,u*/_search

在任何以 g 或者 u 开头的索引中搜索所有的类型

/gb/user/_search

在 gb 索引中搜索 user 类型

/gb,us/user,tweet/_search

在 gb 和 us 索引中搜索 user 和 tweet 类型

/_all/user,tweet/_search

在所有的索引中搜索 user 和 tweet 类型

_all：当索引一个文档的时候，Elasticsearch 取出所有字段的值拼接成一个大的字符串，作为 _all 字段进行索引。搜索时，若没有指定域，则在_all中进行搜索。

例如，有如下文档：

{

    "tweet":    "However did I manage before Elasticsearch?",

    "date":     "2014-09-14",

    "name":     "Mary Jones",

    "user_id":  1

}

执行：

GET /_search?q=mary

这就好似增加了一个名叫 _all 的额外字段：

"However did I manage before Elasticsearch? 2014-09-14 Mary Jones 1"

除非设置特定字段，否则查询字符串就使用 _all 字段进行搜索。

（在刚开始开发一个应用时，_all 字段是一个很实用的特性。之后，你会发现如果搜索时用指定字段来代替 _all 字段，将会更好控制搜索结果。当 _all 字段不再有用的时候，可以将它置为失效，正如在元数据: _all 字段中所解释的。）

Elasticsearch 中的数据可以概括的分为两类：精确值和全文。（字符串域视为全文或精确值字符串）

倒排索引

为文档中的某个域建立倒排索引，就是

1. 得出set(将所有文档中这个域里的token）

2. 对1中得到的每个token，获得出现过该token的文档列表

注意：在进行倒排索引前，需要对token进行标准化处理，使得同义词、同词根的词、大小写不一样的词分别映射给同一个词。同样，要对搜索字符串进行相同的标准化处理。

分词和标准化的过程称为分析

分析器：

1. 自定义分析器

Elasticsearch提供了开箱即用的字符过滤器、分词器和token 过滤器。这些可以组合起来形成自定义的分析器以用于不同的目的

2. 内置分析器

类型在 Elasticsearch 中表示一类相似的文档。类型由名称和映射(相当于数据库中的 schema)组成。

全文搜索查询优化

1 基于词项与基于全文

文本查询可以划分成两大家族：

1.1 基于词项的查询

1.2 基于全文的查询

报错及处理

1. 批量往elasticsearch中插入json数据时，报错："reason" : "The bulk request must be terminated by a newline [\n]"

只要将json文件末尾加上一个回车键，得到一个新的空行，保存退出，重新在cmd中执行批量插入代码即可。样例

其他

因为：

POST /uri 创建

PUT /uri/xxx 更新或创建

所以在创建一个没有指定Id的文件时，要用post而不是put

Elasticsearch查询优化总结的更多相关文章

elasticsearch 查询优化
首先对不必要的字段不做分词也就是不做索引,禁止内存交换 1.shard 一个Shard就是一个Lucene实例,是一个完整的搜索引擎. 分片数过多会导致检索时打开比较多的文件,多台服务器之间通讯成本加 ...
【ElasticSearch】查询优化
一.背景每周统计接口耗时,发现耗时较长的前几个接口tp5个9都超过了1000ms. 经过分析慢查询的原因是ES查询耗时太长导致的二.设计方案 1.问题定位查询功能使用不当导致慢查询索引设计存在 ...
白日梦的Elasticsearch实战笔记，ES账号免费借用、32个查询案例、15个聚合案例、7个查询优化技巧。
目录一.导读二.福利:账号借用三._search api 搜索api 3.1.什么是query string search? 3.2.什么是query dsl? 3.3.干货!32个查询案例! ...
白日梦的Elasticsearch实战笔记，32个查询案例、15个聚合案例、7个查询优化技巧。
目录一.导读三._search api 搜索api 3.1.什么是query string search? 3.2.什么是query dsl? 3.3.干货!32个查询案例! 四.聚合分析 4.1 ...
财务平台亿级数据量毫秒级查询优化之elasticsearch原理解析
财务平台进行分录分表以后,随着数据量的日渐递增,业务人员对账务数据的实时分析响应时间越来越长,体验性慢慢下降,之前我们基于mysql的性能优化做了一遍,可以说基于mysql该做的优化已经基本上都做了, ...
(转)开源分布式搜索平台ELK(Elasticsearch+Logstash+Kibana)入门学习资源索引
Github, Soundcloud, FogCreek, Stackoverflow, Foursquare,等公司通过elasticsearch提供搜索或大规模日志分析可视化等服务.博主近4个月搜 ...
Elasticsearch(GEO)空间检索查询
Elasticsearch(GEO)空间检索查询python版本 1.Elasticsearch ES的强大就不用多说了,当你安装上插件,搭建好集群,你就拥有了一个搜索系统. 当然,ES的集群优化和查 ...
400+节点的 Elasticsearch 集群运维
本文首发于InfoQ https://www.infoq.cn/article/1sm0Mq5LyY_021HGuXer 作者:Anton Hägerstrand 翻译:杨振涛目录: 数据量版本 ...
开源分布式搜索平台ELK(Elasticsearch+Logstash+Kibana)入门学习资源索引
from: http://www.w3c.com.cn/%E5%BC%80%E6%BA%90%E5%88%86%E5%B8%83%E5%BC%8F%E6%90%9C%E7%B4%A2%E5%B9%B ...

随机推荐

CUDA memory
原文链接 CUDA存储器类型: 每个线程拥有自己的register and loacal memory; 每个线程块拥有一块shared memory; 所有线程都可以访问global memory; ...
Meshlab
打开ply文件的软件,Meshlab. 下载 http://yunpan.cn/cgapukD2La9Se (提取码:37f1) http://pan.baidu.com/s/1pJLnWqJ
【JS-Java-EL】JavaScript和Java(EL表达式)引发的 Uncaught SyntaxError: Unexpected token ILLEGAL
2018.10.14 BUG原因: 在较早期的代码中,容易出现 JS 拼接 HTML 代码字符串的情况.如 // 页面 test.jsp 内部的 JS 代码 // ${} JSP中EL语法,内部为Ja ...
javascript入门笔记9-认识DOM
认识DOM 文档对象模型DOM(Document Object Model)定义访问和处理HTML文档的标准方法.DOM 将HTML文档呈现为带有元素.属性和文本的树结构(节点树). 将HTML代码分 ...
jquery 筛选元素(1)
.eq() 减少匹配元素的集合为指定的索引的那一个元素. .eq(index) index一个整数,指示元素的位置,以0为基数. $("li").eq(2).css('backgr ...
深入浅出：了解JavaScript的ES6、ES7新特性
参照阮一峰博客:http://es6.ruanyifeng.com/#README es6常见题:https://blog.csdn.net/qq_39207948/article/details/8 ...
泉五培训Day4
T1 收果子题目 [题目描述] 有一个果园,有n棵果树依次排成一排,其中已知第 i 棵果树上结了ai个果子.现在要按照果树编号顺序依次收果子,对于一个能装v个果树的果篮,收果子从第1棵果树开始,如果 ...
Open closed principle
#include <iostream> using namespace std; class Book { public: string getContents() { return &q ...
ElasticSearch 集群原理
节点一个运行中的EasticSearch 被称为一个节点,而集群是由多个用于拥有相同cluster.name配置的节点组成,它们共同承担数据和负载的压力,当有新的节点加入或移除,集群会重新平均分布所 ...
【MYSQL笔记2】复制表，在已有表的基础上设置主键，insert和replace
之前我自己建立好了一个数据库xscj:表xs是已经定义好的具体的定义数据类型如下: 为了复制表xs,我们新建一个表名为xstext,使用下列语句进行复制xs,或者说是备份都可以: create ta ...

Elasticsearch查询优化总结