笔者在实际生产环境中经常遇到一些大文件的检索，例如一些书籍内容，PDF文件等。今天这篇博客主要来探讨下如何提升ES在检索大文件的一些性能，经验有限，算是一个小小的总结吧！

1、大文件是多大？

ES建立索引完成全文检索的前提是将待检索的信息导入Elaticsearch。

项目中，有时候需要将一些扫描件、PDF文档、Word、Excel、PPT等文档内容导入Elasticsearch。

比如：将《深入理解Elasticsearch》这边书导入ES，而这边书的全文内容被识别后的大小可能为3MB——5MB以上的字节。

存入ES后是一个content字段，对这个content执行全文检索&高亮显示，就存在检索效率低的问题，会耗时30S以上的时间。

这点，作为习惯了搜索引擎极速体验的用户，是不能忍的。

本文，详细记录了大文件的全文检索性能问题排查及提升实践方式。

2、问题描述

从检索症状来看：

1）翻页到1000+页（每页10条数据）以上，响应时间会比较长。

2）当遇到某些文件的时候（事后分析得知是大文件），响应时间尤其长，超过30S以上返回高亮结果。

3、问题排查与定位

步骤1：限定返回记录条数。不提供直接访问末页的入口。

baidu，360，搜狗等搜索引擎都不提供访问末页的请求方式。都是基于如下的请求方式：
通过点击上一下、下一页逐页访问。

这个从用户的角度也很好理解，搜索引擎返回的前面都是相关度最高的，也是用户最关心的信息。

Elasticsearch的默认支持的数据条数是10000条，可以通过post请求修改。

最终，本步骤将支持ES最大返回值10000条数据，每页10条，也就是共显示1000页数据。

步骤2,from size机制问题，大于设定页就会慢

【from + size机制】：当Elasticsearch响应请求时，它必须确定docs的顺序，排列响应结果。如果请求的页数较少（假设每页10个docs）, Elasticsearch不会有什么问题，但是如果页数较大时，比如请求第100页，Elasticsearch不得不取出第1页到第100页的所有docs，再去除第1页到第99页的docs，得到第100页的docs。

【scroll机制】：相对于from和size的分页来说，使用scroll可以模拟一个传统数据的游标，记录当前读取的文档信息位置。这个分页的用法，不是为了实时查询数据，而是为了一次性查询大量的数据（甚至是全部的数据）。

因为这个scroll相当于维护了一份当前索引段的快照信息，这个快照信息是你执行这个scroll查询时的快照。在这个查询后的任何新索引进来的数据，都不会在这个快照中查询到。但是它相对于from和size，不是查询所有数据然后剔除不要的部分，而是记录一个读取的位置，保证下一次快速继续读取。

from+size方式以及scroll方式优缺点对比：

1）对于from+size方式：当结果足够大的时候，会大大加大内存和CPU的消耗。但，该方式使用非常方便。

2）对于scroll方式：当结果足够大的时候， scroll 性能更佳。但是不灵活和 scroll_id 难管理问题存在。

【from网络】个人测试：当结果足够大的时候产生 scroll_id 性能也不低。如果只是一页页按照顺序，scroll是极好的，但是如果是无规则的翻页，那也是性能消耗极大的。

经过两种机制对比，加之步骤1，限定了分页数，最大1000页。并且用户支持主页翻页的方式，暂定还是采用from+size方式。

如果后面步骤有问题，再考虑换成scorll机制。

步骤3, 查看ES打印日志。

当出现卡顿、卡死等性能低、用户体验差问题时，查看ES的日志。

原因分析：卡顿、卡死都是堆内存设置不足导致。
根据之间总结的高性能配置建议，果断加堆内存，由16GB增加到最大值31GB。
堆内存使用比率可以通过：cerebro 工具检测性能。

步骤4：类似逆向解析dsl，排查查询慢在哪？

1）打印出DSL，可以通过接口： searchSourceBuilder.toString()。

2) 新增profile参数，查看到底哪里慢了。
profile API的目的是：将ES高层的ES请求拉平展开，直观的让你看到请求做了什么，每个细分点花了多少时间。
给你改善性能提供相关支撑工作。
使用举例如下：

GET /_search

{

  "profile": true,

  "query" : {

    "match" : { "message" : "message number" }

  }

}

3）换了全文接口api ，query_string改成match query满足要求且速度有提升。

4）删除某些查询条件，在基础数据不变的条件下，查看查询速度是否快了（返回时间短了）。

验证发现，当不返回content字段（_source控制）时，速度会变快。
当取消高亮字段处理，速度会更快。0.5秒之内返回结果。

至此，初步断定和高亮处理有关系。

步骤5：高亮问题排查及优化

通过论坛中网友的建议来看，都推荐对于大文件高亮使用： fast-vector-highlighter。

查询官网文档得知：
Elasticsearch高亮分为三种方式：

方式1：传统plain高亮方式。

官网明确支持，该方式匹配慢，如果出现性能问题，请考虑其他高亮方式。

方式2： postings 高亮方式。

支持postings高亮方式，需要在mapping下添加如下信息：

"type": "text",

"index_options" : "offsets"

添加完毕后，posting高亮方式将取代传统的高亮方式。

posting高亮方式的特点：
1）速度快，不需要对高亮的文档再分析。文档越大，获得越高性能。
2）比fvh高亮方式需要的磁盘空间少。
3）将text文件分割成语句并对其高亮处理。对于自然语言发挥作用明显，但对于html则不然。
4）将文档视为整个语料库，并使用BM25算法为该语料库中的文档打分。
使用举例：

PUT /example

{

  "mappings": {

    "doc" : {

      "properties": {

        "comment" : {

          "type": "text",

          "index_options" : "offsets"

        }

      }

    }

  }

}

方式3： fast-vector-highlighter 简称fvh高亮方式。

如果在mapping中的text类型字段下添加了如下信息：

"type": "text",

"term_vector" : "with_positions_offsets"

fvh高亮方式将取代传统的plain高亮方式。

fvh高亮方式的特点如下：
1）当文件>1MB(大文件）时候，尤其适合fvh高亮方式。
2）自定义为 boundary_scanner的扫描方式。
3) 设定了 term_vector to with_positions_offsets会增加索引的大小。
4）能联合多字段匹配返回一个结果，详见matched_fields。
5）对于不同的匹配类型分配不同的权重，如：pharse匹配比term匹配高。
举例：

PUT /example

{

  "mappings": {

    "doc" : {

      "properties": {

        "comment" : {

          "type": "text",

          "term_vector" : "with_positions_offsets"

        }

      }

    }

  }

}

最终选型：fvh高亮方式。首先：新建了索引，按照fvh的方式对content字段新设置了mapping；其次通过如下方式进行索引数据同步：

POST /_reindex

{

  "source": {

    "index": "test_index"

  },

  "dest": {

    "index": "test_index_new"

  }

}

实践结果表明，同样的大文件，原本检索>40S，现在2S之内返回结果。
没有改一行代码，只修改了mapping，效率提升了近20倍。

Elasticsearch中提升大文件检索性能的一些总结的更多相关文章

ElasticSearch中的JVM性能调优
ElasticSearch中的JVM性能调优前一段时间被人问了个问题:在使用ES的过程中有没有做过什么JVM调优措施? 在我搭建ES集群过程中,参照important-settings官方文档来的, ...
Element-ui 2.8.0版本中提升表格性能，做了哪些事情，原理是什么
背景项目中一直用element-ui,之前用el-table的时候,发现表格数据较多时,滑动表格就会很卡.我们的表格中只有200行数据,每行大概有30的字段,表格滑动就卡的不行.在Element-u ...
Elasticsearch 基础知识要点与性能监控
本文的来源是我翻译国外的一篇技术博客,感谢原作者Emily Chang,原文地址通过如下的知识,我们能大致学到关于ES的一些基本知识,进而对elasticsearch的性能进行监控和调优注意elas ...
002 elasticsearch中的一些概念
在本文中,主要是ES7中的核心概念. ElasticSearch是一个实时分布式开源全文搜索和分析引擎.它可以从RESTful网络服务接口访问,并使用无模式JSON (JavaScript对象符号)文 ...
ElasticSearch中倒排索引和正向索引
ElasticSearch搜索使用的是倒排索引,但是排序.聚合等不适合倒排索引使用的是正向索引倒排索引倒排索引表以字或词为关键字进行索引,表中关键字所对应的记录项记录了出现这个字或词的所有文档,每 ...
Elasticsearch中最重要的文档CRUD要牢记
Elasticsearch文档CRUD要牢记转载参考:https://juejin.im/post/5ddbf298e51d4523053c42e7 在Elasticsearch中,文档(docum ...
Elasticsearch 中为什么选择倒排索引而不选择 B 树索引
目录前言为什么全文索引不使用 B+ 树进行存储全文检索正排索引倒排索引倒排索引如何存储数据 FOR 压缩 RBM 压缩倒排索引如何存储字典树(Tria Tree) FST FSM 构建 ...
Elasticsearch中的一些重要概念:cluster, node, index, document, shards及replica
首先,我们来看下一下如下的这个图: Cluster Cluster也就是集群的意思.Elasticsearch集群由一个或多个节点组成,可通过其集群名称进行标识.通常这个Cluster 的名字是可以在 ...
提升VMware虚拟机性能招数
在VMware虚拟机(VMware Workstation或VMware Server)中我们可以同时运行多个Guest OS,当同时在同一Host OS中运行多台虚拟机时势必会严重影响到Host O ...

随机推荐

JS中try.. catch..的用法
try 测试代码块的错误. catch 语句处理错误. throw 创建并跑出错误. try { //在这里运行代码抛出错误 } catch(err) { //在这里处理错误 } 下面是一个实例: ...
EasyPlayer RTSP Windows播放器D3D,GDI的几种渲染方式的选择区别
EasyPlayer-RTSP windows播放器支持D3D和GDI两种渲染方式,其中D3D支持格式如下: DISPLAY_FORMAT_YV12 DISPLAY_FORMAT_YUY2 DISPL ...
CSS定位细节
记住此三句话,很好的解决了关于浮动方面的问题: 1.浮动的元素对于没有设置浮动的元素来说是不存在的,浮动的元素将会覆盖没有浮动的元素如图:先让d1浮动在left ,d2位置不浮动,d1覆盖了d2之上 ...
九度OJ 1074：对称平方数（数字特性）
时间限制:1 秒内存限制:32 兆特殊判题:否提交:4804 解决:2173 题目描述: 打印所有不超过n(n<256)的,其平方具有对称性质的数. 如11*11=121 输入: 无任何输 ...
json (js对象标记)
基础 JSON: JavaScript Object Notation (JavaScript对象表示法) 网络媒体类型是 application/json,文件名扩展是 .json JSON 独立于 ...
ES5中的类与继承
最近在重新复习TypeScript,看到类这块的时候自然会和ES5中的类写法进行对比加深印象. 发现ES5的类与继承一些细节还是挺多的,时间久了容易忘记,特此记录下. 首先是ES5的类定义,这没什么好 ...
linux中查看python的安装路径
方法1:whereis python 查看所有python的路径,不止一个方法2:which python 查看当前使用的python路径
Java中String的设计
String应用简介前言 String字符串在Java应用中使用非常频繁,只有理解了它在虚拟机中的实现机制,才能写出健壮的应用,本文使用的JDK版本为1.8.0_111. 常量池 Java代码被编译 ...
SQLSERVER2008 R2的端口设置
通过存储过程查看我们首先打开sqlserver连接sqlserver2008的数据库实例,然后执行如下存储过程: --查询端口号 exec sys.sp_readerrorlog 0, 1, 'li ...
Contiki 2.7 Makefile 文件（六）
5.第五部分 ifndef CONTIKI $(error CONTIKI not defined! You must specify where CONTIKI resides!) endif if ...

Elasticsearch中提升大文件检索性能的一些总结