笔者在实际生产环境中经常遇到一些大文件的检索,例如一些书籍内容,PDF文件等。今天这篇博客主要来探讨下如何提升ES在检索大文件的一些性能,经验有限,算是一个小小的总结吧!

1、大文件是多大?

ES建立索引完成全文检索的前提是将待检索的信息导入Elaticsearch。

项目中,有时候需要将一些扫描件、PDF文档、Word、Excel、PPT等文档内容导入Elasticsearch。

比如:将《深入理解Elasticsearch》这边书导入ES,而这边书的全文内容被识别后的大小可能为3MB——5MB以上的字节。

存入ES后是一个content字段,对这个content执行全文检索&高亮显示,就存在检索效率低的问题,会耗时30S以上的时间。

这点,作为习惯了搜索引擎极速体验的用户,是不能忍的。

本文,详细记录了大文件的全文检索性能问题排查及提升实践方式。

2、问题描述

从检索症状来看:

1)翻页到1000+页(每页10条数据)以上,响应时间会比较长。

2)当遇到某些文件的时候(事后分析得知是大文件),响应时间尤其长,超过30S以上返回高亮结果。

3、问题排查与定位

步骤1: 限定返回记录条数。不提供直接访问末页的入口。

baidu,360,搜狗等搜索引擎都不提供访问末页的请求方式。都是基于如下的请求方式: 
通过点击上一下、下一页逐页访问。

这个从用户的角度也很好理解,搜索引擎返回的前面都是相关度最高的,也是用户最关心的信息。

Elasticsearch的默认支持的数据条数是10000条,可以通过post请求修改。

最终,本步骤将支持ES最大返回值10000条数据,每页10条,也就是共显示1000页数据。

步骤2,from size机制问题 ,大于设定页就会慢

【from + size机制】:当Elasticsearch响应请求时,它必须确定docs的顺序,排列响应结果。如果请求的页数较少(假设每页10个docs), Elasticsearch不会有什么问题,但是如果页数较大时,比如请求第100页,Elasticsearch不得不取出第1页到第100页的所有docs,再去除第1页到第99页的docs,得到第100页的docs。

【scroll机制】:相对于from和size的分页来说,使用scroll可以模拟一个传统数据的游标,记录当前读取的文档信息位置。这个分页的用法,不是为了实时查询数据,而是为了一次性查询大量的数据(甚至是全部的数据)。

因为这个scroll相当于维护了一份当前索引段的快照信息,这个快照信息是你执行这个scroll查询时的快照。在这个查询后的任何新索引进来的数据,都不会在这个快照中查询到。但是它相对于from和size,不是查询所有数据然后剔除不要的部分,而是记录一个读取的位置,保证下一次快速继续读取。

from+size方式以及scroll方式优缺点对比:

1)对于from+size方式:当结果足够大的时候,会大大加大内存和CPU的消耗。但,该方式使用非常方便。

2)对于scroll方式: 当结果足够大的时候, scroll 性能更佳。但是不灵活和 scroll_id 难管理问题存在。

【from网络】个人测试:当 结果足够大的时候 产生 scroll_id 性能也不低。如果只是一页页按照顺序,scroll是极好的,但是如果是无规则的翻页,那也是性能消耗极大的。

经过两种机制对比,加之步骤1,限定了分页数,最大1000页。并且用户支持主页翻页的方式,暂定还是采用from+size方式。

如果后面步骤有问题,再考虑换成scorll机制。

步骤3, 查看ES打印日志。

当出现卡顿、卡死等性能低、用户体验差问题时,查看ES的日志。

原因分析:卡顿、卡死都是堆内存设置不足导致。 
根据之间总结的高性能配置建议,果断加堆内存,由16GB增加到最大值31GB。 
堆内存使用比率可以通过:cerebro 工具检测性能。

步骤4:类似逆向解析dsl,排查查询慢在哪?

1) 打印出DSL,可以通过接口: searchSourceBuilder.toString()。

2) 新增profile参数,查看到底哪里慢了。 
profile API的目的是:将ES高层的ES请求拉平展开,直观的让你看到请求做了什么,每个细分点花了多少时间。 
给你改善性能提供相关支撑工作。 
使用举例如下:

GET /_search
{
"profile": true,
"query" : {
"match" : { "message" : "message number" }
}
}

3) 换了全文接口api ,query_string改成match query满足要求且速度有提升。

4)删除某些查询条件,在基础数据不变的条件下,查看查询速度是否快了(返回时间短了)。

验证发现,当不返回content字段(_source控制)时,速度会变快。 
当取消高亮字段处理,速度会更快。0.5秒之内返回结果。

至此,初步断定和高亮处理有关系。

步骤5:高亮问题排查及优化

通过论坛中网友的建议来看,都推荐对于大文件高亮使用: fast-vector-highlighter。

查询官网文档得知: 
Elasticsearch高亮分为三种方式:

方式1:传统plain高亮方式。

官网明确支持,该方式匹配慢,如果出现性能问题,请考虑其他高亮方式。

方式2: postings 高亮方式。

支持postings高亮方式,需要在mapping下添加如下信息:

"type": "text",
"index_options" : "offsets"

添加完毕后,posting高亮方式将取代传统的高亮方式。

posting高亮方式的特点: 
1)速度快,不需要对高亮的文档再分析。文档越大,获得越高 性能 。 
2)比fvh高亮方式需要的磁盘空间少。 
3)将text文件分割成语句并对其高亮处理。对于自然语言发挥作用明显,但对于html则不然。 
4)将文档视为整个语料库,并 使用BM25算法 为该语料库中的文档打分。 
使用举例:

PUT /example
{
"mappings": {
"doc" : {
"properties": {
"comment" : {
"type": "text",
"index_options" : "offsets"
}
}
}
}
}

方式3: fast-vector-highlighter 简称fvh高亮方式。

如果在mapping中的text类型字段下添加了如下信息:

"type": "text",
"term_vector" : "with_positions_offsets"

fvh高亮方式将取代传统的plain高亮方式。

fvh高亮方式的特点如下: 
1)当文件>1MB(大文件)时候,尤其适合fvh高亮方式。 
2)自定义为 boundary_scanner的扫描方式。 
3) 设定了 term_vector to with_positions_offsets会增加索引的大小。 
4)能联合多字段匹配返回一个结果,详见matched_fields。 
5)对于不同的匹配类型分配不同的权重,如:pharse匹配比term匹配高。 
举例:

PUT /example
{
"mappings": {
"doc" : {
"properties": {
"comment" : {
"type": "text",
"term_vector" : "with_positions_offsets"
}
}
}
}
}

最终选型:fvh高亮方式。首先:新建了索引,按照fvh的方式对content字段新设置了mapping;其次通过如下方式进行索引数据同步:

POST /_reindex
{
"source": {
"index": "test_index"
},
"dest": {
"index": "test_index_new"
}
}

实践结果表明,同样的大文件,原本检索>40S,现在2S之内返回结果。 
没有改一行代码,只修改了mapping,效率提升了近20倍。

相关参考:

[1] scroll和from size性能对比: 
http://www.cnblogs.com/xing901022/archive/2016/03/16/5284902.html 
[2]分解请求时间方式: 
https://www.elastic.co/guide/en/elasticsearch/reference/5.4/search-profile.html

Elasticsearch中提升大文件检索性能的一些总结的更多相关文章

  1. ElasticSearch中的JVM性能调优

    ElasticSearch中的JVM性能调优 前一段时间被人问了个问题:在使用ES的过程中有没有做过什么JVM调优措施? 在我搭建ES集群过程中,参照important-settings官方文档来的, ...

  2. Element-ui 2.8.0版本中提升表格性能,做了哪些事情,原理是什么

    背景 项目中一直用element-ui,之前用el-table的时候,发现表格数据较多时,滑动表格就会很卡.我们的表格中只有200行数据,每行大概有30的字段,表格滑动就卡的不行.在Element-u ...

  3. Elasticsearch 基础知识要点与性能监控

    本文的来源是我翻译国外的一篇技术博客,感谢原作者Emily Chang,原文地址通过如下的知识,我们能大致学到关于ES的一些基本知识,进而对elasticsearch的性能进行监控和调优 注意elas ...

  4. 002 elasticsearch中的一些概念

    在本文中,主要是ES7中的核心概念. ElasticSearch是一个实时分布式开源全文搜索和分析引擎.它可以从RESTful网络服务接口访问,并使用无模式JSON (JavaScript对象符号)文 ...

  5. ElasticSearch中倒排索引和正向索引

    ElasticSearch搜索使用的是倒排索引,但是排序.聚合等不适合倒排索引使用的是正向索引 倒排索引 倒排索引表以字或词为关键字进行索引,表中关键字所对应的记录项记录了出现这个字或词的所有文档,每 ...

  6. Elasticsearch中最重要的文档CRUD要牢记

    Elasticsearch文档CRUD要牢记 转载参考:https://juejin.im/post/5ddbf298e51d4523053c42e7 在Elasticsearch中,文档(docum ...

  7. Elasticsearch 中为什么选择倒排索引而不选择 B 树索引

    目录 前言 为什么全文索引不使用 B+ 树进行存储 全文检索 正排索引 倒排索引 倒排索引如何存储数据 FOR 压缩 RBM 压缩 倒排索引如何存储 字典树(Tria Tree) FST FSM 构建 ...

  8. Elasticsearch中的一些重要概念:cluster, node, index, document, shards及replica

    首先,我们来看下一下如下的这个图: Cluster Cluster也就是集群的意思.Elasticsearch集群由一个或多个节点组成,可通过其集群名称进行标识.通常这个Cluster 的名字是可以在 ...

  9. 提升VMware虚拟机性能招数

    在VMware虚拟机(VMware Workstation或VMware Server)中我们可以同时运行多个Guest OS,当同时在同一Host OS中运行多台虚拟机时势必会严重影响到Host O ...

随机推荐

  1. Git 自己的一些工作中的总结

    这个网址很重要:https://gitee.com/progit/2-Git-%E5%9F%BA%E7%A1%80.html#2.4-%E6%92%A4%E6%B6%88%E6%93%8D%E4%BD ...

  2. OIer同样是音乐家

    烦闷的时候,shenben为大家准备了2首歌(不用耳机也能听哦) 只需把代码复制到dev-c++的编辑器上,轻按F11,然后聆听OIer的音乐…… 千本樱 曲谱 #include <cstdio ...

  3. servlet3.0 文件上传功能

    注意 jsp页面中file选择 的要有属性 name='file' package com.webserver.webservice; import java.io.File; import java ...

  4. php计算数组的维数

    function array_dim($arr){ if(!is_array($arr)) return 0; else{ $max1 = 0; foreach($arr as $item1){ $t ...

  5. Method invoke 方法

    这个问题要看明白源码才能解决

  6. 关于left join遇到where就不管用的问题

    今天做了个存储过程,需要的功能是查询所有人的得分,有人没分就给零分,显而易见这里用左外连接是没有问题的, 但是在连接完之后有个根据时间筛选功能,于是我加了where条件判断,这时候没有想到的事情发生了 ...

  7. BMP文件解析【转】

    本文转载自:http://blog.csdn.net/Blues1021/article/details/44954817 BMP文件通常是不压缩的,所以它们通常比同一幅图像的压缩图像文件格式要大很多 ...

  8. HDU2825 Wireless Password —— AC自动机 + 状压DP

    题目链接:https://vjudge.net/problem/HDU-2825 Wireless Password Time Limit: 2000/1000 MS (Java/Others)    ...

  9. Spring Boot2.0之整合多数据源

    一般公司分两个数据库: 一个放共同配置文件, 一个数据库垂直业务数据库 垂直拆分和水平拆分: 垂直是根据业务划分具体数据库 在一个项目中有多个数据源(不同库jdbc) 无限个的哈~ 根据包名 或者 注 ...

  10. 在PyCharm上创建Django项目

    声明:此Django分类下的教程是追梦人物所有,地址http://www.jianshu.com/u/f0c09f959299,本人写在此只是为了巩固复习使用 首先我们在Pycharm上新建一个Dja ...