ElasticSearch 实现分词全文检索

数据准备

ElasticSearch 实现分词全文检索 - 测试数据准备

深分页 Scroll

ES 对 from + size 有限制，两者之和不能超过1W

from + size 在 ES 查询数据的方式：

第一步：将用户指定的关键词进行分词
第二步：将词汇去词库中进行检索，得到多个文档id
第三步：去各个分片中拉取指定的数据【耗时较长】
第四步：根据score（匹配度）将数据进行排序，【耗时较长】
第五步：根据 from 的值，将查询到的数据舍弃一部分
第六步：返回结果

Scroll + size 在 ES 查询数据的方式：

第一步：将用户指定的关键词进行分词
第二步：将词汇去分词库中进行检索，得到多个文档的id
第三步：将文档的id存放在一个ES的上下文中(设定保存时间，过期后移除)
第四步：根据你指定的Size的个数去ES中检索指定个数的数据，拿到数据的文档id，会从上下文中移除
第五步：如果需要下一页数据，直接去ES的上下文中找后续的内容
第六步：循环第四步和第五步

Scroll查询方式，不适合做实时的查询,每次都是从数据文档中的ID去获取，效果高了，但文档中的ID（第二步）不是实时更新的，一般后台管理的方式用 Scroll 比较方便

# scroll 查询，返回第一页数据，并且将文档id信息存放在ES上下文中，指定生存时间 1m

POST /sms-logs-index/_search?scroll=1m

{

  "query": {

    "match_all": {}

    },

    "size": 2,

    "sort": [

      {

        "fee": {  # 指定排序

          "order": "desc"

        }

      }

    ]

  }

}

# 根据scroll查询下一页数据,【第一步设置了1分钟，所以1分钟以后再执行就没有数据了】

POST /_search/scroll

{

  "scroll_id":"FGluY2x1ZGVfY29udGV4dF91dWlkDXF1ZXJ5QW5kRmV0Y2gBFEQ1VkNuSVlCR2xMYVQ1OExzNU1tAAAAAAADNlcWMEt3d2xrY3hRWGFoZFlwM01ZdnlCdw==",  #根据上一步查的结果提到scroll_id

  "scroll":"1m" #生存时间

}

# 删除scroll在ES上下文中的数据

DELETE /_search/scroll/FGluY2x1ZGVfY29udGV4dF91dWlkDXF1ZXJ5QW5kRmV0Y2gBFEQ1VkNuSVlCR2xMYVQ1OExzNU1tAAAAAAADNlcWMEt3d2xrY3hRWGFoZFlwM01ZdnlCdw==

Java

@Test

void scrollQuery() throws Exception {

    String indexName = "sms-logs-index";

    RestHighLevelClient client = ESClient.getClient();

    //1. 创建SearchRequest对象

    SearchRequest request = new SearchRequest(indexName);

    //2. 指定scroll信息

    request.scroll(TimeValue.timeValueMinutes(2L)); //1分钟过期

    //2. 指定查询条件

    SearchSourceBuilder builder = new SearchSourceBuilder();

    builder.size(4);

    builder.sort("fee", SortOrder.DESC);

    builder.query(QueryBuilders.matchAllQuery());

    request.source(builder);

    //4. 获取返回结果 scrollid,source

    SearchResponse resp = client.search(request, RequestOptions.DEFAULT);

    String scrollId = resp.getScrollId();

    System.out.println("-------首页----------");

    for (SearchHit hit : resp.getHits().getHits()) {

        System.out.println(hit.getSourceAsMap());

    }

    while (true) {

        System.out.println("ScrollId =>" + scrollId);

        //5. 循环 - 创建SearchScrollRequest

        SearchScrollRequest scrollRequest = new SearchScrollRequest(scrollId);

        //6. 指定 ScrollId

        scrollRequest.scroll(TimeValue.timeValueMinutes(1L));

        //7. 执行查询获取返回结果

        SearchResponse scrollResp = client.scroll(scrollRequest, RequestOptions.DEFAULT);

        //8. 判断是否查询到了数据，输出

        SearchHit[] hits = scrollResp.getHits().getHits();

        if (hits != null && hits.length > 0) {

            System.out.println("----------下一页---------");

            for (SearchHit hit : hits) {

                System.out.println(hit.getSourceAsMap());

            }

        } else {

            //9. 判断没有查询到数据 -  退出循环

            System.out.println("----------下一页---------");

            break;

        }

    }

    //10. 创建 ClearScrollRequest

    ClearScrollRequest clearScrollRequest = new ClearScrollRequest();

    //11. 指定 ScrollId

    clearScrollRequest.addScrollId(scrollId);

    //12. 删除 ScrollId

    ClearScrollResponse clearScrollResponse = client.clearScroll(clearScrollRequest, RequestOptions.DEFAULT);

    //13. 输出结果

    System.out.println("删除scroll: " + clearScrollResponse.isSucceeded());

}

ElasticSearch 实现分词全文检索 - Scroll 深分页的更多相关文章

ElasticSearch - 解决ES的深分页问题 (游标 scroll)
https://www.jianshu.com/p/f4d322415d29 1.简介 ES为了避免深分页,不允许使用分页(from&size)查询10000条以后的数据,因此如果要查询第10 ...
【分页问题】elasticsearch 深分页问题以及解决方法
本文主要参考: 1.https://www.elastic.co/guide/en/elasticsearch/reference/current/search-request-scroll.html ...
ES scroll（ES游标）解决深分页
ES scroll(ES游标) 解决深分页. Why 当Elasticsearch响应请求时,它必须确定docs的顺序,排列响应结果.如果请求的页数较少(假设每页20个docs), Elasticse ...
Elasticsearch由浅入深（七）搜索引擎：_search含义、_multi-index搜索模式、分页搜索以及深分页性能问题、query string search语法以及_all metadata原理
_search含义 _search查询返回结果数据含义分析 GET _search { , "timed_out": false, "_shards": { , ...
Elasticsearch from/size-浅分页查询-深分页 scroll-深分页search_after深度查询区别使用及应用场景
Elasticsearch调研深度查询 1.from/size 浅分页查询一般的分页需求我们可以使用from和size的方式实现,但是这种的分页方式在深分页的场景下应该是避免使用的.深分页的页次增加 ...
深分页（Deep Pagination）
取回阶段 | Elasticsearch: 权威指南 | Elastic https://www.elastic.co/guide/cn/elasticsearch/guide/current/_fe ...
PHP+mysql数据库开发搜索功能：中英文分词+全文检索（MySQL全文检索+中文分词（SCWS））
PHP+mysql数据库开发类似百度的搜索功能:中英文分词+全文检索中文分词: a) robbe PHP中文分词扩展: http://www.boyunjian.com/v/softd/robb ...
ElasticSearch中文分词（IK）
ElasticSearch常用的很受欢迎的是IK,这里稍微介绍下安装过程及测试过程. 1.ElasticSearch官方分词自带的中文分词器很弱,可以体检下: [zsz@VS-zsz ~]$ c ...
Infinite Scroll–无限分页
一.前言现在有很多网站都有这样的交互 1.当你往下浏览页面时,页面会自动去异步加载数据. 无限分页效果 infinite scroll 效果图 –ifxoxo.com 2.在页面下方有一个“点击加载 ...
实战ELK（8）安装ElasticSearch中文分词器
安装方法1 - download pre-build package from here: https://github.com/medcl/elasticsearch-analysis-ik/re ...

随机推荐

Java 一次操作多条数据
//新增 <insert id="insertSelectiveList" useGeneratedKeys="true" parameterType=& ...
【Docker】基本使用
服务启动docker systemctl start docker 重启docker systemctl restart docker 停止docker systemctl stop docker. ...
calibredrv 对layer做操作
#clip.tclset L [layout create xxx.gds] $L create layer 10.0 $L create polygon 10.0 10 1000 1000 2000 ...
Windows相关产品密钥
Win7/Win8/Win10系统下Visual Studio 2013各个版本的密钥:Visual Studio Ultimate 2013: BWG7X-J98B3-W34RT-33B3R-JVY ...
多线程—ThreadLocal
一.ThreadLocal的含义线程的变量副本(就像命名一样),每个线程隔离. 二.ThreadLocal的结构每个Thread都有自己的ThreadLocalMap,ThreadLocalMap ...
MongoDB 分片模式
Sharding (分片模式) 副本集可以解决主节点发生故障导致数据丢失或不可用的问题,但遇到需要存储海量数据的情况时,副本集机制就束手无策了.副本集中的一台机器可能不足以存储数据,或者说集群不足以提 ...
Activiti工作流引擎系列-第二篇
官网案例下载安装实例 { "info": { "_postman_id": "64f2d7ca-8287-4f8d-94ba-1138861877dd ...
Encountered unexpected token: "ur" <K_ISOLATION>
在用mybatis-plus的过程中 , 报如下错误 : Caused by: net.sf.jsqlparser.parser.ParseException: Encountered unexpec ...
software engineering homework 1
1. 回顾你过去将近3年的学习经历当初你报考的时候,是真正喜欢计算机这个专业吗? 你现在后悔选择了这个专业吗? 你认为你现在最喜欢的领域是什么(可以是计算机的也可以是其它领域)? 答:一开始感觉编程 ...
Python爬虫iP被封的怎么办？
对于经常做数据爬虫的程序员来说,除了要写出简洁方便的代码.还需要解决的是网站反爬的问题.有时候我们在爬取数据的时候突然报出错或者目标网站错误代码. 比如说:403 Forbidden错误," ...

ElasticSearch 实现分词全文检索 - Scroll 深分页

目录

数据准备

深分页 Scroll

ElasticSearch 实现分词全文检索 - Scroll 深分页的更多相关文章

随机推荐

热门专题