ElasticSearch 实现分词全文检索

数据准备

ElasticSearch 实现分词全文检索 - 测试数据准备

深分页 Scroll

ES 对 from + size 有限制，两者之和不能超过1W

from + size 在 ES 查询数据的方式：

第一步：将用户指定的关键词进行分词
第二步：将词汇去词库中进行检索，得到多个文档id
第三步：去各个分片中拉取指定的数据【耗时较长】
第四步：根据score（匹配度）将数据进行排序，【耗时较长】
第五步：根据 from 的值，将查询到的数据舍弃一部分
第六步：返回结果

Scroll + size 在 ES 查询数据的方式：

第一步：将用户指定的关键词进行分词
第二步：将词汇去分词库中进行检索，得到多个文档的id
第三步：将文档的id存放在一个ES的上下文中(设定保存时间，过期后移除)
第四步：根据你指定的Size的个数去ES中检索指定个数的数据，拿到数据的文档id，会从上下文中移除
第五步：如果需要下一页数据，直接去ES的上下文中找后续的内容
第六步：循环第四步和第五步

Scroll查询方式，不适合做实时的查询,每次都是从数据文档中的ID去获取，效果高了，但文档中的ID（第二步）不是实时更新的，一般后台管理的方式用 Scroll 比较方便

# scroll 查询，返回第一页数据，并且将文档id信息存放在ES上下文中，指定生存时间 1m

POST /sms-logs-index/_search?scroll=1m

{

  "query": {

    "match_all": {}

    },

    "size": 2,

    "sort": [

      {

        "fee": {  # 指定排序

          "order": "desc"

        }

      }

    ]

  }

}

# 根据scroll查询下一页数据,【第一步设置了1分钟，所以1分钟以后再执行就没有数据了】

POST /_search/scroll

{

  "scroll_id":"FGluY2x1ZGVfY29udGV4dF91dWlkDXF1ZXJ5QW5kRmV0Y2gBFEQ1VkNuSVlCR2xMYVQ1OExzNU1tAAAAAAADNlcWMEt3d2xrY3hRWGFoZFlwM01ZdnlCdw==",  #根据上一步查的结果提到scroll_id

  "scroll":"1m" #生存时间

}

# 删除scroll在ES上下文中的数据

DELETE /_search/scroll/FGluY2x1ZGVfY29udGV4dF91dWlkDXF1ZXJ5QW5kRmV0Y2gBFEQ1VkNuSVlCR2xMYVQ1OExzNU1tAAAAAAADNlcWMEt3d2xrY3hRWGFoZFlwM01ZdnlCdw==

Java

@Test

void scrollQuery() throws Exception {

    String indexName = "sms-logs-index";

    RestHighLevelClient client = ESClient.getClient();

    //1. 创建SearchRequest对象

    SearchRequest request = new SearchRequest(indexName);

    //2. 指定scroll信息

    request.scroll(TimeValue.timeValueMinutes(2L)); //1分钟过期

    //2. 指定查询条件

    SearchSourceBuilder builder = new SearchSourceBuilder();

    builder.size(4);

    builder.sort("fee", SortOrder.DESC);

    builder.query(QueryBuilders.matchAllQuery());

    request.source(builder);

    //4. 获取返回结果 scrollid,source

    SearchResponse resp = client.search(request, RequestOptions.DEFAULT);

    String scrollId = resp.getScrollId();

    System.out.println("-------首页----------");

    for (SearchHit hit : resp.getHits().getHits()) {

        System.out.println(hit.getSourceAsMap());

    }

    while (true) {

        System.out.println("ScrollId =>" + scrollId);

        //5. 循环 - 创建SearchScrollRequest

        SearchScrollRequest scrollRequest = new SearchScrollRequest(scrollId);

        //6. 指定 ScrollId

        scrollRequest.scroll(TimeValue.timeValueMinutes(1L));

        //7. 执行查询获取返回结果

        SearchResponse scrollResp = client.scroll(scrollRequest, RequestOptions.DEFAULT);

        //8. 判断是否查询到了数据，输出

        SearchHit[] hits = scrollResp.getHits().getHits();

        if (hits != null && hits.length > 0) {

            System.out.println("----------下一页---------");

            for (SearchHit hit : hits) {

                System.out.println(hit.getSourceAsMap());

            }

        } else {

            //9. 判断没有查询到数据 -  退出循环

            System.out.println("----------下一页---------");

            break;

        }

    }

    //10. 创建 ClearScrollRequest

    ClearScrollRequest clearScrollRequest = new ClearScrollRequest();

    //11. 指定 ScrollId

    clearScrollRequest.addScrollId(scrollId);

    //12. 删除 ScrollId

    ClearScrollResponse clearScrollResponse = client.clearScroll(clearScrollRequest, RequestOptions.DEFAULT);

    //13. 输出结果

    System.out.println("删除scroll: " + clearScrollResponse.isSucceeded());

}

ElasticSearch 实现分词全文检索 - Scroll 深分页的更多相关文章

ElasticSearch - 解决ES的深分页问题 (游标 scroll)
https://www.jianshu.com/p/f4d322415d29 1.简介 ES为了避免深分页,不允许使用分页(from&size)查询10000条以后的数据,因此如果要查询第10 ...
【分页问题】elasticsearch 深分页问题以及解决方法
本文主要参考: 1.https://www.elastic.co/guide/en/elasticsearch/reference/current/search-request-scroll.html ...
ES scroll（ES游标）解决深分页
ES scroll(ES游标) 解决深分页. Why 当Elasticsearch响应请求时,它必须确定docs的顺序,排列响应结果.如果请求的页数较少(假设每页20个docs), Elasticse ...
Elasticsearch由浅入深（七）搜索引擎：_search含义、_multi-index搜索模式、分页搜索以及深分页性能问题、query string search语法以及_all metadata原理
_search含义 _search查询返回结果数据含义分析 GET _search { , "timed_out": false, "_shards": { , ...
Elasticsearch from/size-浅分页查询-深分页 scroll-深分页search_after深度查询区别使用及应用场景
Elasticsearch调研深度查询 1.from/size 浅分页查询一般的分页需求我们可以使用from和size的方式实现,但是这种的分页方式在深分页的场景下应该是避免使用的.深分页的页次增加 ...
深分页（Deep Pagination）
取回阶段 | Elasticsearch: 权威指南 | Elastic https://www.elastic.co/guide/cn/elasticsearch/guide/current/_fe ...
PHP+mysql数据库开发搜索功能：中英文分词+全文检索（MySQL全文检索+中文分词（SCWS））
PHP+mysql数据库开发类似百度的搜索功能:中英文分词+全文检索中文分词: a) robbe PHP中文分词扩展: http://www.boyunjian.com/v/softd/robb ...
ElasticSearch中文分词（IK）
ElasticSearch常用的很受欢迎的是IK,这里稍微介绍下安装过程及测试过程. 1.ElasticSearch官方分词自带的中文分词器很弱,可以体检下: [zsz@VS-zsz ~]$ c ...
Infinite Scroll–无限分页
一.前言现在有很多网站都有这样的交互 1.当你往下浏览页面时,页面会自动去异步加载数据. 无限分页效果 infinite scroll 效果图 –ifxoxo.com 2.在页面下方有一个“点击加载 ...
实战ELK（8）安装ElasticSearch中文分词器
安装方法1 - download pre-build package from here: https://github.com/medcl/elasticsearch-analysis-ik/re ...

随机推荐

IE浏览器a标签无法下载问题解决（IE浏览器a标签download属性不兼容问题解决）
//下载文件流函数,只支持get方法. export function downBlob(payload) { return new Promise(((resolve, reject) => ...
springsecurity 配置swagger
最近在学习springsecurity 安全框架,具体是什么概念在这里不一一赘述了.下面呢,咱们一起搭建一下简单的springsecurity swagger 项目感受一下. 首先初始化spring ...
Python的入门学习之 Day 7——from“夜曲编程”
Day 7 time: 2021.8.4. 今天主要将"if-else"再扩展, 得到"if-elif-else"模型.它与"if-else" ...
git 代码托管常用代码
一.git全局账号登录 (1)全局登录账号和密码 git config --global user.name "xxx" git config --global user.emai ...
@Scheduled不执行
今天发现@Scheduled不执行,注释掉netty的初始化事件就能正常执行了原因是@PostConstruct是在主线程执行,@PostConstruct不能堵塞,堵塞会导致整个应用挂起不可用
php对接java接口
1.php curl 传参形式 public function send($url,$postData){ $ch = curl_init(); $headers = array("Cont ...
Java断言语句
断言语句在调试代码阶段非常有用,断言语句一般用于程序不准备通过捕获异常来处理的错误,例如,当发生某个错误时,要求程序必须立即停止执行.在调试代码阶段让断言语句发挥作用,这样就可以发现一些致命的错 ...
利用expect交互批量修改普通用户过期密码
利用expect交互批量修改普通用户过期密码因为公司接了一个密码托管的活,有10000多台机器,系统有 openSUSE,SUSE,Ubuntu,centos,Oracle-Linux, 而且什么版 ...
re模块相关介绍
re模块模块和实际工作时间的关系 time模块和时间是什么关系?re模块和正则表达式的关系? 有了re模块就可以在python语言中操作正则表达式正则表达式 1:什么是正则表达式? 一套规则--- ...
Vue3 流程图组件库 Vue Flow 简单使用
官网 Vue Flow 官网 Vue Flow GitHub 安装 npm i --save @vue-flow/core yarn add @vue-flow/core pnpm i @vue-fl ...

ElasticSearch 实现分词全文检索 - Scroll 深分页

目录

数据准备

深分页 Scroll

ElasticSearch 实现分词全文检索 - Scroll 深分页的更多相关文章

随机推荐

热门专题