RestHighLevelClient 之 Scroll

ES中默认最大查询结果为10000，大于10000时查不出结果，报错超过最大值，如把 from调到大于10000.

针对这个问题，有两种解决办法。

第一种，修改 max_result_window

很多人都用这种方法，简单粗暴。缺点是真的简单粗暴，对部分情形可用，但是对一些特殊情形可能就不行了。

PUT index/_settings

{

  "index":{

    "max_result_window":100000000

  }

}

一篇可以参考的博客：关于搜索elasticsearch的数据条数大于10000的坑 max_result_window的两种设置方式

第二种，Scroll

scroll API 可以被用来检索大量的结果，甚至所有的结果，就像在传统数据库中使用的游标 cursor。

本方法官方文档：https://www.elastic.co/guide/en/elasticsearch/reference/7.2/search-request-scroll.html#scroll-search-context

中文翻译参考：https://blog.csdn.net/ctwy291314/article/details/82751898

以下代码是要实现获取ES中全部文档的nid字段，并将其存到文件中，是在单元测试中写的，NID是内部类。

具体代码：

public static class NID {

    private String nid;

    public String getNid() {

        return nid;

    }

    public void setNid(String nid) {

        this.nid = nid;

    }

}

@Test

public void testScroll() {

    //RestHighLevelClient client = elasticClient.getRestHighLevelClient();

    RestHighLevelClient client = esConfig.client();

    // 初始化scroll

    // 设定滚动时间间隔

    // 这个时间并不需要长到可以处理所有的数据，仅仅需要足够长来处理前一批次的结果。每个 scroll 请求（包含 scroll 参数）设置了一个新的失效时间。

    final Scroll scroll = new Scroll(TimeValue.timeValueMinutes(1L));

    SearchRequest searchRequest = new SearchRequest(esConfig.getCaterIndex()); // 新建索引搜索请求

    searchRequest.scroll(scroll);

    SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();

    searchSourceBuilder.query(matchAllQuery());

    searchSourceBuilder.size(5000); //设定每次返回多少条数据

    searchSourceBuilder.fetchSource(new String[]{"nid"},null);//设置返回字段和排除字段

    searchRequest.source(searchSourceBuilder);

    SearchResponse searchResponse = null;

    try {

        searchResponse = client.search(searchRequest, RequestOptions.DEFAULT);

    } catch (IOException e) {

        e.printStackTrace();

    }

    int page = 0 ;

    File outFile = new File("E://cater_nid.csv");//写出的CSV文件

    try {

        BufferedWriter writer = new BufferedWriter(new FileWriter(outFile));

        SearchHit[] searchHits = searchResponse.getHits().getHits();

        page++;

        System.out.println("-----第"+ page +"页-----");

        for (SearchHit searchHit : searchHits) {

            //System.out.println(searchHit.getSourceAsString());

            String sourceAsString = searchHit.getSourceAsString();

            NID t = JSON.parseObject(sourceAsString, NID.class);

            writer.write(t.getNid());

            writer.newLine();

        }

        //遍历搜索命中的数据，直到没有数据

        String scrollId = searchResponse.getScrollId();

        while (searchHits != null && searchHits.length > 0) {

            SearchScrollRequest scrollRequest = new SearchScrollRequest(scrollId);

            scrollRequest.scroll(scroll);

            try {

                searchResponse = client.scroll(scrollRequest, RequestOptions.DEFAULT);

            } catch (IOException e) {

                e.printStackTrace();

            }

            scrollId = searchResponse.getScrollId();

            searchHits = searchResponse.getHits().getHits();

            if (searchHits != null && searchHits.length > 0) {

                page++;

                System.out.println("-----第"+ page +"页-----");

                for (SearchHit searchHit : searchHits) {

                    //System.out.println(searchHit.getSourceAsString());

                    String sourceAsString = searchHit.getSourceAsString();

                    NID t = JSON.parseObject(sourceAsString, NID.class);

                    writer.write(t.getNid());

                    writer.newLine();

                }

            }

        }

        //清除滚屏

        ClearScrollRequest clearScrollRequest = new ClearScrollRequest();

        clearScrollRequest.addScrollId(scrollId);//也可以选择setScrollIds()将多个scrollId一起使用

        ClearScrollResponse clearScrollResponse = null;

        try {

            clearScrollResponse = client.clearScroll(clearScrollRequest, RequestOptions.DEFAULT);

        } catch (IOException e) {

            e.printStackTrace();

        }

        boolean succeeded = clearScrollResponse.isSucceeded();

        System.out.println("succeeded:" + succeeded);

        writer.close();

    } catch (IOException e) {

        e.printStackTrace();

    }

}

代码参考：https://www.cnblogs.com/chentop/p/10296517.html

RestHighLevelClient 之 Scroll的更多相关文章

elasticsearch RestHighLevelClient 使用方法及封装工具
目录 EsClientRHL 更新日志开发原因: 使用前你应该具有哪些技能工具功能范围介绍工具源码结构介绍开始使用未来规划 git地址:https://gitee.com/zxporz/ES ...
ElasticSearch High Level REST API【3】Scroll 滚屏
ES中提供了 FROM/SIZE 分页,但这种分页有性能瓶颈. Scroll会以间隔时间滚屏的方式返回全部的查询数据,可以作为数据量很大的情况下,分页的一个替代方案完整的示例如下: public v ...
Spring与RestHighLevelClient
Elasticsearch连接方式有两种:分别为TCP协议与HTTP协议最近使用es比较多,之前使用一直是使用spring封装的spring-data-elasticsearch:关于spring- ...
【前端性能】高性能滚动 scroll 及页面渲染优化
最近在研究页面渲染及web动画的性能问题,以及拜读<CSS SECRET>(CSS揭秘)这本大作. 本文主要想谈谈页面优化之滚动优化. 主要内容包括了为何需要优化滚动事件,滚动与页面渲染的 ...
MUI开发APP，scroll组件，运用到区域滚动
最近在开发APP的过程中,遇到一个问题,就是内容有一个固定的头部和底部. 头部就是我们常用的header了,底部的话,就放置一个button,用来提交页面数据或者进入下一个页面等,效果 ...
完美解决，浏览器下拉显示网址问题 | 完美解决，使用原生 scroll 写下拉刷新
在 web 开发过程中我们经常遇到,不想让用户下拉看到我的地址,也有时候在 div 中没有惯性滚动,就此也出了 iScroll 这种关于滚动条的框架,但是就为了一个体验去使用一个框架好像又不值得,今天 ...
offset、client、scroll开头的属性归纳总结
HTML元素有几个offset.client.scroll开头的属性,总是让人摸不着头脑.在书中看到记下来,分享给需要的小伙伴.主要是以下几个属性: 第一组:offsetWidth,offsetHei ...
mui scroll和上拉加载/下拉刷新
mui中 scroll和上拉加载/下拉刷新同时存在会出现两个滚动条把/* */ /* //mui页面鼠标拖动代码: mui('.mui-scroll-wrapper').scroll({ dec ...
JavaScript学习笔记5 之计时器 & scroll、offset、client系列属性 & 图片无缝滚动
一.计时器 setInterval ( 函数/名称 , 毫秒数 )表示每经过一定的毫秒后,执行一次相应的函数(重复) setTimeout ( 函数/名称 , 毫秒数 ) 表示经过一定的毫秒后,只执行 ...

随机推荐

用CSS实现定位DIV绝对位于网页底部
网上有一些解决方案,但会出现当改变窗口高度时,底部和正文重叠的BUG.尽管没有多少人会有事没事儿的去改变窗口高度,但设计嘛,追求的就是尽善尽美. 下面是我找到的一个比较完美的方法,来自国外的设计达人, ...
25、自动装配-@Profile根据环境注册bean
25.自动装配-@Profile根据环境注册bean 指定组件在哪个环境的情况下才能被注册到容器中加了环境标识的,只有这个环境被激活才能注册到组件中默认是default环境写在类上,整个配置类的 ...
C语言学习系列（二）面向过程和面向对象
一.基本定义 (一).面向过程(procedure oriented programming POP) 面向过程是分析解决问题的步骤,然后用函数把这些步骤一步一步的实现,然后在使用的时候一一调用则可. ...
将vim打造成python开发工具
1.创建vim插件工作目录 [root@ray ~]# mkdir -p ~/.vim/bundle 2.下载插件 [root@ray ~]# cd ~/.vim/bundle [root@ray b ...
springmvc集成webService需要的jar包
【poj2709】Painter--贪心
Painter Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 5621 Accepted: 3228 Descripti ...
const char*p,char const*p,char *const p
转自 http://blog.csdn.net/todd911/article/details/7911995 const char*, char const*, char*const的区别问题几乎是 ...
Redis集群都有哪些模式
前言: 一,为什么要使用redis 1,解决应用服务器的cpu和内存压力 2,减少io的读操作,减轻io的压力 3,关系型数据库扩展性不强,难以改变表的结构二,优点 1,nosql数据库没有关联关系 ...
iOS开发 Error: CGImageProviderCreate: invalid image provider size
一般可拉伸的图片(俗称点9图片)会放到images.xcassets目录里,然后对图片进行Slicing,但是当对一张图片进行slicing的left和right都是0的话,在iOS7.0上运行会出现 ...
安装APK时报错：Failure [INSTALL_FAILED_TEST_ONLY: installPackageLI]
安装APK时报错:Failure [INSTALL_FAILED_TEST_ONLY: installPackageLI] 可以使用adb install -t 解决对于已经在手机的文件可以使用pm ...

RestHighLevelClient 之 Scroll

第一种，修改 max_result_window

第二种，Scroll

RestHighLevelClient 之 Scroll的更多相关文章

随机推荐

热门专题