elasticsearch查询之三种fetch id方式性能测试

一、使用场景介绍

elasticsearch除了普通的全文检索之外，在很多的业务场景中都有使用，各个业务模块根据自己业务特色设置查询条件，通过elasticsearch执行并返回所有命中的记录的id；如果命中的记录数达到数万级别的话，查询性能会有明显的下降，尤其是命中超大型的document的时候；

获取记录的id目前可以使用的有三种方式；

通过_source:["id"]

设置_source:false,通过es返回的元数据_id分离出device的id；

使用store=true来单独的存储device id，查询的时候使用stored_fields= ['id']；

二、store映射参数

默认情况下，字段值会被索引以使其可搜索，但不会存储它们。这意味着可以查询该字段，但不能检索原始字段值。

通常这并不重要。该字段值已经是_source字段的一部分，该字段是默认存储的。如果您只想检索单个字段或几个字段的值，而不是整个_source，那么可以通过_source过滤来实现。

在某些情况下，存储字段是有意义的。例如，如果你有一个文档，一个标题，一个日期，和一个非常大的内容字段，你可能想只检索标题和日期，而不必从一个大的_source字段提取这些字段:

设置对应字段的store参数为true，并创建mapping；

PUT my_store_test

{

  "mappings": {

    "_doc": {

      "properties": {

        "title": {

          "type": "text",

          "store": true

        },

        "date": {

          "type": "date",

          "store": true

        },

        "content": {

          "type": "text"

        }

      }

    }

  }

}

{

  "acknowledged" : true,

  "shards_acknowledged" : true,

  "index" : "my_store_test"

}

put一个document进行索引

PUT my_store_test/_doc/1

{

  "title":   "Some short title",

  "date":    "2015-01-01",

  "content": "A very long content field..."

}

{

  "_index" : "my_store_test",

  "_type" : "_doc",

  "_id" : "1",

  "_version" : 1,

  "result" : "created",

  "_shards" : {

    "total" : 2,

    "successful" : 1,

    "failed" : 0

  },

  "_seq_no" : 0,

  "_primary_term" : 1

}

通过在查询语句中设置stored_fields来筛选要返回的字段，elasticsearch返回的fields字段包含对应的字段值；

GET my_store_test/_search

{

  "stored_fields": [ "title", "date" ]

}

{

  "took" : 2,

  "timed_out" : false,

  "_shards" : {

    "total" : 5,

    "successful" : 5,

    "skipped" : 0,

    "failed" : 0

  },

  "hits" : {

    "total" : 1,

    "max_score" : 1.0,

    "hits" : [

      {

        "_index" : "my_store_test",

        "_type" : "_doc",

        "_id" : "1",

        "_score" : 1.0,

        "fields" : {

          "date" : [

            "2015-01-01T00:00:00.000Z"

          ],

          "title" : [

            "Some short title"

          ]

        }

      }

    ]

  }

}

三、测试情况

我们测试使用my_store_index，里边包含50W的document，还有一些特别大的document；

我们fetch_ids_query进行测试

默认情况下通过elasticsearch查询返回的_source字段获取记录的id字段；

通过take_from__id控制从elasticsearch查询返回的元数据_id解析出记录id；

通过task_stored_fields控制从elasticsearch查询返回的fields获取记录的id；

from elasticsearch import Elasticsearch

from elasticsearch_dsl import Search, Q

import time

def fetch_ids_query(client, take_from__id = False, task_stored_fields = False):

    start = time.time()

    s = Search(using=client, index="my_store_index")

    s = s.params(http_auth=["test", "test"], request_timeout=50);

    q = Q('bool',

          must_not=[Q('match_phrase_prefix', name='us')]

          )

    s = s.query(q)

    s = s.source(False) if take_from__id else s.source(['id'])

    if task_stored_fields:

        s = s.extra(stored_fields= ['id'])

        s = s.source(False)

    s = s[0:40000]

    response = s.execute()

    print(f'hit total {response.hits.total}')

    print(f'fetch total {len(response.hits.hits)}')

    ids = []

    if take_from__id:

        for hit in response.hits.hits:

            id = hit['_id'][37:]

            ids.append(id)

    elif task_stored_fields:

        for hit in response.hits.hits:

            id = hit.fields['id'][0]

            ids.append(id)

    else:

        for hit in response.hits.hits:

            id = hit._source['id']

            ids.append(id)

    end = time.time()

    print(f"all execute time {end - start}s")

client = Elasticsearch(hosts=['http://127.0.0.1:9200'], http_auth=["test", "test"])

print('fetch id from source')

fetch_ids_query(client);

print()

print('fetch id from _id and set source = false')

fetch_ids_query(client, True);

print()

print('fetch id from stored id and set source = false')

fetch_ids_query(client, False, True);

四、测试结果

经测试在命中484970，fetch 40000条记录的前提下，后两种方式的执行时间更短，但是通过元数据解析_id会更加友好，不仅节省存储空间，而且查询的时候避免了内存和CPU的震荡；

fetch id from source

hit total 484970

fetch total 40000

all execute time 28.691869497299194s

fetch id from _id and set source = false

hit total 484970

fetch total 40000

all execute time 11.315539121627808s

fetch id from stored id and set source = false

hit total 484970

fetch total 40000

all execute time 13.930094957351685s

elasticsearch查询之三种fetch id方式性能测试的更多相关文章

05.Python网络爬虫之三种数据解析方式
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
Python爬虫之三种数据解析方式
一.引入二.回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需 ...
05，Python网络爬虫之三种数据解析方式
回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据 ...
《Python网络爬虫之三种数据解析方式》
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
Katalon Studio入门学习之三种获取元素方式
Katalon Studio中元素属性定位有三种方式,分别是XPath.Attributes(元素).CSS(样式),KS的界面展示如右图打开网站,按F12或进入浏览器设置->更多工具-> ...
Python网络爬虫之三种数据解析方式 (xpath, 正则, bs4)
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
Python网络爬虫之三种数据解析方式
1. 正则解析正则例题 import re # string1 = """<div>静夜思 # 窗前明月光 # 疑是地上霜 # 举头望明月 # 低头思故乡 ...
【原】iOS学习之三种拨打电话方式的比较
拨打电话小编从网上找到三种,在这里做一些总结和比较 1.基本使用 NSString *str = [[NSMutableString alloc] initWithFormat:@"tel: ...
一种更高查询性能的列存储方式MaxMinT 第一部分
简介本文描述了一种列存储方式和对应的查询方法,这种存储方式具有更好的查询性能和更小的存储空间. And查询本文先用直观的图形方式展示and查询时的方式,这也是算法要解决的问题核心.通常在OLAP数据 ...

随机推荐

第10组 Beta冲刺 (2/5)（组长）
1.1基本情况 ·队名:今晚不睡觉 ·组长博客:https://www.cnblogs.com/cpandbb/p/14015412.html ·作业博客:https://edu.cnblogs.co ...
【基因组学】maker的安装和注释
本文默认读者有一定的生信基础,没有基础的可以阅读以前的笔记内容. maker作为比较受人认可的基因组注释软件,其流程较为清晰简单. 不知何故,我的conda无法安装maker,故而采用手动安装方式. ...
Kubernetes API作为权威接口，Kubernetes将成为软件的通用控制平面
1创新之处在于API这是有关 Kubernetes的两部分系列中的第一篇.第一部分是一个答案:影响Kubernetes设计的关键思想是什么?Kubernetes会将它与其他平台区分开来吗?第二部分是关 ...
ADO.NET数据访问基础与综合应用2020年10月31日20:17:09学习笔记
四.创建数据表 1.数据表的名称. 2.表中的字段名.数据类型.是否可以为空.字段的约束.必备的字段(通常会有一个ID,表示实体的唯一性:可以直接手写,也可以使用种子标识自动生成,给定起始值,给定增长 ...
Python科学计算类库
Numpy是什么 Numpy是一个开源的Python科学计算库.使用Numpy,就可以很自然地使用数组和矩阵.Numpy包含很多实用的数学函数,涵盖线性代数运算.傅里叶变换和随机数生成等功能. 矩阵: ...
HUAWEI网络设备恢复Console口密码
密码遗忘本章介绍了Console口丢失的处理方法,建议用户妥善保管密码,并定期修改. 恢复Console口密码设备提供如下方法恢复Console口密码.•方法一:通过STelnet/Telnet登 ...
winform创建桌面快捷方式
//引用IWshRuntimeLibrary COM组件-Windows Script Host Object Model /// <summary> /// 创建快捷方式的类 /// & ...
elasticsearch算法之词项相似度算法(一)
一.词项相似度 elasticsearch支持拼写纠错,其建议词的获取就需要进行词项相似度的计算:今天我们来通过不同的距离算法来学习一下词项相似度算法: 二.数据准备计算词项相似度,就需要首先将词项 ...
IoC容器-Bean管理注解方式（创建对象）
IoC操作Bean管理(基于注解方式) 1,什么是注解 (1)注解是代码特殊标记,格式:@注解名称(属性名称=属性值,属性名称=属性值...) (2)使用注解,注解作用在类上面,方法上面,属性上面 ( ...
集合框架-HashSet集合(无序唯一)
1 package cn.itcast.p4.hashset.demo; 2 3 import java.util.HashSet; 4 import java.util.Iterator; 5 /* ...

elasticsearch查询之三种fetch id方式性能测试

elasticsearch查询之三种fetch id方式性能测试的更多相关文章

随机推荐

热门专题