ES搜索结果调优

WeJan1 2024-10-10 22:54:25 原文

访问我的博客

自从使用 ElasticSearch 重构了主站的搜索项目之后，之后又陆续接入了其他两个项目，目前使用 SpringBoot 方式跑了一个伪集群，主站使用的时候，比较稳定，没有人反馈说有问题。

但新接入的一个站点商务反馈说，搜索不够准确，完全匹配的关键词不是排在搜索结果列表首位，跑到搜索上去看了一眼，确实完全匹配的结果分数不是最高的，导致没有排在结果首位，今天就来解决这个问题。

默认匹配查询

先看看我之前写的查询代码片段，

MultiMatchQueryBuilder matchQuery = QueryBuilders.multiMatchQuery(query.getQueryString(), "name", "author");

boolQuery.must(matchQuery);

这种写法，完全没有对搜索结果的平分进行干扰，只是按照 ES 的默认分词计算匹配度的结果。

权重查询

我尝试了使用权重查询，即提升某些字段的权重，但是设置之后，结果反而更加不尽如人意。

boolQuery.should(QueryBuilders.matchQuery("name", queryString).boost(3.0f));

boolQuery.should(QueryBuilders.matchQuery("author", queryString).boost(1.f));

这样进行查询之后，如果想要查询作者，但是作品名称的权重更高些，所以完全匹配的作者也被排在了后面。

最佳字段查询

看了官方博客和一篇博客文章，发现 multi-match-query 的高级查询方式。

multi_match 多匹配查询的类型有多种，其中的三种恰巧与了解我们的数据中介绍的三个场景对应，即： best_fields 、 most_fields 和 cross_fields （最佳字段、多数字段、跨字段）。

这里我们想要搜索时，完全匹配的关键字排名更靠前，所以这里使用最佳字段 best_fields 进行查询

MultiMatchQueryBuilder multiMatchQuery = QueryBuilders

                    .multiMatchQuery(queryString, "name", "author")

                    .type(MultiMatchQueryBuilder.Type.BEST_FIELDS)

                    .tieBreaker(0.1f);

boolQuery.must(multiMatchQuery);

首先设置 type 为 BEST_FIELDS，其次，我们想要完全匹配的分数高点，那么就让没有完全匹配的分文档评分低即可，我这里乘以了 0.1 的系数，系数的范围是 0-1 之间。

加上了系数之后，不完全匹配的文档评分就被拉开了，就达到了我的最终目的。

资源下载

https://github.com/Mosiki/SpringDataElasticSearchQuickStartExample

参考

https://www.cnblogs.com/yjf512/p/4897294.html

ES搜索结果调优的更多相关文章

ES 基础理论配置调优
一.简介 ElasticSearch是一个基于Lucene的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口.Elasticsearch是用Java开发的,并作为 ...
一次看完28个关于ES的性能调优技巧，很赞，值得收藏！
因为总是看到很多同学在说Elasticsearch性能不够好.集群不够稳定,询问关于Elasticsearch的调优,但是每次都是一个个点的单独讲,很多时候都是case by case的解答,本文简单 ...
【Spark】Spark-性能调优-系列文章
Spark-性能调优-系列文章 Spark Master at spark://node-01:7077 scala java8_百度搜索 (1 封私信)如何评价Linkedin决定逐渐减少Scala ...
[数据库]漫谈ElasticSearch关于ES性能调优几件必须知道的事(转)
ElasticSearch是现在技术前沿的大数据引擎,常见的组合有ES+Logstash+Kibana作为一套成熟的日志系统,其中Logstash是ETL工具,Kibana是数据分析展示平台.ES让人 ...
漫谈ElasticSearch关于ES性能调优几件必须知道的事
lasticSearch是现在技术前沿的大数据引擎,常见的组合有ES+Logstash+Kibana作为一套成熟的日志系统,其中Logstash是ETL工具,Kibana是数据分析展示平台.ES让人惊 ...
ES调优
ES Connection timed out,调优方向 1. 使用游标滚动查询 scrollId 游标id searchResponse.getScrollId() scroll 设置游标的保留时间 ...
Elasticsearch搜索调优
最近把搜索后端从AWS cloudsearch迁到了AWS ES和自建ES集群.测试发现search latency高于之前的benchmark,可见模拟数据远不如真实数据来的实在.这次在产线的bac ...
[Elasticsearch] 多字段搜索 (二) - 最佳字段查询及其调优
最佳字段(Best Fields) 假设我们有一个让用户搜索博客文章的网站,就像这两份文档一样: PUT /my_index/my_type/1 { "title": " ...
[Elasticsearch] 多字段搜索 (二) - 最佳字段查询及其调优（转）
最佳字段(Best Fields) 假设我们有一个让用户搜索博客文章的网站,就像这两份文档一样: PUT /my_index/my_type/1 { "title": " ...

随机推荐

input checkbox复选框取值
<table>  <tr class="ui-widget ui-state-hover" style="he ...
C语言的转义字符
原文地址:http://blog.163.com/sunshine_linting/blog/static/44893323201181325818165/ 在字符集中,有一类字符具有这样的特性:当从 ...
rest_framework登录组件,权限组件
昨日回顾: -HyperlinkedIdentityField(用来生成url),传三个参数 -实例化序列化类的时候,BookSerializer(ret, many=True, context={' ...
pip3 install的时候报错timed out
问题: 执行pip install requests报错 Read timed out. 解决方法: 修改超时时间: pip --default-timeout=1000 install -U r ...
基于UML的时空建模
一.基本信息标题:基于UML的时空建模时间:2018 出版源:东北大学学报(自然科学版) 领域分类:UML模型:RCC-8空间拓扑:Allen-13时态拓扑:时空数据:建模二.研究背景问题定义 ...
iText框架（生成pdf文档）
1.创建一个itext的简单示例 a.导包(pom.xml文件) <dependencies> <dependency> <groupId>com.lowagie& ...
洛谷P1725--琪露诺(单调队列)
https://www.luogu.org/problemnew/show/P1725 关于滑动窗口的解释https://www.cnblogs.com/albert67/p/10449039.htm ...
jdango
1.jdango的下载命令行: pip install django ==1.11.18 pip install django ==1.11.18 -i https://pypi.douban.co ...
idea 2017破解的三种方式
1.该方法最为简便,但是该方法只可以在联网时使用,打开idea主页,找到最后面的Help,打开,找到register-license server, 在输入http://idea.iteblog.co ...
在CentOS 7上安装和使用GlusterFS
GlusterFS aggregates various storage servers over Ethernet or Infiniband RDMA interconnect into one ...