search（10）- elastic4s-multi_match：多字段全文搜索

在全文搜索中我们常常会在多个字段中匹配同一个查询条件或者在不同的字段中匹配不同的条件。比如下面这个例子：

GET /books/_search

{

  "query": {

    "bool": {

      "should": [

        { "match": { "title":  "和平战争" }},

        { "match": { "author": "托斯泰"   }}

      ]

    }

  }

}

我们可以用boolQuery来进行查询语句的组合。全文搜索会产生匹配度评分。boolQuery采取的评分策略是：符合条件的语句越多，评分就越高。如果查询结果按评分倒排序的话，那么排在最前面的就是最有可能的结果了。boolQuery可以包含boolQuery，如下：

GET /books/_search

{

  "query": {

    "bool": {

      "should": [

        { "match": { "title":  "和平战争" }},

        { "match": { "author": "托斯泰"   }}，

        "bool" : {

          "should" : [

            {"match" : { "translator" : "陈"}},

            {"match" : { "translator" : "王"}}

            ]

        }

      ]

    }

  }

}

增加条件的意思是：如果翻译者姓陈或姓王，那么评分就高点。不过把boolQuery嵌入另一个boolQuery会影响外部boolQuery的评分结果。因为嵌入的boolQuery只占总评分的三分之一。当然可以通过boost来平衡比重，如下：

GET /books/_search

{

  "query": {

    "bool": {

      "should": [

        { "match":

          {

            "title":  {

              "query": "和平战争",

              "boost":

            }

          }

        },

        { "match": { "author": "托斯泰"   }}，

        "bool" : {

          "should" : [

            {"match" : { "translator" : "陈"}},

            {"match" : { "translator" : "王"}}

            ]

        }

      ]

    }

  }

}

从上面的例子里可以看到：boolQuery是典型的多字段多条件匹配查询，用户必须明确分辨那些条件在那些字段里匹配。但人们习惯于一句话里表达多个字段的条件。或者他们根本不想分辨任何字段，期望一句话就得到想要的结果。这个时候boolQuery就不太适合使用了。

首先，我们可以尝试在多个字段中匹配同样一个综合语句如：和平战争托斯泰。这时我们可能面临3种选择：

1、best-fields：同样一个条件在不同的字段里匹配产生多个评分，整体查询只取最优评分

2、most-fields: 这个方法有点复杂，需要在建索引时把一个字段按分词方式分成多个字段，查询时取满足条件最多字段的评分

3、cross-fields：把所有涉及的字段合成一个大字段，然后用条件来匹配这个组合而成的字段。这个方法应该最适合我们的要求

我们先分析一下具体场景：一个人想在网站上找一本书，应该会从书名、作者、出版社这几个方面提供查询条件（虽然是在一个输入框输入条件），也就是说用户提供的一个查询条件里可能包含了书名、作者、出版社这几方面的信息。那么第一个版本的搜索请求如下：

GET /books/_search

{

   "query": {

     "multi_match": {

       "query": "和平与战争 托斯泰 人民出版社",

       "type": "cross_fields",

       "fields": ["title","author","publisher"]

     }

   }

}

按理来讲书名的比重应该高于作者，出版社，所以应该为title加比重：

GET /books/_search

{

   "query": {

     "multi_match": {

       "query": "和平与战争 托斯泰 人民出版社",

       "type": "cross_fields",

       "fields": ["title^2","author","publisher"]

     }

   }

}

为了更精确的筛选，词句terms应该采取and进行关联：

GET /books/_search

{

   "query": {

     "multi_match": {

       "query": "和平与战争 托斯泰 人民出版社",

       "type": "cross_fields",

       "fields": ["title","author","publisher"],

       "operator": "and"

     }

   }

}

得出的结果集会大大缩短。用户可以取消一些条件来增加结果范围。做的再仔细点我们还可以在图书的内容上面做点功夫：

GET /books/_search

{

   "query": {

     "multi_match": {

       "query": "和平与战争 托斯泰 人民出版社",

       "type": "cross_fields",

       "fields": ["title^3","author^2","publisher^2","toc","intro"],

       "operator": "and"

     }

   }

}

增加了目录toc, 内容简介intro。不过它们的比重是最低的。

elastic4示例如下：

 val qMultiMatch = search("books").query(

    multiMatchQuery("和平与战争 托斯泰 人民出版社")

      .matchType("cross_fields")

      .operator("and")

      .fields(

        "title^3",

        "author^2",

        "publisher^2",

        "toc",

        "intro"

      )

  ).sourceInclude("ISBN","title","publisher","price","author")

search（10）- elastic4s-multi_match：多字段全文搜索的更多相关文章

lucene全文搜索之三：生成索引字段，创建索引文档（给索引字段加权）基于lucene5.5.3
前言:上一章中我们已经实现了索引器的创建,但是我们没有索引文档,本章将会讲解如何生成字段.创建索引文档,给字段加权以及保存文档到索引器目录 luncene5.5.3集合jar包下载地址:http:// ...
可以执行全文搜索的原因 Elasticsearch full-text search Kibana RESTful API with JSON over HTTP elasticsearch_action es 模糊查询
https://www.elastic.co/guide/en/elasticsearch/guide/current/getting-started.html Elasticsearch is a ...
eclipse安装quick text search插件，全文搜索
主要有两种方法 1.InstaSearch 同样可以做到workspace下的全文搜索可以使用eclipse marktplace中搜索instaSearch,与普通软件安装类似安装成功后的界面如 ...
SQLSERVER全文搜索
SQLSERVER全文搜索看这篇文章之前请先看一下下面我摘抄的全文搜索的MSDN资料,基本上MSDN上关于全文搜索的资料的我都copy下来了并且非常认真地阅读和试验了一次,并且补充了一些SQL语句 ...
OSChina 的全文搜索设计说明 —— 索引过程
http://www.oschina.net/question/12_71591 言: OSChina 的搜索做得并不好,很久之前一直想在细节方面进行改造,一直也没什么好的思路.但作为整体的结构或许对 ...
记一次企业级爬虫系统升级改造（五）：基于JieBaNet+Lucene.Net实现全文搜索
实现效果: 上一篇文章有附全文搜索结果的设计图,下面截一张开发完成上线后的实图: 基本风格是模仿的百度搜索结果,绿色的分页略显小清新. 目前已采集并创建索引的文章约3W多篇,索引文件不算太大,查询速度 ...
php+中文分词scws+sphinx+mysql打造千万级数据全文搜索
转载自:http://blog.csdn.net/nuli888/article/details/51892776 Sphinx是由俄罗斯人Andrew Aksyonoff开发的一个全文检索引擎.意图 ...
使用ElasticSearch服务从MySQL同步数据实现搜索即时提示与全文搜索功能
最近用了几天时间为公司项目集成了全文搜索引擎,项目初步目标是用于搜索框的即时提示.数据需要从MySQL中同步过来,因为数据不小,因此需要考虑初次同步后进行持续的增量同步.这里用到的开源服务就是Elas ...
C# 全文搜索Lucene
全文出自:https://blog.csdn.net/huangwenhua5000/article/details/9341751 1 lucene简介1.1 什么是luceneLucene是一个全 ...

随机推荐

012-C语言小游戏之推箱子
012-C语言小游戏之推箱子一.创建游戏地图 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 #define ROWS 11 #define COLS 12 char ...
AJ学IOS 之CoreLocation指南针小应用
AJ分享,必须精品一:效果图示简单的用到CoreLocation获取方位做的指南针小应用二:制作思路具体用到了CoreLocation相关的知识,请看上一篇博客有写然后获取方向不需要进行授权 ...
【从零单排HBase 03】深入HBase读写
在了解HBase架构的基础上,我们需要进一步学习HBase的读写过程,一方面是了解各个组件在整个读写过程中充当的角色,另一方面只有了解HBase的真实请求过程,才能为后续的正确使用打下初步基础,毕竟, ...
处理时间的类 —— System类、Date类、SimpleDateFormat类与 Calendar类
在我们以往的编程中,就有过通过运行前和运行后时间差来判断时间复杂度的例子,再扯得远一点,我们在C语言中制造随机数的操作,也要用到有关时间的函数.而且,在我们未来的编程中,也会时不时要用到能够读取当前时 ...
10.添加script标签，判断onload是否完成
class Tools { static loadScript(url, callback) { let old_script = document.getElementById(url); if ( ...
ios快捷指令编程尝试
最近,,,啊好几个月了,发现这个ios的快捷指令很好玩原生就提供了不少功能用来练习编程思维是十分有用啊...) 其次呢,还可以使用外接的功能对原有的功能进行拓展,比如api借口啊,ssh执行程序啊 ...
vue+element-ui中引入阿里播放器
1.在public文件下的index.html文件中插入以下代码: <link rel="stylesheet" href="https://g.alicdn.co ...
SSH proxycommand 不在同一局域网的机器ssh直连
本地和192.168.1.10不在同一个网络,可以通过jumpserver跳转过去,操作如下选项 -L 本机端口 -f 后台启用,可以在本机直接执行命令,无需另开新终端 -N 不打开远程shell, ...
Win7+Linux双系统，完美解决删除Linux后出现的任何问题！
首先,进入到Win7,安装MiniTool Partition Wizard Home Edition删除掉Linux分区, 点Yes 然后选中这里选中这个,重写MBR,开机神马grub神马问题都没 ...
SpringBoot【新手学习记录篇】
1. 启动方式: 在idea中的application.java右键run as 命令行进入项目目录,使用命令 mvn spring-boot:run 使用mvn install进行打包,然后进入ta ...

search（10）- elastic4s-multi_match：多字段全文搜索

search（10）- elastic4s-multi_match：多字段全文搜索的更多相关文章

随机推荐

热门专题