多值字段(Multivalue Fields)

在多值字段上使用短语匹配会产生古怪的行为:

PUT /my_index/groups/1
{
"names": [ "John Abraham", "Lincoln Smith"]
}

执行一个针对Abraham Lincoln的短语查询:

GET /my_index/groups/_search
{
"query": {
"match_phrase": {
"names": "Abraham Lincoln"
}
}
}

令人诧异的是,以上的这份文档匹配了查询。

即使Abraham以及Lincoln分属于name数组的两个人名中。

发生这个现象的原因在于数组在ES中的索引方式。

当John Abraham被解析时。它产生例如以下信息:

  • 位置1:john
  • 位置2:abraham

然后当Lincoln Smith被解析时。它产生了:

  • 位置3:lincoln
  • 位置4:smith

换言之,ES对以上数组分析产生的词条列表和解析单一字符串John Abraham Lincoln Smith时产生的结果是一样的。在我们的查询中。我们查询邻接的abraham和lincoln,而这两个词条在索引中确实存在而且邻接,因此查询匹配了。

幸运的是,有一个简单的方法来避免这样的情况。通过position_offset_gap參数,它在字段映射中进行配置:

DELETE /my_index/groups/ 

PUT /my_index/_mapping/groups
{
"properties": {
"names": {
"type": "string",
"position_offset_gap": 100
}
}
}

position_offset_gap设置告诉ES须要为数组中的每一个新元素设置一个偏差值。因此,当我们再索引以上的人名数组时,会产生例如以下的结果:

  • 位置1:john
  • 位置2:abraham
  • 位置103:lincoln
  • 位置104:smith

如今我们的短语匹配就无法匹配该文档了。由于abraham和lincoln之间的距离为100。你必需要加入一个值为100的slop的值才干匹配。

越近越好(Closer is better)

短语查询(Phrase Query)仅仅是简单地将不含有精确查询短语的文档排除在外,而邻近查询(Proximity Query) - 一个slop值大于0的短语查询 - 会将查询词条的邻近度也考虑到终于的相关度_score中。

通过设置一个像50或100这种高slop值,你能够排除那些单词过远的文档。可是也给予了那些单词邻近的文档一个更高的分值。

以下针对quick dog的邻近查询匹配了含有quick和dog的两份文档,可是给与了quick和dog更加邻近的文档一个更高的分值:

POST /my_index/my_type/_search
{
"query": {
"match_phrase": {
"title": {
"query": "quick dog",
"slop": 50
}
}
}
}
{
"hits": [
{
"_id": "3",
"_score": 0.75,
"_source": {
"title": "The quick brown fox jumps over the quick dog"
}
},
{
"_id": "2",
"_score": 0.28347334,
"_source": {
"title": "The quick brown fox jumps over the lazy dog"
}
}
]
}

使用邻近度来提高相关度

虽然邻近度查询(Proximity Query)管用,可是全部的词条都必须出如今文档的这一要求显的过于严格了。这个问题和我们在全文搜索(Full-Text
Search)
一章的精度控制(Controlling
Precision)
一节中讨论过的类似:假设7个词条中有6个匹配了,那么该文档或许对于用户而言已经足够相关了,可是match_phrase查询会将它排除在外。

相比将邻近度匹配作为一个绝对的要求。我们能够将它当做一个信号(Signal) - 作为众多潜在匹配中的一员,会对每份文档的终于分值作出贡献(參考多数字段(Most
Fields)
)。

我们须要将多个查询的分值累加这一事实表示我们应该使用bool查询将它们合并。

我们能够使用一个简单的match查询作为一个must子句。该查询用于决定哪些文档须要被包括到结果集中。能够通过minimum_should_match參数来去除长尾(Long tail)。

然后我们以should子句的形式加入很多其它特定查询。每一个匹配了should子句的文档都会添加其相关度。

GET /my_index/my_type/_search
{
"query": {
"bool": {
"must": {
"match": {
"title": {
"query": "quick brown fox",
"minimum_should_match": "30%"
}
}
},
"should": {
"match_phrase": {
"title": {
"query": "quick brown fox",
"slop": 50
}
}
}
}
}
}

毫无疑问我们能够向should子句中加入其他的查询,每一个查询都用来添加特定类型的相关度。

[Elasticsearch] 邻近匹配 (二) - 多值字段,邻近程度与相关度的更多相关文章

  1. [Elasticsearch] 邻近匹配 (一) - 短语匹配以及slop參数

    本文翻译自Elasticsearch官方指南的Proximity Matching一章. 邻近匹配(Proximity Matching) 使用了TF/IDF的标准全文搜索将文档,或者至少文档中的每一 ...

  2. ElasticSearch实战系列二: ElasticSearch的DSL语句使用教程---图文详解

    前言 在上一篇中介绍了ElasticSearch集群和kinaba的安装教程,本篇文章就来讲解下 ElasticSearch的DSL语句使用. ElasticSearch DSL 介绍 Elastic ...

  3. Elasticsearch: 权威指南 » 深入搜索 » 多字段搜索 » 多数字段 good

      跨字段实体搜索  » 多数字段编辑 全文搜索被称作是 召回率(Recall) 与 精确率(Precision) 的战场: 召回率 ——返回所有的相关文档:精确率 ——不返回无关文档.目的是在结果的 ...

  4. solr 通过【配置、多值字段、动态字段】来解决文本表达式查询精确到句子的问题

    一.Solr Multivalue field属性positionIncrementGap理解 分类:Lucene 2014-01-22 10:39阅读(3596)评论(0) 参考:http://ro ...

  5. Elasticsearch入门教程(二):Elasticsearch核心概念

    原文:Elasticsearch入门教程(二):Elasticsearch核心概念 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:ht ...

  6. Elasticsearch入门(二)

    基础概念 Elasticsearch有几个核心概念,从一开始理解这些概念会对整个学习过程有莫大的帮助. 接近实时(NRT) Elasticsearch是一个接近实时的搜索平台.这意味着,从索引一个文档 ...

  7. Elasticsearch: 权威指南 » 深入搜索 » 多字段搜索 » 多数字段 good

      跨字段实体搜索  » 多数字段编辑 全文搜索被称作是 召回率(Recall) 与 精确率(Precision) 的战场: 召回率 --返回所有的相关文档:精确率 --不返回无关文档.目的是在结果的 ...

  8. Elasticsearch学习笔记二

    PS:上一篇已经介绍了ES的一些基础概念以及单机版ES的安装,配置,本文主要介绍ES的集群管理,CRUD以及简单聚合查询. 集群管理 ES的集群部署起来也很方便,将单机版SCP复制几分,修改elast ...

  9. C#,如何程序使用正则表达式如何使用匹配的位置的结果修改匹配到的值

    程序代码使用正则表达式如何修改匹配到的值: 代码一: using System; using System.Text.RegularExpressions; public class Example ...

随机推荐

  1. linux数据库备份脚本

    数据库备份1.创建个备份存储目录mkdir /root/backup/2.以下内容写到dbbackup.sh(注意,使用VIM 或者VI命令新建文件,不要在WINDOWS下新建,否则可能提示 No s ...

  2. thinkphp碰到的一些小问题

    1. 生成的html自动被去掉换行和空格,压缩挤到一起了. 解决: 开启debug即可,在入口文件增加 define("APP_DEBUG",true); 2. 添加mysql的 ...

  3. (原创)遗传算法C++实现

    本文没有对遗传算法的原理做过多的解释 基础知识可以参考下面的博客:http://blog.csdn.net/u010451580/article/details/51178225 本实验用到的变异用到 ...

  4. windows服务启动有界面的程序

    大家写windows服务守护进程的时候,肯定会遇到启动的程序看不到界面,只能在任务管理器里面看到xxx.exe问题. 发现可能有如下情况 a.无论是开机,还是程序被关掉后,守护服务启动的程序只能看到任 ...

  5. 一:MySQL数据库的性能的影响分析及其优化

    MySQL数据库的性能的影响分析及其优化 MySQL数据库的性能的影响 一. 服务器的硬件的限制 二. 服务器所使用的操作系统 三. 服务器的所配置的参数设置不同 四. 数据库存储引擎的选择 五. 数 ...

  6. c#DES加密解密代码

    //加密  public string DesEncrypt(string strText, string strEncrKey)   {    byte[] byKey=null;    byte[ ...

  7. 主机和VMware中的Linux如实现共享文件夹

    当我在网上查了几小时的挂载文件夹方法后发现,VMware中的Linux的挂载和双系统的挂载不同 最终目的就是在/mnt目录下有个hgfs的文件夹 效果图: 首先打开VMware中的Linux系统 具体 ...

  8. 新的开始,hello world!

    开始使用博客一年多来,在各位大神的博客上找了很多学习需要的资料,受益匪浅.一直来自己也想过开始写自己的博客,但是一直没有开始.一来是懒,懒的整理,懒的打字排版,二来是那段时间加入实验室,自我感觉一直有 ...

  9. PHP设计模式之组合模式

    当我们的一个对象可能代表一个单一的实体,或者一个组合的实体,但是仍然需要通过同样的方式被使用时,这种情形则适合使用组合模式的设计. 组合模式是一种结构型模式. 当看了书上的解释之后,并不是很理解,遂去 ...

  10. 深入理解js中的apply、call、bind

    概述 js中的apply,call都是为了改变某个函数运行时的上下文环境而存在的,即改变函数内部的this指向. apply() apply 方法传入两个参数:一个是作为函数上下文的对象,另外一个是作 ...