Elasticsearch学习之深入搜索四 --- cross-fields搜索

1. cross-fields搜索

　　一个唯一标识，跨了多个field。比如一个人，标识，是姓名；一个建筑，它的标识是地址。姓名可以散落在多个field中，比如first_name和last_name中，地址可以散落在country，province，city中。跨多个field搜索一个标识，比如搜索一个人名，或者一个地址，就是cross-fields搜索。初步来说，如果要实现，可能用most_fields比较合适。因为best_fields是优先搜索单个field最匹配的结果，cross-fields本身就不是一个field的问题了。

增添字段：

POST /forum/article/_bulk

{ "update": { "_id": ""} }

{ "doc" : {"author_first_name" : "Peter", "author_last_name" : "Smith"} }

{ "update": { "_id": ""} }

{ "doc" : {"author_first_name" : "Smith", "author_last_name" : "Williams"} }

{ "update": { "_id": ""} }

{ "doc" : {"author_first_name" : "Jack", "author_last_name" : "Ma"} }

{ "update": { "_id": ""} }

{ "doc" : {"author_first_name" : "Robbin", "author_last_name" : "Li"} }

{ "update": { "_id": ""} }

{ "doc" : {"author_first_name" : "Tonny", "author_last_name" : "Peter Smith"} }

查询first_name和last_name中包含Peter Smith的doc

GET /forum/article/_search

{

  "query": {

    "multi_match": {

      "query":       "Peter Smith",

      "type":        "most_fields",

      "fields":      [ "author_first_name", "author_last_name" ]

    }

  }

}

Peter Smith，匹配author_first_name，匹配到了Smith，这时候它的分数很高，为什么?
　　因为IDF分数高，IDF分数要高，那么这个匹配到的term（Smith），在所有doc中的出现频率要低，author_first_name field中，Smith就出现过1次
Peter Smith这个人，在doc 1，Smith在author_last_name中，但是 author_last_name 出现了两次 Smith，所以导致doc 1的IDF分数较低，这里就存在以下三个问题：

问题1：只是找到尽可能多的field匹配的doc，而不是某个field完全匹配的doc

　　解决，最匹配的document被最先返回

问题2：most_fields，没办法用minimum_should_match去掉长尾数据，就是匹配的特别少的结果

　　解决，可以使用minimum_should_match去掉长尾数据

问题3：TF/IDF算法，比如Peter Smith和Smith Williams，搜索Peter Smith的时候，由于first_name中很少有Smith的，所以query在所有document中的频率很低，得到的分数很高，可能Smith Williams反而会排在Peter Smith前面

　　解决，Smith和Peter在一个field了，所以在所有document中出现的次数是均匀的，不会有极端的偏差，计算IDF的时候，将每个query在每个field中的IDF都取出来，取最小值，就不会出现极端情况下的极大值了

第一个办法：用copy_to，将多个field组合成一个field

　　问题其实就出在有多个field，有多个field以后，就很尴尬，我们只要想办法将一个标识跨在多个field的情况，合并成一个field即可。比如说，一个人名，本来是first_name，last_name，现在合并成一个full_name

PUT /forum/_mapping/article

{

  "properties": {

      "new_author_first_name": {

          "type":     "string",

          "copy_to":  "new_author_full_name"

      },

      "new_author_last_name": {

          "type":     "string",

          "copy_to":  "new_author_full_name"

      },

      "new_author_full_name": {

          "type":     "string"

      }

  }

}

用了这个copy_to语法之后，就可以将多个字段的值拷贝到一个字段中，并建立倒排索引

POST /forum/article/_bulk

{ "update": { "_id": ""} }

{ "doc" : {"new_author_first_name" : "Peter", "new_author_last_name" : "Smith"} }        --> Peter Smith

{ "update": { "_id": ""} }

{ "doc" : {"new_author_first_name" : "Smith", "new_author_last_name" : "Williams"} }        --> Smith Williams

{ "update": { "_id": ""} }

{ "doc" : {"new_author_first_name" : "Jack", "new_author_last_name" : "Ma"} }            --> Jack Ma

{ "update": { "_id": ""} }

{ "doc" : {"new_author_first_name" : "Robbin", "new_author_last_name" : "Li"} }            --> Robbin Li

{ "update": { "_id": ""} }

{ "doc" : {"new_author_first_name" : "Tonny", "new_author_last_name" : "Peter Smith"} }        --> Tonny Peter Smith

然后查询：

GET /forum/article/_search

{

  "query": {

    "match": {

      "new_author_full_name":       "Peter Smith"

    }

  }

}

Elasticsearch学习之深入搜索四 --- cross-fields搜索的更多相关文章

Elasticsearch学习笔记（十四）relevance score相关性评分的计算(1)
一.多shard场景下relevance score不准确问题 1.问题描述: 多个shard下,如果每个shard包含指定搜索条件的document数量不均匀的情况下, ...
Elasticsearch学习之深入搜索三 --- best fields策略
1. 为帖子数据增加content字段 POST /forum/article/_bulk { "} } { "doc" : {"content" : ...
ElasticSearch 学习记录之ES高亮搜索
高亮搜索 ES 通过在查询的时候可以在查询之后的字段数据加上html 标签字段,使文档在在web 界面上显示的时候是由颜色或者字体格式的 GET /product/_search { "si ...
【Elasticsearch学习】文档搜索全过程
在ES执行分布式搜索时,分布式搜索操作需要分散到所有相关分片,若一个索引有3个主分片,每个主分片有一个副本分片,那么搜索请求会在这6个分片中随机选择3个分片,这3个分片有可能是主分片也可能是副本分片, ...
Elasticsearch学习之深入搜索二 --- 搜索底层原理剖析
1. 普通match如何转换为term+should { "match": { "title": "java elasticsearch"} ...
Elasticsearch学习之深入搜索一 --- 提高查询的精准度
1. 为帖子增加标题字段 POST /forum/article/_bulk { "} } { "doc" : {"title" : "th ...
【linux学习笔记四】文件搜索命令
一文件搜索 locate //在后台数据库中按文件名搜索搜索速度更快 locate 文件名 //locate命令所搜索的后台数据库 /var/lib/mlocate //更新数据库 updated ...
Elasticsearch是一个分布式可扩展的实时搜索和分析引擎,elasticsearch安装配置及中文分词
http://fuxiaopang.gitbooks.io/learnelasticsearch/content/ (中文) 在Elasticsearch中,文档术语一种类型(type),各种各样的 ...
ElasticSearch 学习记录之如任何设计可扩容的索引结构
扩容设计扩容的单元一个分片即一个 Lucene 索引 ,一个 Elasticsearch 索引即一系列分片的集合一个分片即为扩容的单元 . 一个最小的索引拥有一个分片. 一个只有一个分片的索引 ...
Elasticsearch 学习（一）：入门
一.概念 Elasticsearch 是一个实时分布式搜索和分析引擎.它用于全文搜索.结构化搜索.分析以及将这三者混合使用. 维基百科.英国卫报.StackOverflow.Github 等公司都在使 ...

随机推荐

centos：解决docker容器内挂载目录无权限 ls: cannot open directory .: Permission denied
docker运行一个容器后,将主机中当前目录下的文件夹挂载到容器的文件夹后进入到docker容器内对应的挂载目录中,运行命令ls后提示: ls: cannot open directory .: P ...
unity3d 资源打包加密整理
资源打包脚本,放到Assets\Editor 文件夹下 using UnityEngine; using System.Collections; using UnityEditor; using Sy ...
MyEclipse连接CVS，如果中间经过一层代理，就没法直接联接到CVS了，哪位知道怎么办？
GetDlgItem的用法小结
GetDlgItem用于获得指定控件ID的窗体指针,函数原型如下: HWND GetDlgItem( HWND hDlg, int nIDDlgItem ); CWnd* GetDlgItem(int ...
Linq 查询某个字段为null的数据
如tb_flag 数据结构如下:flag int null 不能使用:flag==null 生成的SQL语句为 where flag=null 建议使用:可空类型用Nullable<T&g ...
CCProxy序列号及注册码
CCProxy无限用户版序列号:JHEHIHCDDAHC 注册码:15f7f78febfaee55afeafefff7cb7fdfb3
Qt OpenGL裁剪测试
剪裁测试(Scissor Test)用于限制绘制区域. 我们可以指定一个矩形的剪裁窗口,当启用剪裁测试后,只有在这个窗口之内的像素才能被绘制,其它像素则会被丢弃. 换句话说,无论怎么绘制,剪裁窗口以外 ...
mysql 连接字符串 CONCAT
以前用SQL Server 连接字符串是用“+”,现在数据库用mysql,写个累加两个字段值SQL语句居然不支持"+",郁闷了半天在网上查下,才知道mysql里的+是数字相加的操作 ...
2018-10-29 A股主要指数的市盈率(PE)估值高度
全指材料(SH000987) - 2018-10-29日,当前值:11.9289,平均值:30.66,中位数:26.1407,当前接近历史新低.全指材料(SH000987)的历史市盈率PE详情全指 ...
NHibernate 集合映射深入 (第五篇) <set>,<list>,<map>,<bag>
一.集合外键在NHibernate中,典型的用于映射集合类的元素有<set>,<list>,<map>,<bag>,<array>,< ...

Elasticsearch学习之深入搜索四 --- cross-fields搜索

Elasticsearch学习之深入搜索四 --- cross-fields搜索的更多相关文章

随机推荐

热门专题