我们经常会遇到问题。为什么指定的文档没有被搜索到。许多情况下, 这都归因于映射的定义和分析例程配置存在问题。

针对分析过程的调试,ElasticSearch提供了专用的REST API。

_analyze, _explain是Elasticsearch提供的辅助API。经常不为人所知和所用。

_explain 用来帮助分析文档的relevance score是怎样计算出来的,而_analyze是Elasticsearch一个很实用的API,它能够帮助你分析每个field或者某个analyzer/tokenizer是怎样分析和索引一段文字。

一、_analyze

比如, 以下样例用test索引默认analyzer来分析 "xi fei jian"

GET /test/_analyze?

text="xi fei jian"

运行结果:

{
   "tokens": [
      {
         "token": "xi",
         "start_offset": 1,
         "end_offset": 3,
         "type": "<ALPHANUM>",
         "position": 1
      },
      {
         "token": "fei",
         "start_offset": 4,
         "end_offset": 7,
         "type": "<ALPHANUM>",
         "position": 2
      },
      {
         "token": "jian",
         "start_offset": 8,
         "end_offset": 12,
         "type": "<ALPHANUM>",
         "position": 3
      }
   ]
}

当然。你也能够用指定的analyzer来分析。比如:GET /test/_analyze?analyzer=whitespace&text=xi fei jian。这里的analyzer能够是系统默认分析器,也能够是自己定义分析器。

此外, 你还能够使用指定field的analyzer来分析。比如:GET/test/_analyze?field=typename.fieldname&text=xi fei jian

还有还有一种能够设置分词器(tokenizer)和过滤器的分析API,在我们试图创建目标映射之前进行配置时就会很方便。

比如:

curl -XGET ‘localhost:9200/addressbook/_analyze?tokenizer=whitespace&filters=lowcase,engram&pretty' -d 'John Smith'

能够看到,在跟踪映射配置中的BUG时,分析API是比較实用的。它能够告诉我们分析器怎样工作、会产生哪些词项,以及这些词项的属性。有了这些信息,分析、解决查询问题时会更easy追查原因。

二、_explain

以上是对查询和分析过程进行说明,对于解释查询部分(好像和mysql挺像的哇~~),我们能够使用_explain向ElasticSearch询问庆于该文档是怎样匹配(或者没有匹配上)的解释信息。比如,该文档是否能在给定的查询中被检索到?假设找到了,ElasticSearch将返回分值计算的具体悠 ,以解释为什么该文档会匹配成功。

GET /us/tweet/12/_explain?pretty&q=honeymoon,能够得到例如以下结果:

"_explanation": { 
   "description": "weight(tweet:honeymoon in 0)
                  [PerFieldSimilarity], result of:",
   "value":       0.076713204,
   "details": [
      {
         "description": "fieldWeight in 0, product of:",
         "value":       0.076713204,
         "details": [
            {  
               "description": "tf(freq=1.0), with freq of:",
               "value":       1,
               "details": [
                  {
                     "description": "termFreq=1.0",
                     "value":       1
                  }
               ]
            },
            { 
               "description": "idf(docFreq=1, maxDocs=1)",
               "value":       0.30685282
            },
            { 
               "description": "fieldNorm(doc=0)",
               "value":        0.25,
            }
         ]
      }
   ]
}

看起来有点复杂。这里最重要的内容就是对文档计算得到的总分,假设总分等于0。则该文档将不能匹配给定的查询。还有一个重要内容是关于不同打分项的描写叙述信息。

根据查询类型的不同,打分项会以不同方式对最后得分产生影响。

从上面termFreq=1表明检索的词项在该字段下仅仅出现了一次。maxDocs=1,说明根据指定的检索词项仅仅找到了一个文档。

官方文档:https://www.elastic.co/guide/en/elasticsearch/guide/2.x/relevance-intro.html#explain-api

Elasticsearch - 理解字段分析过程(_analyze与_explain)的更多相关文章

  1. elasticsearch源码分析之search模块(client端)

    elasticsearch源码分析之search模块(client端) 注意,我这里所说的都是通过rest api来做的搜索,所以对于接收到请求的节点,我姑且将之称之为client端,其主要的功能我们 ...

  2. fluentd结合kibana、elasticsearch实时搜索分析hadoop集群日志<转>

    转自 http://blog.csdn.net/jiedushi/article/details/12003171 Fluentd是一个开源收集事件和日志系统,它目前提供150+扩展插件让你存储大数据 ...

  3. 一个DOS攻击木马的详细分析过程

    一个DOS攻击木马的详细分析过程 0×01 起因 网路流量里发现了大量的的1.exe的文件,而且一直在持续,第一感觉就像是一个木马程序,而且每个1.exe的MD5都不一样,对比发现只有几个字节不一样( ...

  4. SVM问题再理解与分析——我的角度

    SVM问题再理解与分析--我的角度 欢迎关注我的博客:http://www.cnblogs.com/xujianqing/ 支持向量机问题 问题先按照几何间隔最大化的原则引出他的问题为 上面的约束条件 ...

  5. 转 理解与分析ios应用的崩溃报告

    理解与分析ios应用的崩溃报告 源网址: http://developer.apple.com/library/ios/#technotes/tn2151/_index.html 当一个应用程序崩溃时 ...

  6. elasticsearch源码分析之search模块(server端)

    elasticsearch源码分析之search模块(server端) 继续接着上一篇的来说啊,当client端将search的请求发送到某一个node之后,剩下的事情就是server端来处理了,具体 ...

  7. 深入理解Linux启动过程

    深入理解Linux启动过程       本文详细分析了Linux桌面操作系统的启动过程,涉及到BIOS系统.LILO 和GRUB引导装载程序,以及bootsect.setup.vmlinux等映像文件 ...

  8. 【HANA系列】SAP HANA数据处理的理解与分析一

    公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[HANA系列]SAP HANA数据处理的理解与 ...

  9. django之数据模型类的字段分析

    一:表一的字段分析 class Sheep_Area(models.Model):# models.AutoField()自增列,要显示自定义的自增列,必须定义primary=True# area_i ...

随机推荐

  1. HDU 4920 Matrix multiplication(矩阵相乘)

    各种TEL,233啊.没想到是处理掉0的情况就能够过啊.一直以为会有极端数据.没想到居然是这种啊..在网上看到了一个AC的奇妙的代码,经典的矩阵乘法,仅仅只是把最内层的枚举,移到外面就过了啊...有点 ...

  2. 为Qemu aarch32添加BeautifulSoup4模块

    环境 Qemu:2.8.0 开发板:vexpress-ca9   概述 上一篇博文已经可以让我们的开发板可以成功的ping通百度了,据说Python的网络功能也很强大,而Beautiful Soup是 ...

  3. 利用npm 安装删除模块

    转自 涵一原文 利用npm 安装删除模块 1. npm安装模块 [npm install xxx]利用 npm 安装xxx模块到当前命令行所在目录:[npm install -g xxx]利用npm安 ...

  4. Android之对TabActivity的见解,个人觉得不错

    http://www.cnblogs.com/answer1991/archive/2012/05/08/2489844.html answer1991 无法停止我内心的狂热,对未来的执着. Andr ...

  5. [rrdtool]监控和自己主动绘图,简单的监控.md

    如今想要监控服务的流量和并发数,但是又没那么多时间来写系统.其它的运维系统又不熟悉,于是就用现有的rrdtool shell做了个简单的监控界面,暂时用下,也算是个小实验把. rrdtool也是刚接触 ...

  6. Gallery和自定义Adapter配合使用,实现图片预览

    Gallery是一个可以拖动的列表,正中对应的是选中的东西.他和spinner有共同的父类:AbsSpinner 属性: android:animationDuration="1000&qu ...

  7. ECC校验

    ECC的全称是 Error Checking and Correction or Error correction Coding,是一种用于差错检测和修正的算法.NAND闪存在生产和使用中都会产生坏块 ...

  8. UEFI与 Legacy BIOS两种启动模式详解

    (1). UEFI启动模式 与 legacy启动模式 legacy启动模式: 就是这么多年来PC一直在使用的启动方式(从MBR中加载启动程序),UEFI BIOS作为一种新的BIOS自然也应该兼容这种 ...

  9. JEECG 命名规范

    举例讲解代码规范 例如:表名 :jeecg_sys_demo 第一部分:代码文件命名规则如下: 首先:表名采用驼峰写法转换为Java代码使用单词  jeecg_sys_demo => Jeecg ...

  10. linux 查看机器内存方法 (free命令)

    工作中遇到了统计机器内存的问题.记录一下. free命令可以查看那机器内存. 如下图单位是M 查看man free可以知道,也可以直接从/proc/meminfo文件中读取.