Elasticsearch - 理解字段分析过程(_analyze与_explain)
我们经常会遇到问题。为什么指定的文档没有被搜索到。许多情况下, 这都归因于映射的定义和分析例程配置存在问题。
针对分析过程的调试,ElasticSearch提供了专用的REST API。
_analyze, _explain是Elasticsearch提供的辅助API。经常不为人所知和所用。
_explain 用来帮助分析文档的relevance score是怎样计算出来的,而_analyze是Elasticsearch一个很实用的API,它能够帮助你分析每个field或者某个analyzer/tokenizer是怎样分析和索引一段文字。
一、_analyze
比如, 以下样例用test索引默认analyzer来分析 "xi fei jian"
GET /test/_analyze?
text="xi fei jian"
运行结果:
{
"tokens": [
{
"token": "xi",
"start_offset": 1,
"end_offset": 3,
"type": "<ALPHANUM>",
"position": 1
},
{
"token": "fei",
"start_offset": 4,
"end_offset": 7,
"type": "<ALPHANUM>",
"position": 2
},
{
"token": "jian",
"start_offset": 8,
"end_offset": 12,
"type": "<ALPHANUM>",
"position": 3
}
]
}
当然。你也能够用指定的analyzer来分析。比如:GET /test/_analyze?analyzer=whitespace&text=xi fei jian。这里的analyzer能够是系统默认分析器,也能够是自己定义分析器。
此外, 你还能够使用指定field的analyzer来分析。比如:GET/test/_analyze?field=typename.fieldname&text=xi fei jian
还有还有一种能够设置分词器(tokenizer)和过滤器的分析API,在我们试图创建目标映射之前进行配置时就会很方便。
比如:
curl -XGET ‘localhost:9200/addressbook/_analyze?tokenizer=whitespace&filters=lowcase,engram&pretty' -d 'John Smith'
能够看到,在跟踪映射配置中的BUG时,分析API是比較实用的。它能够告诉我们分析器怎样工作、会产生哪些词项,以及这些词项的属性。有了这些信息,分析、解决查询问题时会更easy追查原因。
二、_explain
以上是对查询和分析过程进行说明,对于解释查询部分(好像和mysql挺像的哇~~),我们能够使用_explain向ElasticSearch询问庆于该文档是怎样匹配(或者没有匹配上)的解释信息。比如,该文档是否能在给定的查询中被检索到?假设找到了,ElasticSearch将返回分值计算的具体悠 ,以解释为什么该文档会匹配成功。
GET /us/tweet/12/_explain?pretty&q=honeymoon,能够得到例如以下结果:
"_explanation": {
"description": "weight(tweet:honeymoon in 0)
[PerFieldSimilarity], result of:",
"value": 0.076713204,
"details": [
{
"description": "fieldWeight in 0, product of:",
"value": 0.076713204,
"details": [
{
"description": "tf(freq=1.0), with freq of:",
"value": 1,
"details": [
{
"description": "termFreq=1.0",
"value": 1
}
]
},
{
"description": "idf(docFreq=1, maxDocs=1)",
"value": 0.30685282
},
{
"description": "fieldNorm(doc=0)",
"value": 0.25,
}
]
}
]
}
看起来有点复杂。这里最重要的内容就是对文档计算得到的总分,假设总分等于0。则该文档将不能匹配给定的查询。还有一个重要内容是关于不同打分项的描写叙述信息。
根据查询类型的不同,打分项会以不同方式对最后得分产生影响。
从上面termFreq=1表明检索的词项在该字段下仅仅出现了一次。maxDocs=1,说明根据指定的检索词项仅仅找到了一个文档。
官方文档:https://www.elastic.co/guide/en/elasticsearch/guide/2.x/relevance-intro.html#explain-api
Elasticsearch - 理解字段分析过程(_analyze与_explain)的更多相关文章
- elasticsearch源码分析之search模块(client端)
elasticsearch源码分析之search模块(client端) 注意,我这里所说的都是通过rest api来做的搜索,所以对于接收到请求的节点,我姑且将之称之为client端,其主要的功能我们 ...
- fluentd结合kibana、elasticsearch实时搜索分析hadoop集群日志<转>
转自 http://blog.csdn.net/jiedushi/article/details/12003171 Fluentd是一个开源收集事件和日志系统,它目前提供150+扩展插件让你存储大数据 ...
- 一个DOS攻击木马的详细分析过程
一个DOS攻击木马的详细分析过程 0×01 起因 网路流量里发现了大量的的1.exe的文件,而且一直在持续,第一感觉就像是一个木马程序,而且每个1.exe的MD5都不一样,对比发现只有几个字节不一样( ...
- SVM问题再理解与分析——我的角度
SVM问题再理解与分析--我的角度 欢迎关注我的博客:http://www.cnblogs.com/xujianqing/ 支持向量机问题 问题先按照几何间隔最大化的原则引出他的问题为 上面的约束条件 ...
- 转 理解与分析ios应用的崩溃报告
理解与分析ios应用的崩溃报告 源网址: http://developer.apple.com/library/ios/#technotes/tn2151/_index.html 当一个应用程序崩溃时 ...
- elasticsearch源码分析之search模块(server端)
elasticsearch源码分析之search模块(server端) 继续接着上一篇的来说啊,当client端将search的请求发送到某一个node之后,剩下的事情就是server端来处理了,具体 ...
- 深入理解Linux启动过程
深入理解Linux启动过程 本文详细分析了Linux桌面操作系统的启动过程,涉及到BIOS系统.LILO 和GRUB引导装载程序,以及bootsect.setup.vmlinux等映像文件 ...
- 【HANA系列】SAP HANA数据处理的理解与分析一
公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[HANA系列]SAP HANA数据处理的理解与 ...
- django之数据模型类的字段分析
一:表一的字段分析 class Sheep_Area(models.Model):# models.AutoField()自增列,要显示自定义的自增列,必须定义primary=True# area_i ...
随机推荐
- rTorrent + ruTorrent 安装和配置
原文地址:http://wangyan.org/blog/rtorrent-and-rutorrent-tutorial.html rTorrent 是一款非常简洁优秀的BT客户端,它完全基于文本并可 ...
- C#编程(小结)---------- 小总结
总结 概括 委托是寻址方法的.NET版本,类似于C++中的指针.委托可以理解为指向函数的指针,它是类型安全的,定义了具体的参数和返回值. 定义一个委托,实际上是定义一个类,委托是对方法的引用,如方法F ...
- java 反射原理写了一个赋值和取值通用类
首先了解一下反射的原理,什么是反射?所谓的反射就是指java 语言在运行时拥有一项自观的能力,反射能使你得到装载到 jvm 中的类的内部信息,它不需要你在编码的时候就知道所需类的内部信息,允许程序执行 ...
- 哥谭第四季/全集Gotham迅雷下载
<哥谭>(Gotham)第三季刚刚结束,第四季首集的集名就公布了.<Pax Penguina>这个集名在拉丁语中意味着「Pax Romana」,也就是「罗马式的和平」(Roma ...
- C#里,如何模拟DataGridView里的一个Cell的Click事件。
//假设dgv是一个DataGridView. //我要点击第3行的第二个cell. //当然,要有一个点击事件.假设dgv_CellClick是那个点击事件. dgv_CellClick(dgv, ...
- [转]RSYNC 参数中文详解
FROM : http://www.qiansw.com/rsync-cn.html rsync是一款好用的*nux文件同步工具.下面是其参数的中文解释. Rsync 参数选项说明 -v, --ver ...
- NOI2015滚粗记
我的第一次也是最后一次NOI 好像写的晚了许多……可能一谈到退役总会有些伤感,并不愿去面对…… 一路走来已有5年,虽然我总在说“其实我好好学的时间只有半年”,但那也不过是给自己是蒟蒻找的借口吧...一 ...
- Linux Command : top
top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程所占用的系统资源,类似于Windows的任务管理器.下面详细介绍它的使用方法.top是一个动态显示过程,即可以通过用户按键来不断刷 ...
- 【VC++积累】之八、PreTranslageMessage;TranslageMessage;GetMessage和PeekMessage的区别
先来看windows消息机制: 首先系统(也就是windows)把来自硬件(鼠标,键盘等消息)和来自应用程序的消息 放到一个系统消息队列中去. 而应用程序需要有自己的消息队列,也就是线程消息队列,每一 ...
- 网关局域网通信协议V2.0
http://docs.opencloud.aqara.cn/development/gateway-LAN-communication/ https://github.com/aqara/openc ...