在考虑性能的情况下,允许用户的拼写错误,以及构建一个自动完成功能

可用的建议器类型

  • term:更正每个传入的单词,在非短语查询中有用,比如单词条查询
  • phrase:工作的短语上,返回一个恰当的短语
  • completion:提供高效的自动完成功能

包含建议器

在查询的结果中获得建议。例如,使用match_all查询尝试为serlock holnes短语得到一个建议,该短语包含两个拼写错误的词条。

{
"query":{
"match_all":{ }
},
"suggest":{
"first_suggestion":{
"text":"serlock honles",
"term":{
"field":"_all"
}
}
}
}

如果想要从多个字段上得到建议,可以加入second_suggestion(或者其他名字),当然与first_suggestion同一级别。响应如下:

{
"suggest":{
"first_suggestion":[
{
"text":"serlock",
"offset":0,
"length":7,
"option":[
{
"text":"sherlock",
"score":0.7866684,
"freq":1
}
]
},
{
"text":"honles",
"offset":8,
"length":6,
"option":[
{
"text":"holmes",
"score":0.7866684,
"freq":1
}
]
}
]
}
}

这里只保留了最重要的部分,前面还有其他的输出信息。

term建议器为text参数中的每个词条返回一个可能的建议列表。offset是原始单词在text参数中的偏移量。

options数组包含了给定单词的建议,如果elasticsearch没有找到任何建议,它将为空。

  • text:该属性定义了建议的文本
  • score:定义了建议的得分,得分越高,建议越好
  • freq:建议的频率,代表了在我们执行查询的索引上,该单词出现在文档中的次数

term建议器

term建议器基于字符串的编辑距离

term建议器的配置选项

term建议器的常见配置项还可以用在基于term建议器的所有建议器上,如phrase建议器

  • text(必须):定义了希望得到建议的文本
  • field(必须):为哪个字段生成建议
  • analyzer:用于分析text参数提供的文本,如果不提供就使用field字段的分析器
  • size:默认是5,指定text参数中每天词条可以返回的建议的最大数字
  • sort:返回建议的排序方式,默认此选项设置成score,将首先按照得分排,然后按文档频率,最后按词条排。第二个可能值frequency,先按文档频率,然后按分数,最后按词条

额外建议器选项

  • lowcase_terms:true时,把从text字段生成的所有经分析的词条变成小写
  • max_edits:默认2,指定词条允许的最大编辑距离,可选的值有1或2
  • prefix_len:默认1,增加这个值可以提高整体性能,因为需要处理更少数量的建议
  • min_word_len:默认4,指定返回的建议列表中词条的最少字符数
  • shard_size:默认是size参数的值,设定每个分片上应该读取的最大建议数量。如果设置的值比size参数的值大,会得到更准确的文档频率,但性能会降低

phrase建议器

term建议器基于词条纠正错误,但对短语不够好。phrase建议器基于term建议器,但添加了额外的短语计算逻辑。

{
"suggest":{
"text":"sherlock holnes",
"our_suggestion":{
"phrase":{
"field":"_all"
}
}
}
}

返回结果

{
"suggest":{
"our_suggestion":[
{
"text":"sherlock holnes",
"offset":0,
"length":15,
"option":[
{
"text":"sherlock holmes",
"score":0.7866684
}
]
}
]
}
}

与term返回相比,返回的是一个短语。

phrase建议器相比term建议器增加的额外选项。

  • max_errors:指定可纠正的短语中包含错误词条的最大数目、或最大百分比。可以设置成整型值或者0到1之间的浮点数。默认是1,意味着给点短语中最多包含1个错误拼写的词条。

completion建议器

该建议器允许创建自动完成功能,并且性能很好,这是因为可以在索引中存储复杂结构,而不是在查询时计算。

为了使用该基于前缀的建议器,需要建立索引时引入一个completion的专用字段。假设建立一个自动完成功能来显示图书的作者。除了作者的名字以外,希望返回该作者写的图书的标示符,先创建一个author索引:



使用completion类型定义ac字段,payload:随建议一起返回一个额外的选项信息。

索引数据

先插入两条数据



input属性提供了建议器用来生成自动完成功能的输入信息,它将用于匹配用户的输入,output属性定义应该为文档返回什么数据

查询索引中那个completion建议器数据

想找作者名字以fyo开头的文档,可以执行



可以看到,我们在_suggest端点执行命令,因为不想执行标准查询,只对自动完成结果感兴趣。执行结果如下:

也可使用模糊查询来容忍拼写错误,在查询中包含一个额外的fuzzy节点。

定制权重

默认情况下,词频将用来决定前缀建议器返回文档的权重,然而这有时不是最好的方案,可以通过为定义成completion的字段指定一个weight属性来定义建议的权重。weight属性是一个整型值,越大建议越重要。为一个文档指定权重,命令如下:



匹配到该文档的completion建议结果中该文档的权重都会是30。

Elasticsearch--建议器的更多相关文章

  1. elasticsearch分词器Jcseg安装手册

    Jcseg是什么? Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言 ...

  2. Elasticsearch——分词器对String的作用

    更多内容参考:Elasticsearch学习总结 关于String类型--分词与不分词 在Elasticsearch中String是最基本的数据类型,如果不是数字或者标准格式的日期等这种很明显的类型, ...

  3. Elasticsearch 分词器

    无论是内置的分析器(analyzer),还是自定义的分析器(analyzer),都由三种构件块组成的:character filters , tokenizers , token filters. 内 ...

  4. ElasticSearch分词器

    什么是分词器? 分词器,是将用户输入的一段文本,分析成符合逻辑的一种工具.到目前为止呢,分词器没有办法做到完全的符合人们的要求.和我们有关的分词器有英文的和中文的.英文的分词器过程:输入文本-关键词切 ...

  5. ElasticSearch 分词器,了解一下

    这篇文章主要来介绍下什么是 Analysis ,什么是分词器,以及 ElasticSearch 自带的分词器是怎么工作的,最后会介绍下中文分词是怎么做的. 首先来说下什么是 Analysis: 什么是 ...

  6. elasticsearch分词器ik

    1. 下载和es配套的版本 git clone https://github.com/medcl/elasticsearch-analysis-ik 2. 编译 cd elasticsearch-an ...

  7. elasticsearch系列五:搜索详解(查询建议介绍、Suggester 介绍)

    一.查询建议介绍 1. 查询建议是什么? 查询建议,为用户提供良好的使用体验.主要包括: 拼写检查: 自动建议查询词(自动补全) 拼写检查如图: 自动建议查询词(自动补全): 2. ES中查询建议的A ...

  8. elasticsearch教程--中文分词器作用和使用

    概述   本文都是基于elasticsearch安装教程 中的elasticsearch安装目录(/opt/environment/elasticsearch-6.4.0)为范例 环境准备 ·全新最小 ...

  9. ElasticSearch 集群基本概念及常用操作汇总(建议收藏)

    内容来源于本人的印象笔记,简单汇总后发布到博客上,供大家需要时参考使用. 原创声明:作者:Arnold.zhao 博客园地址:https://www.cnblogs.com/zh94 目录: Elas ...

  10. ElasticSearch 搜索模板与建议

    公号:码农充电站pro 主页:https://codeshellme.github.io Search APIs 用于搜索和聚合存储在 ES 中的数据. 1,搜索模板 Template Search ...

随机推荐

  1. Ubuntu 16.04下SecureCRT无法输入中文的解决思路

    说明:首先网上的方法基本都是不行的,别试了. 但是可以有弥补方案: 1.通过外界的软件编辑好中文,然后粘贴过去.虽然是多了一步,但是也可以输入中文. 2.关于这个问题应该是没有中文字体库导致的,可以尝 ...

  2. JSP标准标签库(JSTL)

    JSTL:JSP Standard Tag Library:JSP标准标签库 以下内容引用自http://wiki.jikexueyuan.com/project/jsp/standard-tag-l ...

  3. react 项目实战(九)登录与身份认证

    SPA的鉴权方式和传统的web应用不同:由于页面的渲染不再依赖服务端,与服务端的交互都通过接口来完成,而REASTful风格的接口提倡无状态(state less),通常不使用cookie和sessi ...

  4. javascript闭包具体解释

    今天我们从内存结构上来解说下 javascript中的闭包概念. 闭包:是指有权訪问另外一个函数作用域中的变量的函数. 创建闭包的常见方式就是在一个函数内部创建另外一个函数. 在javascript中 ...

  5. Javascript基本概念梳理

    javascript里的数据类型: 原始类型:数字,字符串.布尔值.(原始值:null,undefined) 对象类型:键值对,数组,function,全局对象(MATH,JSON) 保留字: abs ...

  6. 网站访问分析对SEO的好处

    统计剖析,应该说是每个SEO都必需要擅长的技艺.至于网站统计的剖析,根据自己的一些经验,与大家分享一下相关技巧.(发表于 2012-3-24 23:12) 申请一个统计帐号很容易,现在有很多的统计服务 ...

  7. TensorFlow的安装与CNN测试

    0.说明 在Google开源该框架之后便使用真实K40m卡测试,由于生产环境是CentOS6.6的操作系统,但是该框架需要在Python2.7环境下执行,CentOS6.6下折腾了一天没搞定,后来换成 ...

  8. Android 获取手机SIM卡运营商

    直接上代码: /** * 获取SIM卡运营商 * * @param context * @return */ public static String getOperators(Context con ...

  9. c++运算符重载以及一些基本概念

    c++primer第四版435 1.赋值( = ), 下标( [ ] ) ,调用 (  ( )  ), 成员訪问箭头 (->)等操作符必须定义为成员,定义为非成员时,编译器报错 2. 像赋值一样 ...

  10. asp.net mvc 的 视图(view )的模块化开发

    目前所在项目有一个视图,几个模块都涉及到,对应不同的开发人员,虽然有SVN在管理,但代码冲突时有发生.并且大家的代码挤于其中,逻辑比较容易混乱. 将不同部件独立出去,实有必要. 分离方式,我知道的有 ...