Elasticsearch实现类似 like '?%' 搜索

在做搜索的时候，下拉联想词的搜索肯定是最常见的一个场景，用户在输入的时候，要自动补全词干，说得简单点，就是以...开头搜索，如果是数据库，一句SQL就很容易实现，但在elasticsearch如何实现呢？

大家可能会立马想到用elasticsearch自带的suggest功能，确实，在一些初级应用场景，特别是数据量比较少的情况下，suggest可以快速简易的解决问题。

在数据量比较大的时候，性能有待提高，而且遇到复杂场景，suggest就会显得力不从心，看下面一个需求：

1、下拉结果需要根据城市过滤

2、下拉结果需要根据拼音搜索、首字母搜索、中文拼音混合搜索等

如果使用suggest，是不是无从下手？

下面我介绍另外二种实现的方式，这二种试更加灵活，以上二个问题皆可解决，由于篇幅，我将在其他章节具体讲解拼音+混合搜索。

一、基于正则表达式搜索

要点：索引的时候，使用"keyword"作为tokenizer，把整个文本当作一个term。

curl -XPUT localhost:9200/search_words_index -d '{

   "settings" : {

      "refresh_interval" : "5s",

      "number_of_shards" : 1,

      "number_of_replicas" : 1,

      "analysis" : {

	"analyzer": {

                "myAnalyzer": {

                    "type": "custom",

                    "tokenizer": "keyword",

                    "filter": ["lowercase"]

                }

            }

       }

    },

    "mappings": {

        "search_words_type": {

            "properties": {

                "words": {

                     "type": "string",

                     "index": "analyzed",

					  "indexAnalyzer" : "myAnalyzer"

					}

                }

            }

        }

    }

}'

搜索的时候，可使用queryStringQuery或者wildcardQuery实现正则表达式查询，啰嗦一句，queryStringQuery与wildcardQuery的区别是，wildcardQuery是一种低级查询，不会进行analyzer的，而queryStringQuery则会，更具体区别的可参考官网资料。

下面以queryStringQuery方式为例进行说明，关键代码：

String reg=/key.*/;

QueryBuilders.queryStringQuery(reg).field("words").analyzer("myAnalyzer"));

这种方式的优点是简单，索引空间占用也不大，效率也还可以，但我更推荐下面的一种式，性能会更佳。

二、基于edge-ngram分词法

这种方式是典型的以空间换时间的做法，唯一的缺点是会加大索引开销，索引数据的时间也会加长，但这种开销都是在索引阶段，并不会影响查询阶段，只要有足够的磁盘和内存空间，效率还是很不错的。

要点：索引阶段使用edge-ngram分词，按金字塔式的分割成独立的term。如下：

中华人民共和国

中华人民共和

中华人民共

中华人民

中华人

中华

中

索引如下：

curl -XPUT localhost:9200/search_words_index -d '{

   "settings" : {

      "refresh_interval" : "5s",

      "number_of_shards" : 1,

      "number_of_replicas" : 1,

      "analysis" : {            
           "filter": { 
               "edge_ngram_filter": { 
                    "type": "edge_ngram",
                    "min_gram": 1,
                    "max_gram": 30
           },

"analyzer": {

                "myAnalyzer": {

                    "type": "custom",

                    "tokenizer": "keyword",

                    "filter": ["edge_ngram_filter","lowercase"]

                }

            }

       }

    },

    "mappings": {

        "search_words_type": {

            "properties": {

                "words": {

                     "type": "string",

                     "index": "analyzed",

                      "indexAnalyzer" : "myAnalyzer"

                    }

                }

            }

        }

    }

}'

搜索的时候，直接使用term查询，如果比较复杂的情况下，如要按拼音、中文繁体转换等，则使用matchQuery，先对关键字进行一次分析。

QueryBuilders.termQuery("words", key);//低级查询，速度快

或者

QueryBuilders.matchQuery("words", key).analyzer("xxx");//可指定分词器来分析关键字

这种搜索结果保证一定是以..开头，因为在索引阶段就已经把term限定了。

注意：以上java代码示例都是基于spring-data-elasticsearch框架。

Elasticsearch实现类似 like '?%' 搜索的更多相关文章

转：在ElasticSearch之下（图解搜索的故事）
ElasticSearch 2 (9) - 在ElasticSearch之下(图解搜索的故事) 摘要先自上而下,后自底向上的介绍ElasticSearch的底层工作原理,试图回答以下问题: 为什么我 ...
Elasticsearch java api 基本搜索部分详解
文档是结合几个博客整理出来的,内容大部分为转载内容.在使用过程中,对一些疑问点进行了整理与解析. Elasticsearch java api 基本搜索部分详解 ElasticSearch 常用的查询 ...
ElasticSearch 2 (9) - 在ElasticSearch之下（图解搜索的故事）
ElasticSearch 2 (9) - 在ElasticSearch之下(图解搜索的故事) 摘要先自上而下,后自底向上的介绍ElasticSearch的底层工作原理,试图回答以下问题: 为什么我 ...
ElasticSearch 2 (18) - 深入搜索系列之控制相关度
ElasticSearch 2 (18) - 深入搜索系列之控制相关度摘要处理结构化数据(比如:时间.数字.字符串.枚举)的数据库只需要检查一个文档(或行,在关系数据库)是否与查询匹配. 布尔是/ ...
ElasticSearch 2 (17) - 深入搜索系列之部分匹配
ElasticSearch 2 (17) - 深入搜索系列之部分匹配摘要到目前为止,我们介绍的所有查询都是基于完整术语的,为了匹配,最小的单元为单个术语,我们只能查找反向索引中存在的术语. 但是, ...
ElasticSearch 2 (16) - 深入搜索系列之近似度匹配
ElasticSearch 2 (16) - 深入搜索系列之近似度匹配摘要标准的全文搜索使用TF/IDF处理文档.文档里的每个字段或一袋子词.match 查询可以告诉我们哪个袋子里面包含我们搜索的 ...
ElasticSearch 2 (15) - 深入搜索系列之多字段搜索
ElasticSearch 2 (15) - 深入搜索系列之多字段搜索摘要查询很少是简单的一句话匹配(one-clause match)查询.很多时候,我们需要用相同或不同的字符串查询1个或多个字 ...
ElasticSearch 2 (13) - 深入搜索系列之结构化搜索
ElasticSearch 2 (13) - 深入搜索系列之结构化搜索摘要结构化查询指的是查询那些具有内在结构的数据,比如日期.时间.数字都是结构化的.它们都有精确的格式,我们可以对这些数据进行逻 ...
Ajax以及类似百度搜索框的demo
public class Ajax01 extends HttpServlet{ @Override protected void service(HttpServletRequest request ...

随机推荐

ASP从HTML标签中提取中文
Function delHtml(strHtml) '做了一个函数名叫delhtml Dim objRegExp, strOutput Set objRegExp = New Regexp ' 建立正 ...
Struts2学习笔记④
刚才看书发现了一个问题,就是ActionSupport和Action接口的区别没搞清楚,弄得我以为我之前的代码写错了.其实ActionSupport已经实现了Action接口了,实际开发中也很少使用A ...
xml与json的原理,区别,优缺点.
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ,用于标记电子文件使其具有结构性的标记语言,可以用来标记数据.定义数据类型,是一种允许 ...
BootStrap入门教程 (三)
本文转自 http://www.cnblogs.com/ventlam/archive/2012/06/05/2524966.html 上讲回顾:Bootstrap的基础CSS(Base CSS)提供 ...
车大棒浅谈jQuery源码（一）
背景因为最近辞职找工作,投了许多家公司.结果简历要么石沉大海,一点音讯都没有,要么就是邮件回复说不匹配.后面加了一些QQ群,才发现原来我工作经验年限太少了.现在深圳都是3经验起步,北京据说更加恐怖. ...
当git上文件大小写重命名的修改时（git大小写敏感/默认不敏感），如何提交
git默认是大小写不敏感!!! 加了感叹号是什么意思呢,意思就是这本身就是一个坑,本人使用的IDE是idea(网上说Eclipse可以避开问题),这个IDE本身就集成了git,但是如果要在termin ...
初学canvas，遇到width和height显示问题和用excanvas.js兼容IE问题
/*-----------------------ITEYE 祈祷幸福博客原创,转载请注明.-------------------*/ 第一次认真写技术博客文~~~若有不严谨的地方,望指正. 今天是第 ...
ios微信自动播放音乐
<!DOCTYPE html> <html> <head lang="en"> <meta charset="UTF-8 ...
css基本布局
一.一列布局关键代码: { width:960; margin:0 auto: } 代码: 运行结果: 分析:以上代码实现一列布局,头部占整个浏览器 ...
centos5.11架设svn（svn系列架设服务器知识一总结）
♣svn是什么? ♣安装 --yum安装 --创建svn版本库目录 --创建版本库 --进入conf目录进行配置(该svn版本库配置文件) --启动svn版本库 - ...

Elasticsearch实现类似 like '?%' 搜索

Elasticsearch实现类似 like '?%' 搜索的更多相关文章

随机推荐

热门专题