Elasticsearch高级搜索排序（中文+拼音+首字母+简繁转换+特殊符号过滤）

一、先摆需求：

1、中文搜索、英文搜索、中英混搜如：“南京东路”，“cafe 南京东路店”

2、全拼搜索、首字母搜索、中文+全拼、中文+首字母混搜如：“nanjingdonglu”，“njdl”，“南京donglu”，“南京dl”，“nang南东路”，“njd路”等等组合

3、简繁搜索、特殊符号过滤搜索如：“龍馬”可通过“龙马”搜索，再比如 L.G.F可以通过lgf搜索，café可能通过cafe搜索

4、排序优先级为：以关键字开头>包含关键字

二、生产效果图：

三、实现

1、索引设计

使用multi_field为搜索字段建立不同类型的索引，有全拼索引、首字母简写索引、Ngram索引以及IK索引，从各个角度分别击破，然后通过char-filter进行特殊符号与简繁转换。

curl -XPUT localhost:9200/search_words_index -d '{

   "settings" : {

      "refresh_interval" : "5s",

      "number_of_shards" : 1,

      "number_of_replicas" : 1,

      "analysis" : {

             "filter": {

                "edge_ngram_filter": {

                    "type":     "edge_ngram",

                    "min_gram": 1,

                    "max_gram": 50

                },

                "pinyin_simple_filter":{

                    "type" : "pinyin",

                    "keep_first_letter":true,

                    "keep_separate_first_letter" : false,

                    "keep_full_pinyin" : false,

                    "keep_original" : false,

                    "limit_first_letter_length" : 50,

                    "lowercase" : true

                },

                "pinyin_full_filter":{

                    "type" : "pinyin",

                    "keep_first_letter":false,

                    "keep_separate_first_letter" : false,

                    "keep_full_pinyin" : true,

                    "none_chinese_pinyin_tokenize":true,

                    "keep_original" : false,

                    "limit_first_letter_length" : 50,

                    "lowercase" : true

                },

                "t2s_convert":{

                      "type": "stconvert",

                      "delimiter": ",",

                      "convert_type": "t2s"

               }

            },

            "char_filter" : {

                "charconvert" : {

                    "type" : "mapping",

                    "mappings_path":"char_filter_text.txt"

                }

            },

            "tokenizer":{

                "ik_smart":{

                   "type":"ik",

                   "use_smart":true

                }

            },

            "analyzer": {

                "ngramIndexAnalyzer": {

                    "type": "custom",

                    "tokenizer": "keyword",

                    "filter": ["edge_ngram_filter","lowercase"],

                    "char_filter" : ["charconvert"]

                },

                "ngramSearchAnalyzer": {

                    "type": "custom",

                    "tokenizer": "keyword",

                    "filter":["lowercase"],

                    "char_filter" : ["charconvert"]

                },

                "ikIndexAnalyzer": {

                    "type": "custom",

                    "tokenizer": "ik",

                    "char_filter" : ["charconvert"]

                },

                "ikSearchAnalyzer": {

                    "type": "custom",

                    "tokenizer": "ik",

                    "char_filter" : ["charconvert"]

                },

                "pinyiSimpleIndexAnalyzer":{

                    "tokenizer" : "keyword",

                    "filter": ["pinyin_simple_filter","edge_ngram_filter","lowercase"]

                },

                "pinyiSimpleSearchAnalyzer":{

                    "tokenizer" : "keyword",

                    "filter": ["pinyin_simple_filter","lowercase"]

                },

                "pinyiFullIndexAnalyzer":{

                    "tokenizer" : "keyword",

                    "filter": ["pinyin_full_filter","lowercase"]

                },

                "pinyiFullSearchAnalyzer":{

                    "tokenizer" : "keyword",

                    "filter": ["pinyin_full_filter","lowercase"]

                }

            }

       }

    },

    "mappings": {

        "search_words_type": {

            "properties": {

                "words": {

                    "type": "multi_field",

                    "fields":{

                          "words": {

                                "type": "string",

                                "index": "analyzed",

                                "indexAnalyzer" : "ngramIndexAnalyzer"

                          },

                          "SPY": {

                                "type": "string",

                                "index": "analyzed",

                                "indexAnalyzer" : "pinyiSimpleIndexAnalyzer"

                          },

                          "FPY": {

                                "type": "string",

                                "index": "analyzed",

                                "indexAnalyzer" : "pinyiFullIndexAnalyzer"

                          },

                          "IKS": {

                                "type": "string",

                                "index": "analyzed",

                                "indexAnalyzer" : "ikIndexAnalyzer"

                          }

                    }

                }

            }

        }

    }

}'

拼音插件的使用请参考：https://github.com/medcl/elasticsearch-analysis-pinyin

2、搜索构建

以下是搜索实现代码（非完整代码，只摘录核心部分，主要是思路）：

  /**

     * 纯中文搜索

     * @return

     */

    public List<Map> chineseSearch(String key,Integer cityId) throws Exception{

        DisMaxQueryBuilder  disMaxQueryBuilder=QueryBuilders.disMaxQuery();

        //以关键字开头(优先级最高)

        MatchQueryBuilder q1=QueryBuilders.matchQuery("words",key).analyzer("ngramSearchAnalyzer").boost(5);

        //完整包含经过分析过的关键字

//         boolean  whitespace=key.contains(" ");

//         int slop=whitespace?50:5;

        QueryBuilder q2=QueryBuilders.matchQuery("words.IKS", key).analyzer("ikSearchAnalyzer").minimumShouldMatch("100%");

        disMaxQueryBuilder.add(q1);

        disMaxQueryBuilder.add(q2);

        SearchQuery searchQuery=builderQuery(cityId,disMaxQueryBuilder);

        return  elasticsearchTemplate.queryForList(searchQuery,Map.class);

    }

 /**

     * 混合搜索

     * @return

     */

    public List<Map> chineseWithEnglishOrPinyinSearch(String key,Integer cityId) throws Exception{

        DisMaxQueryBuilder  disMaxQueryBuilder=QueryBuilders.disMaxQuery();

        //是否有中文开头，有则返回中文前缀

        String startChineseString=commonSearchService.getStartChineseString(key);

        /**

         * 源值搜索，不做拼音转换

         * 权重* 1.5

         */

        QueryBuilder normSearchBuilder=QueryBuilders.matchQuery("words",key).analyzer("ngramSearchAnalyzer").boost(5f);        

        /**

         * 拼音简写搜索

         * 1、分析key，转换为简写  case:  南京东路==>njdl，南京dl==>njdl，njdl==>njdl

         * 2、搜索匹配，必须完整匹配简写词干

         * 3、如果有中文前缀，则排序优先

         * 权重*1

         */

        String analysisKey=commonSearchService.anaysisKeyAndGetMaxWords(SearchIndex.INDEX_NAME_SEARCHWORDSSTATISTICS,key,"pinyiSimpleSearchAnalyzer");

        QueryBuilder pingYinSampleQueryBuilder=QueryBuilders.termQuery("words.SPY", analysisKey);

        /**

         * 拼音简写包含匹配，如 njdl可以查出 "城市公牛 南京东路店"，虽然非南京东路开头

         * 权重*0.8

         */

        QueryBuilder  pingYinSampleContainQueryBuilder=null;

        if(analysisKey.length()>1){

            pingYinSampleContainQueryBuilder=QueryBuilders.wildcardQuery("words.SPY", "*"+analysisKey+"*").boost(0.8f);

        }

        /**

         * 拼音全拼搜索

         * 1、分析key，获取拼音词干   case :  南京东路==>[nan,jing,dong,lu]，南京donglu==>[nan,jing,dong,lu]

         * 2、搜索查询，必须匹配所有拼音词，如南京东路，则nan,jing,dong,lu四个词干必须完全匹配

         * 3、如果有中文前缀，则排序优先

         * 权重*1

         */

        QueryBuilder pingYinFullQueryBuilder=null;

        if(key.length()>1){

            pingYinFullQueryBuilder=QueryBuilders.matchPhraseQuery("words.FPY", key).analyzer("pinyiFullSearchAnalyzer");

        }

        /**

         * 完整包含关键字查询(优先级最低，只有以上四种方式查询无结果时才考虑）

         * 权重*0.8

         */

        QueryBuilder containSearchBuilder=QueryBuilders.matchQuery("words.IKS", key).analyzer("ikSearchAnalyzer").minimumShouldMatch("100%");

        disMaxQueryBuilder

        .add(normSearchBuilder)

        .add(pingYinSampleQueryBuilder)

        .add(containSearchBuilder);

        //以下两个对性能有一定的影响，故作此判定，单个字符不执行此类搜索

        if(pingYinFullQueryBuilder!=null){

            disMaxQueryBuilder.add(pingYinFullQueryBuilder);

        }

        if(pingYinSampleContainQueryBuilder!=null){

            disMaxQueryBuilder.add(pingYinSampleContainQueryBuilder);

        }        

        QueryBuilder queryBuilder=disMaxQueryBuilder;

        //关键如果有中文，则必须包含在内容中

        if(StringUtils.isNotBlank(startChineseString)){

            queryBuilder=    QueryBuilders.filteredQuery(disMaxQueryBuilder,

                    FilterBuilders.queryFilter(QueryBuilders.queryStringQuery("*"+startChineseString+"*").field("words").analyzer("ngramSearchAnalyzer")));

            queryBuilder=QueryBuilders.functionScoreQuery(queryBuilder)

            .add(FilterBuilders.queryFilter(QueryBuilders.matchQuery("words",startChineseString).analyzer("ngramSearchAnalyzer")), ScoreFunctionBuilders.weightFactorFunction(1.5f));

        }                

        SearchQuery searchQuery=builderQuery(cityId,queryBuilder);

        return  elasticsearchTemplate.queryForList(searchQuery,Map.class);

    }

注：以上JAVA示例代码皆以spring-data-elasticsearch框架为基础。

拼音插件安装：

1、下载拼音插件，官网地址：https://github.com/medcl/elasticsearch-analysis-pinyin 我下载的版本是：elasticsearch-analysis-pinyin-1.3.3。

把下载的 elasticsearch-analysis-pinyin-1.3.3.jar与nlp-lang-1.7.jar放于plugins目录下。

2、修改elasticsearch配置文件，在最后一行之下加入（里面包括IK配置，如果未安装IK可省略IK的配置）：

index:
analysis:
analyzer:
ik:
alias: [news_analyzer_ik,ik_analyzer]
type: org.elasticsearch.index.analysis.IkAnalyzerProvider
ik_max_word:
type: ik
use_smart: false
ik_smart:
type: ik
use_smart: true
pinyin:
tokenizer: pinyin_tokenizer
filter: [standard,nGram]
tokenizer:
pinyin_tokenizer:
type: pinyin
first_letter: "prefix"
padding_char: ""

3、定制特殊符号及简繁转换文本：char_filter_text.txt，由于文件有点长，以下是部分内容，参考格式即可。

à=>a
á=>a
â=>a
ä=>a
À=>a
Â=>a
Ä=>a
è=>e
é=>e
ê=>e
ë=>e
È=>e
É=>e
Ê=>e
Ë=>e
î=>i
ï=>i
Î=>i
Ï=>i
ô=>o
ö=>o
Ô=>o
Ö=>o
ù=>u
û=>u
ü=>u
Ù=>u
Û=>u
Ü=>u
ç=>c
œ=>c
&=>
^=>
.=>
·=>
-=>
'=>
’=>
‘=>
/=>
醯壶=>醯壶
屢顧爾僕=>屡顾尔仆
見=>见
往裡=>往里
置言成範=>置言成范
捲動=>卷动
規=>规
齣電視=>出电视
覎=>觃
後堂=>后堂

4、重启elasticsearch，重建索引，看是否生效。

Elasticsearch高级搜索排序（中文+拼音+首字母+简繁转换+特殊符号过滤）的更多相关文章

excel 获取中文拼音首字母
excel 获取中文拼音首字母 CreateTime--2018年5月31日08:50:42 Author:Marydon 1.情景展示想要获取姓名的拼音首字母 2.实现方式通过使用excel ...
Js中文排序（拼音首字母）
演示地址:http://lar5.sinaapp.com/ 1.index.html <html xmlns="http://www.w3.org/1999/xhtml"&g ...
JS获取中文拼音首字母，并通过拼音首字母高速查找页面内的中文内容
实现效果: 图一: 图二: watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdGVzdGNzX2Ru/font/5a6L5L2T/fontsize/400/f ...
python 获取中文拼音首字母；判断文件夹是否存在
1.如何获取中文字符串的首字母 import pinyin #输入name def get_pinyin_first_alpha(name): return "".join([i[ ...
java获取中文拼音首字母
import net.sourceforge.pinyin4j.PinyinHelper; public class PinyinHelperUtil { /** * 得到中文首字母(中国 -> ...
mysql 中文字段排序( 按拼音首字母排序) 的查询语句
在处理使用Mysql时,数据表采用utf8字符集,使用中发现中文不能直接按照拼音排序如果数据表tbl的某字段name的字符编码是latin1_swedish_ci select * from `tb ...
Oracle取得中文拼音首字母函数
CREATE ) ; V_RETURN ) ; FUNCTION F_NLSSORT (P_WORD IN VARCHAR2) RETURN VARCHAR2 AS BEGIN RETURN NLSS ...
【Solr】 solr对拼音搜索和拼音首字母搜索的支持
问:对于拼音和拼音首字母的支持,当你在搜商品的时候,如果想输入拼音和拼音首字母就给出商品的信息,怎么办呢? 实现方式有2种,但是他们其实是对应的. 用lucene实现 1.建索引, 多建一个索引字段 ...
C#&Sql获取中文字符拼音首字母的方法
C#获取字符拼音首字母,可以存储在数据库中以备将来按字母搜索的需求. public static string GetAc(string s) { try { string temp = Servic ...

随机推荐

NDK 开发（Android.mk配置）
在我写这篇文章的时候,Android Studio已经是2.3版本了,已经集成CMake 编译工具, 用户只需在新建项目的时候,添加选项(Include C++ support),Andr ...
Windows 黑屏问题
这两天使用Microsoft Visual Studio编译项目,不断黑屏闪现!回想下应该是之前设置的DOS窗口全屏的原因. 记得又一次使用MSDOS,老感觉屏幕台下,于是就设置成了全屏显示,全屏后发 ...
LeetCode 笔记总结
前言之前把一些LeetCode题目的思路写在了本子上,现在把这些全都放到博客上,以后翻阅比较方便. 题目 99.Recover Binary Search Tree 题意 Two elements ...
SPM HW1 A project
项目分析 --民航航班异常轨迹可视分析最近完成的一个项目是一个可视化大作业--民航航班异常轨迹可视分析.要求利用已给的8G飞机的飞行记录数据,将飞机的飞行轨迹在浏览器中进行飞行轨迹高维可视化以及对异 ...
tp框架之对列表的一系列操作及跳转页面（详细步骤）
依旧是在Main控制器里面写类方法,如果想看tp全部的话,可以从前几篇开始看,都是一整个步骤下来的在控制器中重新写个类然后再做个shouye.html页面 nation表的数据,将会在shou.h ...
Kali linux learning note
from:http://blog.sina.com.cn/s/blog_40983e5e0101dhz0.html 因为kali linux基于debian 7,当然要把这台Acer 4736 ...
fastlane安装流程和fastlane match同步证书和PP文件方法
分步指南安装fastlane: ① Make sure you have the latest version of the Xcode command line tools installed: ...
iOS开发之NSOperation & NSOperationQueue
1.简介 (1) NSOperationQueue(操作队列)是由GCD提供的队列模型的Cocoa抽象,是一套Objective-C的API,为了使并发(多线程)编程变得更加简单,但效率比GCD略低. ...
iOS开发之UIView的常见属性
1.所有控件都继承自UIView,UIView的常见属性如下: @property(nonatomic,readonly) UIView *superview;获得自己的父控件对象 @property ...
对Golang有兴趣的朋友，推荐一款go语言Web框架-dotweb
Go语言,2009年推出,对我个人,2015年下半年,才下定决心正式开始引入使用Go,自此,让我获得了一种全新的开发体验. 在不断的项目过程中,一个开发人员总喜欢堆积一些代码段,由于Go的开源特性,逐 ...

Elasticsearch高级搜索排序（ 中文+拼音+首字母+简繁转换+特殊符号过滤）

Elasticsearch高级搜索排序（ 中文+拼音+首字母+简繁转换+特殊符号过滤）的更多相关文章

随机推荐

热门专题

Elasticsearch高级搜索排序（中文+拼音+首字母+简繁转换+特殊符号过滤）

Elasticsearch高级搜索排序（中文+拼音+首字母+简繁转换+特殊符号过滤）的更多相关文章