[ES]elasticsearch章5　ES的分词（二）

Elasticsearch 中文搜索时遇到几个问题:

当搜索关键词如：“人民币”时，如果分词将“人民币”分成“人”，“民”，“币”三个单字，那么搜索该关键词会匹配到很多包含该单字的无关内容,但是如果将该词分词成一个整词“人民币”，搜索单字如“人”字又不会匹配到包含“人民币”关键词的内容,怎么解决这个问题,既保证覆盖度又保证准确度?

搜索“RMB”时只会匹配到包含“RMB”关键词的内容，实际上，“RMB”和“人民币”是同义词，我们希望用户搜索“RMB”和“人民币”可以相互匹配，ES同义词怎么配置？

接下来从以下几点讲一下怎么ES中文分词

中文分词器
ES 分词流程之 analysis,analyzer,filter,tokenizer
ES内置分词器
自定义analyzer
ES同义词功能实现

1.IK 分词器

1，Elasticsearch中文分词我们采用Ik分词，ik有两种分词模式，ik_max_word,和ik_smart模式;
- ik_max_word 和 ik_smart 什么区别?

ik_max_word: 会将文本做最细粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”，会穷尽各种可能的组合；
ik_smart: 会做最粗粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”。

索引时，为了提供索引的覆盖范围，通常会采用ik_max_word分析器，会以最细粒度分词索引，搜索时为了提高搜索准确度，会采用ik_smart分析器，会以粗粒度分词
字段mapping设置如下：

    "author": {

            "type": "string",

            "analyzer": "ik",

            "search_analyzer": "ik_smart"

        }

2.Elasticsearch之分析（analysis）和分析器（analyzer）

analysis索引分析模块充当analyzer分析器的可配置注册表,通过analyzer对文档索引阶段的字段和搜索String进行处理,自定义analyzer时,通常需要character filter tokenizer token filters来完成

2.1 character filter 字符过滤器

首先字符串经过过滤器（character filter），他们的工作是在分词前处理字符串。字符过滤器能够去除HTML标记，例如把“<a>”变成“a

2.2 tokenizer 分词器

英文分词可以根据空格将单词分开,中文分词比较复杂,可以采用机器学习算法来分词

2.2 token filters 表征过滤器

最后，每个词都通过所有表征过滤（token filters），他可以修改词（例如将“Quick”转为小写），去掉词（例如停用词像“a”、“and”、“the”等等），或者增加词（例如同义词像“a”、“and”、“the”等等）或者增加词（例如同义词像“jump”和“leap”）。

2.3 ES分词流程

character filter-->>tokenizer-->>token filters

2.5 自定义analyzer

官网example:

index :

    analysis :

        analyzer :

            myAnalyzer2 :

                type : custom

                tokenizer : myTokenizer1

                filter : [myTokenFilter1, myTokenFilter2]

                char_filter : [my_html]

                position_increment_gap: 256

        tokenizer :

            myTokenizer1 :

                type : standard

                max_token_length : 900

        filter :

            myTokenFilter1 :

                type : stop

                stopwords : [stop1, stop2, stop3, stop4]

            myTokenFilter2 :

                type : length

                min : 0

                max : 2000

        char_filter :

              my_html :

                type : html_strip

                escaped_tags : [xxx, yyy]

                read_ahead : 1024

2.6 分词mapping设置

通常为了保证索引时覆盖度和搜索时准确度,索引分词器采用ik_max_word,搜索分析器采用ik_smart模式

"content": {

          "type": "string",

          "analyzer": "ik_max_word",

          "search_analyzer": "ik_smart"

        }

1.7 如果更改了mapping分词器,需要重新索引数据才能生效

POST /_reindex

{

  "source": {

    "index": "twitter"

  },

  "dest": {

    "index": "new_twitter"

  }

}

因为倒排索引中的数据是索引时由分词器来处理的,如果分词器有变化,那么搜索时query关键词即使和doc中关键词相同,但是因为分词器的原因,分出来的词会出现不匹配的情况,因此当mapping或者分词器字典同义词词典等发生变化时,需要reindex索引数据

1.8 更改别名,不重启服务切换索引

POST /_aliases

{

  "actions": [

    {

      "remove": {

        "index": "oldindex",

        "alias": "alias_oldindex"

      }

    },

    {

      "add": {

        "index": "newindex",

        "alias": "alias_oldindex"

      }

    }

  ]

}

2 同义词

2.1 建议同义词词典

elasticsearch /config/analysis 下建议同义词词典文件pro_synonym.txt,采用UTF-8编码,写入内容
同义词内容格式 ,注意标点符号使用英文符号
- 启航 => 起航 : "=>"左边的词全部会被右边的词替换
- 启航,起航 :使用","英文逗号分隔,两个词是互等的,分词时会同时分成两个词进行索引或者检索,如"启航"会被分成"启航","起航"两个词分别建立索引或者去倒排索引检索

自定义添加同义词通过ik分词器

"settings": {

        "analysis": {

            "filter": {

                "my_synonym_filter": {

                    "type": "synonym",

                    "synonyms_path": "analysis/pro_synonym.txt"

                }

            },

            "analyzer": {

                "ik_syno_max_word": {

                    "tokenizer": "ik",

                    "filter": "my_synonym_filter"

                },

                "ik_syno_smart": {

                    "tokenizer": "ik_smart",

                    "filter": "my_synonym_filter"

                }

            }

        }

    }

想查看同义词效果或者测试分词效果

3 Suggest分词

suggest词需要对拼音前缀，全拼，中文进行前缀匹配，例如：“百度”一词，键入"baidu","bd","百"都必须匹配到，因此在索引的时候需要一词分多个分词器来索引保存，中文采用单字分词，拼音首字母和全拼需要自定义analyzer来索引。

Elasticsearch Suggest setting mapping设置参考如下

{

    "mappings": {

        "suggest": {

            "properties": {

                "full_pinyin": {

                    "type": "completion",

                    "analyzer": "full_pinyin_analyzer",

                    "payloads": true,

                    "preserve_separators": false,

                    "preserve_position_increments": true,

                    "max_input_length": 50

                },

                "prefix_pinyin": {

                    "type": "completion",

                    "analyzer": "prefix_pinyin_analyzer",

                    "search_analyzer": "standard",

                    "payloads": true,

                    "preserve_separators": false,

                    "preserve_position_increments": true,

                    "max_input_length": 50

                },

                "suggestText": {

                    "type": "completion",

                    "analyzer": "standard",

                    "payloads": true,

                    "preserve_separators": false,

                    "preserve_position_increments": true,

                    "max_input_length": 50

                }

            }

        }

    },

    "settings": {

        "index": {

            "analysis": {

                "filter": {

                    "_pattern": {

                        "type": "pattern_capture",

                        "preserve_original": "1",

                        "patterns": ["([0-9])", "([a-z])"]

                    },

                    "full_pinyin": {

                        "keep_first_letter": "false",

                        "keep_none_chinese_in_first_letter": "false",

                        "type": "pinyin",

                        "keep_original": "false",

                        "keep_full_pinyin": "true"

                    },

                    "prefix_pinyin": {

                        "keep_first_letter": "true",

                        "none_chinese_pinyin_tokenize": "false",

                        "type": "pinyin",

                        "keep_original": "false",

                        "keep_full_pinyin": "false"

                    }

                },

                "analyzer": {

                    "full_pinyin_analyzer": {

                        "filter": ["lowercase", "full_pinyin"],

                        "tokenizer": "standard"

                    },

                    "prefix_pinyin_analyzer": {

                        "filter": ["lowercase", "prefix_pinyin"],

                        "tokenizer": "standard"

                    }

                }

            }

        }

    }

}

关于搜索关键词会将不相关词搜索出来

解决单字搜索的一种方案
- 问题：搜索时，搜索牙膏，需检索出包含“牙膏”二字的内容，过滤掉包含“牙”或者“膏”的内容，但是搜索单字“牙”或者“膏”时需要将牙膏匹配出来
- 方案：加入单字字典，ik_max_word分词时，会把所有形式分出来,因此单字字典，此分词模式下会将单字索引起来，ik_smart会按照最粗粒度分词，搜索关键词时不会匹配单字内容
- 索引和搜索采用不同分词器 "analyzer": "ik", "search_analyzer": "ik_smart"
- 过程：更改mapping，searchAnalyzer=ik_smart