Elasticsearch内置的分词器对中文不友好，只会一个字一个字的分，无法形成词语，比如：

    POST /_analyze

    {

      "text": "我爱北京天安门",

      "analyzer": "standard"

    }

如果我们使用的是standard的分词器，那么结果就是：

    {

      "tokens" : [

        {

          "token" : "我",

          "start_offset" : 0,

          "end_offset" : 1,

          "type" : "<IDEOGRAPHIC>",

          "position" : 0

        },

        {

          "token" : "爱",

          "start_offset" : 1,

          "end_offset" : 2,

          "type" : "<IDEOGRAPHIC>",

          "position" : 1

        },

        ...

        {

          "token" : "门",

          "start_offset" : 6,

          "end_offset" : 7,

          "type" : "<IDEOGRAPHIC>",

          "position" : 6

        }

      ]

    }

显然这对中文来说并不友好，它显示的每一个汉字。好在Elastic的大拿medcl已经为我们做好IK中文分词器。下面我们来详细介绍如何安装并使用中文分词器。具体的安装步骤可以在地址https://github.com/medcl/elasticsearch-analysis-ik找到。

安装

首先，我们可以到如下的地址查看一下是否有最新的版本对应你的Elasticsearch的发行版：

https://github.com/medcl/elasticsearch-analysis-ik/releases

到目前截止日期，我们可以看到有最新的v7.3.1发行版。

那么，我们直接进入到我们的Elasticsearch的安装目录下，并打入如下的命令：

./bin/elasticsearch-plugin nstall https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.3.1/elasticsearch-analysis-ik-7.3.1.zip

替代上面的7.3.1安装你自己想要的版本：

安装好后，我们可以通过如下的命令来检查是否已经安装好：

localhost:elasticsearch-7.3.0 liuxg$ ./bin/elasticsearch-plugin list

analysis-ik

上面的命令显示我们的IK已经安装成功了。

这个时候需要我们重新启动一下我们的Elasticsearch，以便这个plugin能装被加载。

使用IK分词器

首先我们创建一个index:

PUT chinese

接下来，我们来为这个index 创建一个mapping

    PUT /chinese/_mapping

    {

      "properties": {

        "content": {

          "type": "text",

          "analyzer": "ik_max_word",

          "search_analyzer": "ik_smart"

        }

      }

    }

运行上面的命令后，如果出现如下的信息：

    {

      "acknowledged" : true

    }

它表明我们的安装时成功的。

接下来，我们来index一些文档：

    GET /chinese/_analyze

    {

      "text": "我爱北京天安门",

      "analyzer": "ik_max_word"

    }

显示的结果为：

    {

      "tokens" : [

        {

          "token" : "我",

          "start_offset" : 0,

          "end_offset" : 1,

          "type" : "CN_CHAR",

          "position" : 0

        },

        {

          "token" : "爱",

          "start_offset" : 1,

          "end_offset" : 2,

          "type" : "CN_CHAR",

          "position" : 1

        },

        {

          "token" : "北京",

          "start_offset" : 2,

          "end_offset" : 4,

          "type" : "CN_WORD",

          "position" : 2

        },

        {

          "token" : "天安门",

          "start_offset" : 4,

          "end_offset" : 7,

          "type" : "CN_WORD",

          "position" : 3

        },

        {

          "token" : "天安",

          "start_offset" : 4,

          "end_offset" : 6,

          "type" : "CN_WORD",

          "position" : 4

        },

        {

          "token" : "门",

          "start_offset" : 6,

          "end_offset" : 7,

          "type" : "CN_CHAR",

          "position" : 5

        }

      ]

    }

从上面的结果我们可以看出来，在我们的token中显示“北京”，“天安”及“天安门”。这个和我们之前的是不一样的。

下面，我们输入两个文档：

    PUT /chinese/_doc/1

    {

      "content":"我爱北京天安门"

    }

    PUT  /chinese/_doc/2

    {

      "content": "北京，你好"

    }

那么我们可以，通过如下的方式来进行搜索：

    GET /chinese/_search

    {

      "query": {

        "match": {

          "content": "北京"

        }

      }

    }

我们显示的结果是：

    {

      "took" : 1,

      "timed_out" : false,

      "_shards" : {

        "total" : 1,

        "successful" : 1,

        "skipped" : 0,

        "failed" : 0

      },

      "hits" : {

        "total" : {

          "value" : 2,

          "relation" : "eq"

        },

        "max_score" : 0.15965709,

        "hits" : [

          {

            "_index" : "chinese",

            "_type" : "_doc",

            "_id" : "2",

            "_score" : 0.15965709,

            "_source" : {

              "content" : "北京，你好"

            }

          },

          {

            "_index" : "chinese",

            "_type" : "_doc",

            "_id" : "1",

            "_score" : 0.100605845,

            "_source" : {

              "content" : "我爱北京天安门"

            }

          }

        ]

      }

    }

因为两个文档里都含有“北京”，我们可以看出来两个文档都被显示出来了。

我们同时做另外一个搜索：

    GET /chinese/_search

    {

      "query": {

        "match": {

          "content": "天安门"

        }

      }

    }

那么显示的结果是：

    {

      "took" : 0,

      "timed_out" : false,

      "_shards" : {

        "total" : 1,

        "successful" : 1,

        "skipped" : 0,

        "failed" : 0

      },

      "hits" : {

        "total" : {

          "value" : 1,

          "relation" : "eq"

        },

        "max_score" : 0.73898095,

        "hits" : [

          {

            "_index" : "chinese",

            "_type" : "_doc",

            "_id" : "1",

            "_score" : 0.73898095,

            "_source" : {

              "content" : "我爱北京天安门"

            }

          }

        ]

      }

    }

因为“天安门”只出现在第二个文档里，所以，我们可以看出来只有一个结果。

我们也同时做另外一个搜索：

    GET /chinese/_search

    {

      "query": {

        "match": {

          "content": "北京天安门"

        }

      }

    }

在这里，我们来搜索“北京天安门”。请注意我们在mapping中使用了

"search_analyzer": "ik_smart"

也就是说，search_analyzer会把我们的“北京天安门”，分解成两个词“北京”及“天安门”。这两个词将被用于搜索。通常对于match来说是OR关系，也就是说只要匹配到“北京”或“天安门”，这两个之中的任何一个，那么就是匹配：

    {

      "took" : 3,

      "timed_out" : false,

      "_shards" : {

        "total" : 1,

        "successful" : 1,

        "skipped" : 0,

        "failed" : 0

      },

      "hits" : {

        "total" : {

          "value" : 2,

          "relation" : "eq"

        },

        "max_score" : 0.7268042,

        "hits" : [

          {

            "_index" : "chinese",

            "_type" : "_doc",

            "_id" : "1",

            "_score" : 0.7268042,

            "_source" : {

              "content" : "我爱北京天安门"

            }

          },

          {

            "_index" : "chinese",

            "_type" : "_doc",

            "_id" : "2",

            "_score" : 0.22920427,

            "_source" : {

              "content" : "北京，你好"

            }

          }

        ]

      }

    }

上面显示的结果显示“我爱北京天安门”是最贴切的搜索结果。

参考：

【1】https://github.com/medcl/elasticsearch-analysis-ik

Elasticsearch：IK中文分词器的更多相关文章

elasticsearch ik中文分词器安装
特殊说明:灰色文字用来辅助理解的. 安装IK中文分词器我在百度上搜索了下,大多介绍的都是用maven打包下载下来的源码,这种方法也行,但是不够方便,为什么这么说? 首先需要安装maven吧?其次需要 ...
elasticsearch ik中文分词器的使用详解
(基于es5.4)先喵几眼github,按照步骤安装好分词器 link:https://github.com/medcl/elasticsearch-analysis-ik 复习一下常用的操作 .查看 ...
elasticsearch ik中文分词器的安装配置使用
安装步骤 https://github.com/medcl/elasticsearch-analysis-ik 以插件形式安装: [elsearch@localhost elasticsearch- ...
如何给Elasticsearch安装中文分词器IK
安装Elasticsearch安装中文分词器IK的步骤: 1. 停止elasticsearch 2.2的服务 2. 在以下地址下载对应的elasticsearch-analysis-ik插件安装包(版 ...
【自定义IK词典】Elasticsearch之中文分词器插件es-ik的自定义词库
Elasticsearch之中文分词器插件es-ik 针对一些特殊的词语在分词的时候也需要能够识别有人会问,那么,例如: 如果我想根据自己的本家姓氏来查询,如zhouls,姓氏“周”. 如 ...
ElasticSearch速学 - IK中文分词器远程字典设置
前面已经对”IK中文分词器“有了简单的了解: 但是可以发现不是对所有的词都能很好的区分,比如: 逼格这个词就没有分出来. 词库实际上IK分词器也是根据一些词库来进行分词的,我们可以丰富这个词库. ...
沉淀再出发：ElasticSearch的中文分词器ik
沉淀再出发:ElasticSearch的中文分词器ik 一.前言为什么要在elasticsearch中要使用ik这样的中文分词呢,那是因为es提供的分词是英文分词,对于中文的分词就做的非常不好了 ...
ElasticSearch安装中文分词器IK
1.安装IK分词器,下载对应版本的插件,elasticsearch-analysis-ik中文分词器的开发者一直进行维护的,对应着elasticsearch的版本,所以选择好自己的版本即可.IKAna ...
ElasticSearch的中文分词器ik
一.前言为什么要在elasticsearch中要使用ik这样的中文分词呢,那是因为es提供的分词是英文分词,对于中文的分词就做的非常不好了,因此我们需要一个中文分词器来用于搜索和使用. 二.IK ...
elasticsearch使用ik中文分词器
elasticsearch使用ik中文分词器一.背景二.安装 ik 分词器 1.从 github 上找到和本次 es 版本匹配上的分词器 2.使用 es 自带的插件管理 elasticsearc ...

随机推荐

方法的调用和JDK9的JShell简单使用
方法在定义完毕后,方法不会自己运行,必须被调用才能执行,我们可以在主方法main中来调用我们自己定义好的方法.在主方法中,直接写要调用的方法名字就可以调用了 public static void ma ...
java面向对象编程---方法
二.方法 1.方法的重载 1.1 方法的签名方法的唯一标识就是方法的签名:方法的名字和参数列表: 一个类中不能出现两个方法的签名完全一样的方法 1.2 方法的重载方法名相同但参数列表不同称之为方法 ...
git.exe pull --progress -v --no-rebase "origin" master
git.exe pull --progress -v --no-rebase "origin" master remote: You do not have permission ...
idea 内置tomcat jersey 跨服务器上传文件报400错误
报错内容 com.sun.jersey.api.client.UniformInterfaceException: PUT http://.jpg returned a response status ...
Educational Codeforces Round 132 (C,D) 题解 cf#1709
昨晚打了这把EDU,赛后看了dalao们的C题代码豁然开朗恍然大悟实在是太巧妙了这场来说,D题的通过率比C题高太多了(估计很多人都在C题卡了然后没做D 先放题目链接题目链接 C - Recove ...
centos7更改中文
这是在CentOS7中设置,CentOS6的是在 .etc/sysconfig/i18n 配置文件下.在root用户下操作,使用 locale 命令查看语言环境,看到 LANG=en_US.utf8 ...
dockerfile操作
简介 Dockerfile 是一个用来构建镜像的文本文件,文本内容包含了一条条构建镜像所需的指令和说明. 上下文路径如下是一个简单的基于dockerfile创建镜像的命令,我们注意到启动处理镜像名和 ...
Spring 常见面试题总结 | JavaGuide
首发于 JavaGuide 在线网站:Spring 常见面试题总结最近在对 JavaGuide 的内容进行重构完善,同步一下最新更新,希望能够帮助你. Spring 基础什么是 Spring 框架 ...
为美多商城(Django2.0.4)添加基于websocket的实时通信，主动推送，聊天室及客服系统
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_67 websocket是个啥? webSocket是一种在单个TCP连接上进行全双工通信的协议 webSocket使得客户端和服务 ...
PLC中增益和偏移
y=kx+b这个直线方程,那么增益就是指k这个斜率,而偏移就是指b. 模拟量转换时一般是不需要设置这两个参数的,只有当外部信号与模块接收的信号在值上有偏差的情况下才会去调整这个参数. 如果的模块信号是 ...

Elasticsearch：IK中文分词器

安装

使用IK分词器

Elasticsearch：IK中文分词器的更多相关文章

随机推荐

热门专题