第四章-分词

关注公众号：CoderBuff，回复“es”获取《ElasticSearch6.x实战教程》完整版PDF。

下雨天留客天留我不留

本打算先介绍“简单搜索”，对ES的搜索有一个直观的感受。但在写的过程中发现分词无论如何都绕不过去。term查询，match查询都与分词息息相关，索性先介绍分词。

ES作为一个开源的搜索引擎，其核心自然在于搜索，而搜索不同于我们在MySQL中的select查询语句，无论我们在百度搜索一个关键字，或者在京东搜索一个商品时，常常无法很准确的给出一个关键字，例如我们在百度希望搜索“Java教程”，我们希望结果是“Java教程”、“Java”、“Java基础教程”，甚至是“教程Java”。MySQL虽然能满足前三种查询结果，但却无法满足最后一种搜索结果。

虽然我们很难做到对于百度或者京东的搜索（这甚至需要了解Lucene和搜索的底层原理），但我们能借助ES做出一款不错的搜索产品。

ES的搜索中，分词是非常重要的概念。掌握分词原理，对待一个不甚满意的搜索结果我们能定位是哪里出了问题，从而做出相应的调整。

ES中，只对字符串进行分词，在ElasticSearch2.x版本中，字符串类型只有string，ElasticSearch5.x版本后字符串类型分为了text和keyword类型，需要明确的分词只在text类型。

ES的默认分词器是standard，对于英文搜索它没有问题，但对于中文搜索它会将所有的中文字符串挨个拆分，也就是它会将“中国”拆分为“中”和“国”两个单词，这带来的问题会是搜索关键字为“中国”时，将不会有任何结果，ES会将搜索字段进行拆分后搜索。当然，你可以指定让搜索的字段不进行分词，例如设置为keyword字段。

分词体验

前面说到ES的默认分词器是standard,可直接通过API指定分词器以及字符串查看分词结果。

使用standard进行英文分词：

POST http://localhost:9200/_analyze

{

	"analyzer":"standard",

	"text":"hello world"

}

ES响应：

{

    "tokens": [

        {

            "token": "hello",

            "start_offset": 0,

            "end_offset": 5,

            "type": "<ALPHANUM>",

            "position": 0

        },

        {

            "token": "world",

            "start_offset": 6,

            "end_offset": 11,

            "type": "<ALPHANUM>",

            "position": 1

        }

    ]

}

如果我们对“helloword”进行分词，结果将只有“helloword”一个词，standsard对英文按照空格进行分词。

使用standard进行中文分词：

POST http://localhost:9200/_analyze

{

	"analyzer":"standard",

	"text":"学生"

}

ES响应：

{

    "tokens": [

        {

            "token": "学",

            "start_offset": 0,

            "end_offset": 1,

            "type": "<IDEOGRAPHIC>",

            "position": 0

        },

        {

            "token": "生",

            "start_offset": 1,

            "end_offset": 2,

            "type": "<IDEOGRAPHIC>",

            "position": 1

        }

    ]

}

“学生”显然应该是一个词，不应该被拆分。也就是说如果字符串中是中文，默认的standard不符合我们的需求。幸运地是， ES支持第三方分词插件。在ES中的中文分词插件使用最为广泛的是ik插件。

ik插件

既然是插件，就需要安装。注意，版本5.0.0起，ik插件已经不包含名为ik的分词器，只含ik_smart和ik_max_word，事实上后两者使用得也最多。

ik插件安装

ik下载地址（直接下载编译好了的zip文件，需要和ES版本一致）：https://github.com/medcl/elasticsearch-analysis-ik/releases/tag/v6.3.2。ik历史版本下载页面：https://github.com/medcl/elasticsearch-analysis-ik/releases。

下载完成后解压elasticsearch-analysis-ik-6.3.2.zip将解压后的文件夹直接放入ES安装目录下的plugins文件夹中，重启ES。

使用ik插件的ik_smart分词器：

POST http://localhost:9200/_analyze

{

  "analyzer":"ik_smart",

  "text":"学生"

}

ES响应：

{

    "tokens": [

        {

            "token": "学生",

            "start_offset": 0,

            "end_offset": 2,

            "type": "CN_WORD",

            "position": 0

        }

    ]

}

这才符合我们的预期。那么ik插件中的ik_smart和ik_max_word有什么区别呢？简单来讲，ik_smart会按照关键字的最粗粒度进行分词，比如搜索“北京大学”时，我们知道“北京大学”是一个特定的词汇，它并不是指“北京的大学”，我们不希望搜索出“四川大学”，“重庆大学”等其他学校，此时“北京大学”不会被分词。而ik_max_word则会按照最细粒度进行分词，同样搜索“北京大学”时，我们也知道“北京”和“大学”都是一个词汇，所以它将会被分词为“北京大学”，“北京大”，“北京”，“大学”，显然如果搜索出现后三者相关结果，这会给我们带来更多无用的信息。

所以我们在进行搜索时，常常指定ik_smart为分词器。

有时候一个词并不在ik插件的词库中，例如很多网络用语等。我们希望搜索“小米手机”的时候，只出现“小米的手机”而不会出现“华为手机”、“OPPO手机”，但“小米手机”并不在ik词库中，此时我们可以将“小米手机”添加到ik插件的自定义词库中。

“小米手机”使用ik_smart的分词结果：

{

    "tokens": [

        {

            "token": "小米",

            "start_offset": 0,

            "end_offset": 2,

            "type": "CN_WORD",

            "position": 0

        },

        {

            "token": "手机",

            "start_offset": 2,

            "end_offset": 4,

            "type": "CN_WORD",

            "position": 1

        }

    ]

}

进入ik插件安装目录elasticsearch-5.6.0/plugins/elasticsearch/config，创建名为custom.dic的自定义词库，向文件中添加“小米手机”并保存。仍然是此目录，修改IKAnalyzer.cfg.xml文件，如下所示：

<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">

<properties>

        <comment>IK Analyzer 扩展配置</comment>

        <!--用户可以在这里配置自己的扩展字典 -->

        <entry key="ext_dict">custom.dic</entry>

         <!--用户可以在这里配置自己的扩展停止词字典-->

        <entry key="ext_stopwords"></entry>

        <!--用户可以在这里配置远程扩展字典 -->

        <!-- <entry key="remote_ext_dict">words_location</entry> -->

        <!--用户可以在这里配置远程扩展停止词字典-->

        <!-- <entry key="remote_ext_stopwords">words_location</entry> -->

</properties>

重启ES后，再次通过ik_smart对“小米手机”进行分词，发现“小米手机”不再被分词。

创建映射指定分词器

在创建映射时，我们可以指定字段采用哪种分词器，避免我们在每次搜索时都指定。

创建word索引 PUT http://localhost:9200/word

创建analyzer_demo类型已经定义映射Mapping

PUT http://localhost:9200/word/analyzer_demo/_mapping

{

	"properties":{

		"name":{

			"type":"text",

      "analyzer":"ik_smart"

		}

	}

}

查看word索引结构 GET http://localhost:9200/word

ES响应：

{

    "word": {

        "aliases": {},

        "mappings": {

            "analyzer_demo": {

                "properties": {

                    "name": {

                        "type": "text",

                        "analyzer": "ik_smart"

                    }

                }

            }

        },

        "settings": {

            "index": {

                "creation_date": "1561304920088",

                "number_of_shards": "5",

                "number_of_replicas": "1",

                "uuid": "A2YO9GpzRrGAIm2Q6rCoWA",

                "version": {

                    "created": "5060099"

                },

                "provided_name": "word"

            }

        }

    }

}

可以看到ES在对name字段进行分词时会采用ik_smart分词器。

关注公众号：CoderBuff，回复“es”获取《ElasticSearch6.x实战教程》完整版PDF。

这是一个能给程序员加buff的公众号（CoderBuff）

《ElasticSearch6.x实战教程》之分词的更多相关文章

《ElasticSearch6.x实战教程》正式推出(附图书抽奖)
经过接近1个月的时间,ElasticSearch6.x实战教程终于成册.这本实战教程小册有很多不足(甚至可能有错误),也是第一次完整推出一个系列的教程. 1年前,我开始真正接触ES,在此之前仅停留在知 ...
《ElasticSearch6.x实战教程》之简单搜索、Java客户端（上）
第五章-简单搜索众里寻他千百度搜索是ES的核心,本节讲解一些基本的简单的搜索. 掌握ES搜索查询的RESTful的API犹如掌握关系型数据库的SQL语句,尽管Java客户端API为我们不需要我们去 ...
《ElasticSearch6.x实战教程》之复杂搜索、Java客户端（下）
第八章-复杂搜索黑夜给了我黑色的眼睛,我却用它寻找光明. 经过了解简单的API和简单搜索,已经基本上能应付大部分的使用场景.可是非关系型数据库数据的文档数据往往又多又杂,各种各样冗余的字段,组成了一 ...
《ElasticSearch6.x实战教程》之准备工作、基本术语
第一章-准备工作工欲善其事必先利其器 ElasticSearch安装 ElasticSearch6.3.2下载地址(Linux.mac OS.Windows通用,下载zip包即可):https:// ...
《ElasticSearch6.x实战教程》之简单的API
第三章-简单的API 万丈高楼平地起 ES提供了多种操作数据的方式,其中较为常见的方式就是RESTful风格的API. 简单的体验利用Postman发起HTTP请求(当然也可以在命令行中使用curl ...
《ElasticSearch6.x实战教程》之父-子关系文档
第七章-父-子关系文档打虎亲兄弟,上阵父子兵. 本章作为复杂搜索的铺垫,介绍父子文档是为了更好的介绍复杂场景下的ES操作. 在非关系型数据库数据库中,我们常常会有表与表的关联查询.例如学生表和成绩表 ...
《ElasticSearch6.x实战教程》之实战ELK日志分析系统、多数据源同步
第十章-实战:ELK日志分析系统 ElasticSearch.Logstash.Kibana简称ELK系统,主要用于日志的收集与分析. 一个完整的大型分布式系统,会有很多与业务不相关的系统,其中日志系 ...
PyTorch 高级实战教程：基于 BI-LSTM CRF 实现命名实体识别和中文分词
前言:译者实测 PyTorch 代码非常简洁易懂,只需要将中文分词的数据集预处理成作者提到的格式,即可很快的就迁移了这个代码到中文分词中,相关的代码后续将会分享. 具体的数据格式,这种方式并不适合处理 ...
【ASP.NET实战教程】ASP.NET实战教程大集合，各种项目实战集合
[ASP.NET实战教程]ASP.NET实战教程大集合,各种项目实战集合,希望大家可以好好学习教程中,有的比较老了,但是一直很经典!!!!论坛中很多小伙伴说.net没有实战教程学习,所以小编连夜搜集整 ...

随机推荐

Android Contact 导入导出 vcf格式（不依赖第三方库）
Android sdk 支持vcf处理的(忘记最低哪个版本开始支持的了,可以查一查) 备注:此代码来自Stack Overflow(原地址找不到了,o(╥﹏╥)o) 1. 导出联系人为vcf格式 Co ...
Android手机导出文件
因为要写联系人相关的东西,所以得把db导出来看看第一步:Root手机尝试了几个Root工具,发现就KingRoot能root 第二个:编写bat脚本脚本内容是先将DB文件从/data/data ...
JVM的几个介绍
关于jvm内存的几点 jvm在运行时分为方法区(Method Area) .虚拟机栈(VM Stack).本地方法栈(Native Method Stack).堆 (Heap).程序计数器 (Prog ...
为什么360、百度、腾讯出的Mac端云盘客户端都只有同步盘？（用户量小，同步盘开发成本低，Linux下都没有客户端）
如题,顾名思义,同步盘是用来同步的,不具备增量的功能,像这三家在Windows端出的客户端都是即有同步也有增量的. 陆续出来的,可能大家更多的是跟随策略,不得不提dropbox是这样的形式.mac电脑 ...
delphi资源文件制作及使用详解
一.引子:现在的Windows应用程序几乎都使用图标.图片.光标.声音等,我们称它们为资源(Resource).最简单的使用资源的办法是把这些资源的源文件打入软件包,以方便程序需要的时候调用.资源是程 ...
CSS3 GENERATOR可以同时为一个元素完成border-radius、box-shadow、gradient和opacity多项属性的设置
CSS3 GENERATOR可以同时为一个元素完成border-radius.box-shadow.gradient和opacity多项属性的设置 CSS3 GENERATOR 彩蛋爆料直击现场 CS ...
Qt for android触摸手势事件QGestureEvent
在触摸设备上可以使用Qt的手势事件要激活手势事件,需要执行以下操作: 第一步,为QWidget控件注册手势事件 QList<Qt::GestureType> gestures; gest ...
C函数实现返回多个值的方法
C语言中,一个函数最多只能实现一个返回值. int func (int b) { int a=5; if (a>b) return a; else return b; return 0; } ...
初探 C# 8 的 Nullable Reference Types
溫馨提醒:本文提及的 C# 8 新功能雖已通過提案,但不代表將來 C# 8 正式發布時一定會納入.這表示我這篇筆記有可能白寫了,也表示您不必急著瞭解這項新功能的所有細節,可能只要瞄一下底下的「概要」說 ...
Java基础(五) final关键字浅析
前面在讲解String时提到了final关键字,本文将对final关键字进行解析. static和final是两个我们必须掌握的关键字.不同于其他关键字,他们都有多种用法,而且在一定环境下使用,可以提 ...

《ElasticSearch6.x实战教程》之分词

第四章-分词

分词体验

ik插件

ik插件安装

创建映射指定分词器

《ElasticSearch6.x实战教程》之分词的更多相关文章

随机推荐

热门专题