elasticsearch ik分词

elasticsearch 默认并不支持中文分词，默认将每个中文字切分为一个词，这明显不符合我们的业务要求。这里就需要用到ik分词插件。

本文主要囊括了以下几部分,ik插件安装、ik用法介绍、自定义词典使用

ik插件安装

查找并下载对应elasticsearch版本的ik，解压
编写Dockerfile
运行测试 $docker-compose up -d

新增ik插件功能配置实际上非常简单，仅需将解压后的elasticsearch-analysis-ik文件放置到es/plugins路径下即可。本文使用dockerfile来实现

Dockerfile

FROM docker.elastic.co/elasticsearch/elasticsearch:7.1.1

ADD elasticsearch-analysis-ik-7.1.1 /usr/share/elasticsearch/plugins/elasticsearch-analysis-ik-7.1.1

ik用法介绍

ik_max_word: 会将文本做最细粒度的拆分，比如会将"中华人民共和国国歌"拆分为"中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌"，会穷尽各种可能的组合；
ik_smart: 会做最粗粒度的拆分，比如会将"中华人民共和国国歌"拆分为"中华人民共和国,国歌"。

创建articles索引，设置mappings

PUT /articles/

{

    "settings":{

        "number_of_shards":5,

        "number_of_replicas":1

    },

    "mappings":{

            "properties":{

                "title":{

                    "type":"text",

                    "analyzer":"ik_smart",

                    "search_analyzer":"ik_smart"

                },

                "info":{

                    "type":"text",

                    "analyzer":"ik_smart",

                    "search_analyzer":"ik_smart"

                }

            }

    }

}

插入数据后，查看分词结果

GET /${index}/${type}/${id}/_termvectors?fields=${fields_name} # 查看分词结果

返回的结果

"价值": {

          "term_freq": 1, # 词频

          "tokens": [

            {

              "position": 14, # 位置

              "start_offset": 22, # 启始位置

              "end_offset": 24 # 结束位置

            }

          ]

        },

自定义词典使用

配置文件在es/plugins/ik/config目录下

IKAnalyzer.cfg.xml：用来配置自定义词库

main.dic：ik原生内置的中文词库，总共有27万多条，只要是这些单词，都会被分在一起

quantifier.dic：放了一些单位相关的词

suffix.dic：放了一些后缀

surname.dic：中国的姓氏

stopword.dic：英文停用词

# ik原生最重要i的两个配置文件

main.dic：包含了原生的中文词语，会按照这个里面的词语去分词

stopword.dic：包含了英文的停用词

一般像停用词，会在分词的时候，直接被干掉，不会建立在倒排索引中

本地文件扩展词典

在该目录下新建mydict.dic文件
修改IKAnalyzer.cfg.xml配置文件文件
重启elasticsearch即可

<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">

<properties>

	<comment>IK Analyzer 扩展配置</comment>

	<!--用户可以在这里配置自己的扩展字典 -->

	<entry key="ext_dict">mydict.dic</entry>

	 <!--用户可以在这里配置自己的扩展停止词字典-->

	<entry key="ext_stopwords"></entry>

	<!--用户可以在这里配置远程扩展字典 -->

	<!-- <entry key="remote_ext_dict">words_location</entry> -->

	<!--用户可以在这里配置远程扩展停止词字典-->

	<!-- <entry key="remote_ext_stopwords">words_location</entry> -->

</properties>

远程扩展词典【生产环境下更方便】

nginx部署一个mydict.dic的静态文件即可

ik每分钟获取一次，优势在于无需重启elasticsearch

<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">

<properties>

	<comment>IK Analyzer 扩展配置</comment>

	<!--用户可以在这里配置自己的扩展字典 -->

	<entry key="ext_dict"></entry>

	 <!--用户可以在这里配置自己的扩展停止词字典-->

	<entry key="ext_stopwords"></entry>

	<!--用户可以在这里配置远程扩展字典 -->

	<entry key="remote_ext_dict">http://192.168.1.1/static/txt/mydict.dic</entry>

	<!--用户可以在这里配置远程扩展停止词字典-->

	<!-- <entry key="remote_ext_stopwords">words_location</entry> -->

</properties>

elasticsearch ik分词的更多相关文章

ElasticSearch ik分词安装
1.下载对应版本的ES ik分词 https://github.com/medcl/elasticsearch-analysis-ik/releases 2.解压elasticsearch-analy ...
Windows10安装Elasticsearch IK分词插件
安装插件 cmd切换到Elasticsearch安装目录下 C:\Users\Administrator>D: D:\>cd D:\Program Files\Elastic\Elasti ...
Elasticsearch IK分词器
Elasticsearch-IK分词器一.简介因为Elasticsearch中默认的标准分词器(analyze)对中文分词不是很友好,会将中文词语拆分成一个一个中文的汉字,所以引入中文分词器-IK ...
SpringBoot整合Elasticsearch+ik分词器+kibana
话不多说直接开整首先是版本对应,SpringBoot和ES之间的版本必须要按照官方给的对照表进行安装,最新版本对照表如下: (官网链接:https://docs.spring.io/spring-d ...
使用 Elasticsearch ik分词实现同义词搜索（转）
1.首先需要安装好Elasticsearch 和elasticsearch-analysis-ik分词器 2.配置ik同义词 Elasticsearch 自带一个名为 synonym 的同义词 fil ...
Centos7部署elasticsearch并且安装ik分词以及插件kibana
第一步下载对应的安装包 elasticsearch下载地址:https://www.elastic.co/cn/downloads/elasticsearch ik分词下载:https://gith ...
七、Elasticsearch+elasticsearch-head的安装+Kibana环境搭建+ik分词器安装
一.安装JDK1.8 二.安装ES 三个节点:master.slave01.slave02 1.这里下载的是elasticsearch-6.3.1.rpm版本包 https://www.elastic ...
IK 分词器
目录 IK 分词器-介绍 IK 分词器-安装环境准备:Maven 安装 IK 分词器 IK 分词器-使用 IK 分词器-介绍现有问题:ES 默认对中文分词并不友好,实际上是把中文进行了每个字的分词 ...
ElasticSearch已经配置好ik分词和mmseg分词(转)
ElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎.设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便.支持通过HTTP使用JSON进行数据索引 ...

随机推荐

Android native进程间通信实例-binder篇之——解决实际问题inputreader内建类清楚缓存
我在实际开发中,遇到一个问题,在电容屏驱动中没有发送input_sync 给上层,导致电容屏有的数据缓存在inputreader 中,会导致系统一系列奇怪问题发生, 至于为什么驱动不发送input_s ...
spark的wordcount
在开发环境下实现第一个程序wordcount 1.下载和配置scala,注意不要下载2.13,在spark-core明确支持scala2.13前,使用2.12或者2.11比较好. https://ww ...
『010』NoSQL
『010』索引-Database NoSQL [001]- 点我快速打开文章[01-Redis 简单介绍] 更新中
luoguP4113 [HEOI2012]采花
经典颜色问题推荐博文 https://www.cnblogs.com/tyner/p/11519506.html https://www.cnblogs.com/tyner/p/11616770.ht ...
python27期前端
第一天笔记:HTML:是一种标识性的语言css:层叠样式表是一种用来表现HTML等文件样式(效果)的计算机语言JavaScript:简称“JS”,是一种属于网络的脚本语言常用来为网页添加各式各样的动 ...
LeetCode 676. Implement Magic Dictionary实现一个魔法字典 (C++/Java)
题目: Implement a magic directory with buildDict, and search methods. For the method buildDict, you'll ...
angular6.x 引入echarts
因为angular2+ 使用 ==typescript==开发,所以想要使用echarts,必须安装echarts针对angular的插件ngx-echarts.本文案列实际效果如上图. 安装ngx- ...
MySQL 行溢出数据
MySQL 行溢出数据 MySQL 对一条记录占用的最大储存空间是有限制的,除了 BLOB 和 TEXT 类型之外,其他所有列 (不包括隐藏列和记录头信息) 占用的字节长度不能超过 65535 个字节 ...
A1039 Course List for Student (25 分)
一.技术总结这里由于复杂度的限制,只能够使用vector,然后进行字符串转化:考虑到string.cin.cout会超时,可以使⽤用hash(262626*10+10)将学⽣生姓名变为int型,然后 ...
Ubuntu无法正常输入英文单引号符号 + 误删除package导致系统设置异常（解决方案）
1 先说解决单引号的问题写代码,遇到了输入英文单引号无法正常输入,需要按两次,而且不是竖向,而是斜的. 然后在寻找解决方案的过程中又遇到了把中文输入法搞得不能使用的问题.破费周折!!! 对Ubunt ...