Elasticsearch-IK分词器

一、简介

因为Elasticsearch中默认的标准分词器(analyze)对中文分词不是很友好，会将中文词语拆分成一个一个中文的汉字，所以引入中文分词器-IK。

使用默认

二、安装IK分词器

1.先下载ik分词器

https://github.com/medcl/elasticsearch-analysis-ik/releases

注意一定要下载和Elastic版本相同的IK分词器

2.我们将ik分词器上传到我们的es的plugins/ik目录下，ik文件夹需要我们自己创建

cd /usr/local/elasticsearch/plugins/ik/

unzip elasticsearch-analysis-ik-XX.zip 

# windos下安装也是一样的操作

3.重启

重启的时候在日志中就可以看到关于IK分词器已经被加载进去了

三、测试分词器

1.ik_smart

会做最粗粒度的拆分，比如会将“我是中国人”拆分为我、是、中国人。

POST _analyze

{

  "analyzer": "ik_smart",

  "text": "我是中国人"

}

2.ik_max_word

会将文本做最细粒度的拆分，比如会将“我是中国人”拆分为“我、是、中华、中国人、中国、国人

POST _analyze

{

  "analyzer": "ik_max_word",

  "text": "我是中国人"

}

四、自定义词库

使用场景

在利用ik分词的过程中，当ik的分词规则不满足我们的需求了，这个时候就可以利用ik的自定义词库进行匹配，比如最火的常用的网络用语；我们输入乔碧罗殿下正常的情况下，是不会识别整个词语的，返回的都是分开的。我们识别整个词语就需要自定义词库

1、自定义词库方式一(新建dic文件)

（1）到elasticsearch/plugins中寻找ik插件所在的目录

（2）在ik中的config文件中添加词库

创建目录    mkdir ciku

创建文件    vim test.dic

#编辑test.dic 注意每个词语一行

（3）修改ik配置

vim /**/elasticsearch/plugins/ik/config/IKAnalyzer.cfg.xml

（4）重启ElasticSearch

2、通过Nginx配置自定义词库

（1）安装好nginx，到nginx的html目录下创建分词文件

vim fenci.txt

#每个词语一行

（2）修改ik配置

vim /**/elasticsearch/plugins/ik/config/IKAnalyzer.cfg.xml

（3）重启ElasticSearch

效果

我们输入乔碧罗殿下正常的情况下，是不会识别整个词语的，返回的都是分开的。当我们在词库文件中写上乔碧罗殿下就会返回下面的效果

Elasticsearch IK分词器的更多相关文章

SpringBoot整合Elasticsearch+ik分词器+kibana
话不多说直接开整首先是版本对应,SpringBoot和ES之间的版本必须要按照官方给的对照表进行安装,最新版本对照表如下: (官网链接:https://docs.spring.io/spring-d ...
七、Elasticsearch+elasticsearch-head的安装+Kibana环境搭建+ik分词器安装
一.安装JDK1.8 二.安装ES 三个节点:master.slave01.slave02 1.这里下载的是elasticsearch-6.3.1.rpm版本包 https://www.elastic ...
IK 分词器
目录 IK 分词器-介绍 IK 分词器-安装环境准备:Maven 安装 IK 分词器 IK 分词器-使用 IK 分词器-介绍现有问题:ES 默认对中文分词并不友好,实际上是把中文进行了每个字的分词 ...
Elasticsearch入门之从零开始安装ik分词器
起因需要在ES中使用聚合进行统计分析,但是聚合字段值为中文,ES的默认分词器对于中文支持非常不友好:会把完整的中文词语拆分为一系列独立的汉字进行聚合,显然这并不是我的初衷.我们来看个实例: POST ...
docker上安装elasticsearch和ik分词器插件和header，实现分词功能
docker run -di --name=tensquare_es -p 9200: -p 9300:9300 elasticsearch:5.6.8 创建elasticsearch容器(如果版本不 ...
Elasticsearch下安装ik分词器
安装ik分词器(必须安装maven) 上传相应jar包解压到相应目录 unzip elasticsearch-analysis-ik-master.zip(zip包) cp -r elasticse ...
elasticsearch安装ik分词器（极速版）
简介:下面讲有我已经打包并且编辑过的zip包,你可以在下面下载即可. 1.下载zip包.elasticsearch-analysis-ik-1.8.0.jar下面有附件链接[ik-安装包.zip],下 ...
【ELK】【docker】【elasticsearch】2.使用elasticSearch+kibana+logstash+ik分词器+pinyin分词器+繁简体转化分词器 6.5.4 启动 ELK+logstash概念描述
官网地址:https://www.elastic.co/guide/en/elasticsearch/reference/current/docker.html#docker-cli-run-prod ...
ElasticSearch（六）：IK分词器的安装与使用IK分词器创建索引
之前我们创建索引,查询数据,都是使用的默认的分词器,分词效果不太理想,会把text的字段分成一个一个汉字,然后搜索的时候也会把搜索的句子进行分词,所以这里就需要更加智能的分词器IK分词器了. 1. i ...

随机推荐

“限时分享“ 本地80个小游戏 HTML+CSS+JS源码分享
里面有80款小游戏源码,支持内置导航,可以拿来练手或者消磨时间,具体功能以及游戏请看下图维京战争小游戏源码链接:https://pan.baidu.com/s/ ...
学堂在线《Java程序设计（2021春）》系列笔记——前言
写在前面目录写在前面这个系列是什么为什么要做这篇博客我是谁(其实不重要) 其他这个系列是什么这是关于学堂在线<Java程序设计(2021春)>(清华大学-郑莉教授)的个人同步 ...
Linux创建ftp并设置权限以及忘记ftp帐号（密码）修改（转）
忘记ftp密码修改方法:1.登录服务器 cd /etc/vsftpdcat ftpusers找到对应的ftp用户名 (如果用户名也忘记了那么 cd /etc 然后cat passwd 查看用户 ...
IDA Pro 6.0使用Qt 框架实现了跨平台的UI
IDA Pro 6.0使用Qt 框架实现了跨平台的UI.它的好处是插件编写者还可以直接使用 Qt 开发跨平台 UI.但是编剧呢? 在这篇博文中,我们将说明如何使用PySide使用IDAPython为 ...
C++11运算符重载详解与向量类重载实例（＜＜,＞＞,+,-,*等）
1. C++运算符重载介绍 C ++ 中预定义的运算符的操作对象只能是基本数据类型.但实际上,对于许多用户自定义类型(例如类),也需要类似的运算操作.这时就必须在C ++ 中重新定义这些运算符,赋予已 ...
navicate for mysql命令中输入中文报错
insert into xsxx(name,xb) values('李四','男') 错误提示: [SQL]insert into xsxx3(name,xb) values('李四','男') [E ...
Vue.js源码解析-Vue初始化流程之动态创建DOM
目录前言一._update 如何判断是初始化还是更新操作? 二.patch 2.1 patch 定义 2.2 初始化的 patch 三.createElm 动态创建DOM 3.1 创建组件节点 3 ...
【原创】如何通过-y和-v使用库文件
在进行仿真时,经常遇到设计代码中需要调用一些标准的库文件,但是在设计的编译列表filelist中却没有相应的库文件,这时为了完成仿真,需要设计人员提供对应的库文件或者库文件所在的路径,然后仿真时将这些 ...
祝贺|合肥.NET俱乐部第二期技术沙龙活动圆满成功
热烈祝贺合肥.NET俱乐部第二期技术沙龙圆满成功,感恩参与活动的每一位小伙伴!正是因为有你们才促成了这次聚会的成功.现对此次活动进行简单回顾并附上精彩的活动图片,每一位参与活动者名单,以及此次活动讲师 ...
C# CheckedListBox控件的用法总结
1. 添加项目 checkedListBox1.Items.Add("一级"); checkedListBox1.Items.Add("二级"); checke ...

Elasticsearch IK分词器