Elasticsearch安装中文分词插件ik

Elasticsearch默认提供的分词器，会把每一个汉字分开，而不是我们想要的依据关键词来分词。比如：

curl -XPOST  "http://localhost:9200/userinfo/_analyze?analyzer=standard&pretty=true&text=我是中国人"

我们会得到这种结果：

{

tokens: [

{

token: text

start_offset: 2

end_offset: 6

type: <ALPHANUM>

position: 1

}

{

token: 我

start_offset: 9

end_offset: 10

type: <IDEOGRAPHIC>

position: 2

}

{

token: 是

start_offset: 10

end_offset: 11

type: <IDEOGRAPHIC>

position: 3

}

{

token: 中

start_offset: 11

end_offset: 12

type: <IDEOGRAPHIC>

position: 4

}

{

token: 国

start_offset: 12

end_offset: 13

type: <IDEOGRAPHIC>

position: 5

}

{

token: 人

start_offset: 13

end_offset: 14

type: <IDEOGRAPHIC>

position: 6

}

]

}

正常情况下。这不是我们想要的结果，比方我们更希望 “中国人”，“中国”，“我”这种分词。这样我们就须要安装中文分词插件，ik就是实现这个功能的。

elasticsearch-analysis-ik
是一款中文的分词插件，支持自己定义词库。

安装步骤：

1、到github站点下载源码。站点地址为：https://github.com/medcl/elasticsearch-analysis-ik

右側下方有一个button“Download ZIP"。点击下载源码elasticsearch-analysis-ik-master.zip。

2、解压文件elasticsearch-analysis-ik-master.zip，进入下载文件夹，运行命令：

unzip elasticsearch-analysis-ik-master.zip

3、将解压文件夹文件里config/ik文件夹拷贝到ES安装文件夹config文件夹下。

4、由于是源码。此处须要使用maven打包，进入解压文件夹中，运行命令：

mvn clean package

5、将打包得到的jar文件elasticsearch-analysis-ik-1.2.8-sources.jar拷贝到ES安装文件夹的lib文件夹下。

6、在ES的配置文件config/elasticsearch.yml中添加ik的配置。在最后添加：

index:

  analysis:

    analyzer:

      ik:

          alias: [ik_analyzer]

          type: org.elasticsearch.index.analysis.IkAnalyzerProvider

      ik_max_word:

          type: ik

          use_smart: false

      ik_smart:

          type: ik

          use_smart: true

或

index.analysis.analyzer.ik.type : “ik”

7、又一次启动elasticsearch服务，这样就完毕配置了，收入命令：

curl -XPOST  "http://localhost:9200/userinfo/_analyze?analyzer=ik&pretty=true&text=我是中国人"

測试结果例如以下：

{

tokens: [

{

token: text

start_offset: 2

end_offset: 6

type: ENGLISH

position: 1

}

{

token: 我

start_offset: 9

end_offset: 10

type: CN_CHAR

position: 2

}

{

token: 中国人

start_offset: 11

end_offset: 14

type: CN_WORD

position: 3

}

{

token: 中国

start_offset: 11

end_offset: 13

type: CN_WORD

position: 4

}

{

token: 国人

start_offset: 12

end_offset: 14

type: CN_WORD

position: 5

}

]

}

说明：

1、ES安装插件本来使用使用命令plugin来完毕。可是我本机安装ik时一直不成功，所以就使用源码打包安装了。

2、自己定义词库的方式，请參考 https://github.com/medcl/elasticsearch-analysis-ik

Elasticsearch安装中文分词插件ik的更多相关文章

如何给Elasticsearch安装中文分词器IK
安装Elasticsearch安装中文分词器IK的步骤: 1. 停止elasticsearch 2.2的服务 2. 在以下地址下载对应的elasticsearch-analysis-ik插件安装包(版 ...
ElasticSearch安装中文分词器IK
1.安装IK分词器,下载对应版本的插件,elasticsearch-analysis-ik中文分词器的开发者一直进行维护的,对应着elasticsearch的版本,所以选择好自己的版本即可.IKAna ...
Elasticsearch如何安装中文分词插件ik
elasticsearch-analysis-ik 是一款中文的分词插件,支持自定义词库. 安装步骤: 1.到github网站下载源代码,网站地址为:https://github.com/medcl/ ...
ElasticSearch-5.0.0安装中文分词插件IK
Install IK 源码地址:https://github.com/medcl/elasticsearch-analysis-ik,git clone下来. 1.compile mvn packag ...
elasticsearch安装中文分词器插件smartcn
原文:http://blog.java1234.com/blog/articles/373.html elasticsearch安装中文分词器插件smartcn elasticsearch默认分词器比 ...
如何在Elasticsearch中安装中文分词器(IK)和拼音分词器？
声明:我使用的Elasticsearch的版本是5.4.0,安装分词器前请先安装maven 一:安装maven https://github.com/apache/maven 说明: 安装maven需 ...
沉淀再出发：ElasticSearch的中文分词器ik
沉淀再出发:ElasticSearch的中文分词器ik 一.前言为什么要在elasticsearch中要使用ik这样的中文分词呢,那是因为es提供的分词是英文分词,对于中文的分词就做的非常不好了 ...
ElasticSearch 安装中文分词器
1.安装中文分词器IK 下载地址:https://github.com/medcl/elasticsearch-analysis-ik 在线下载安装: elasticsearch-plugin.bat ...
ElasticSearch安装中文分词器IKAnalyzer
# ElasticSearch安装中文分词器IKAnalyzer 本篇主要讲解如何在ElasticSearch中安装中文分词器IKAnalyzer,拆分的每个词都是我们熟知的词语,从而建立词汇与文档 ...

随机推荐

PhpStorm 本地管理提交码云和GitHub代码仓库
参考地址:https://www.yflad.cn/1766.html 1:下载Git客户端 2:打开PhpStorm,设置,Version Control → Git.配置git执行文件的路径.gi ...
[转]Js获取当前日期时间及其它操作
转载自:http://www.cnblogs.com/carekee/articles/1678041.html Js获取当前日期时间及其它操作 var myDate = new Date();myD ...
数据导出为Excel（未完）
更多详细内容 view页面: function Download() { //多个查询条件 dateStart = $("#j_dataTimeStart").datebox(&q ...
HTML5大数据可视化效果（一）彩虹爆炸图
前言 25年过去了,Brooks博士著名的“没有银弹”的论断依旧没有被打破.HTML5也是一样.但这并不妨碍HTML5是一个越来越有威力的“炸蛋”:发展迅速.势不可挡.随着HTML5技术的普及,用HT ...
数组array的常用方法简介
数组方法简介数组总共有22种方法,本文将其分为以下几类来进行详细介绍. 原数组变化:push() pop() shift() unshift() reverse() sort() splice() ...
enote笔记语言（5）——其他（ver0.2）
章节:其他 ((主:单词)) 用来醒目地强调这个句子中哪个词语作主语 sentence: ...
manacher（马拉车）算法
断断续续地看了两天的马拉车算法,可算是给搞明白了(贼开心),这算是自己搞懂的第一个算法了(23333333333333)这个算法照目前自己的理解来看,貌似就只能求个字符串中的回文串(接触这个算法是要求 ...
爬虫之BeautifulSoup库
文档:https://beautifulsoup.readthedocs.io/zh_CN/latest/ 一.开始解析库 # 安装解析库 pip3 install lxml pip3 instal ...
ndk编译libpcap 1.7.4(最终解决方法)
具体方法和测试见上一篇. 后来才知道,LIBPCAP本来就写了几套获取网卡的函数,这样就简单了.和上篇一样,把那5个文件从LINUX下托下来. 上篇忘了说了,还要将LINUX中/usr/include ...
linux下使用tomcat下载中文文件报404not find
首先,大神指路:http://bbs.csdn.net/topics/391065011?page=1 相关的一些命令: 查看当前系统字符编码:env locale 查看系统支持的字符编码:local ...

Elasticsearch安装中文分词插件ik

Elasticsearch安装中文分词插件ik的更多相关文章

随机推荐

热门专题