IK简介

IK Analyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始， IKAnalyzer已经推出了4个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。从3.0版本开始，IK发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。在2012版本中，IK实现了简单的分词歧义排除算法，标志着IK分词器从单纯的词典分词向模拟语义分词衍化。

IK Analyzer 2012特性:

采用了特有的“正向迭代最细粒度切分算法“，支持细粒度和智能分词两种切分模式；
在系统环境：Core2 i7 3.4G双核，4G内存，window 7 64位， Sun JDK 1.6_29 64位普通pc环境测试，IK2012具有160万字/秒（3000KB/S）的高速处理能力。
2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。
采用了多子处理器分析模式，支持：英文字母、数字、中文词汇等分词处理，兼容韩文、日文字符
优化的词典存储，更小的内存占用。支持用户词典扩展定义。特别的，在2012版本，词典支持中文，英文，数字混合词语。

安装

编译打包

克隆远程库到本地

$ git clone https://github.com/medcl/elasticsearch-analysis-ik

$ cd elasticsearch-analysis-ik

查看tag列表

$ git tag

检出与elasticsearch版本相匹配的版本

$ git checkout tags/{version}

打包

$ mvn clean

$ mvn compile

$ mvn package

手动安装

解压到plugins/ik目录

$ unzip target/releases/elasticsearch-analysis-ik-{version}.zip ES_HOME/plugins/ik

注意：

ES_HOME为ES对应安装目录
version为选择的ik版本号

重启elasticsearch

备注:

ik_max_word: 会将文本做最细粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”，会穷尽各种可能的组合；
ik_smart: 会做最粗粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”。

测试案例

创建索引

curl -XPUT http://localhost:9200/index

创建mapping

curl -XPOST http://localhost:9200/index/fulltext/_mapping -d'

{

"fulltext": {

"_all": {

"analyzer": "ik_max_word",

"search_analyzer": "ik_max_word",

"term_vector": "no",

"store": "false"

},

"properties": {

"content": {

"type": "string",

"store": "no",

"term_vector": "with_positions_offsets",

"analyzer": "ik_max_word",

"search_analyzer": "ik_max_word",

"include_in_all": "true",

"boost": 8

}

}

}

}'

插入测试数据

curl -XPOST http://localhost:9200/index/fulltext/1 -d'

{"content":"美国留给伊拉克的是个烂摊子吗"}

'

curl -XPOST http://localhost:9200/index/fulltext/2 -d'

{"content":"公安部：各地校车将享最高路权"}

'

curl -XPOST http://localhost:9200/index/fulltext/3 -d'

{"content":"中韩渔警冲突调查：韩警平均每天扣1艘中国渔船"}

'

curl -XPOST http://localhost:9200/index/fulltext/4 -d'

{"content":"中国驻洛杉矶领事馆遭亚裔男子枪击嫌犯已自首"}

'

查询并高亮关键词

curl -XPOST http://localhost:9200/index/fulltext/_search -d'

{

"query" : { "term" : { "content" : "中国" }},

"highlight" : {

"pre_tags" : ["", ""],

"post_tags" : ["", ""],

"fields" : {

"content" : {}

}

}

}

返回结果

{

"took": 14,

"timed_out": false,

"_shards": {

"total": 5,

"successful": 5,

"failed": 0

},

"hits": {

"total": 2,

"max_score": 2,

"hits": [

{

"_index": "index",

"_type": "fulltext",

"_id": "4",

"_score": 2,

"_source": {

"content": "中国驻洛杉矶领事馆遭亚裔男子枪击嫌犯已自首"

},

"highlight": {

"content": [

"中国驻洛杉矶领事馆遭亚裔男子枪击嫌犯已自首 "

]

}

},

{

"_index": "index",

"_type": "fulltext",

"_id": "3",

"_score": 2,

"_source": {

"content": "中韩渔警冲突调查：韩警平均每天扣1艘中国渔船"

},

"highlight": {

"content": [

"均每天扣1艘中国渔船 "

]

}

}

]

}

}

IK配置说明

plugins/elasticsearch-analysis-ik-*/config/ik/IKAnalyzer.cfg.xml

IK Analyzer 扩展配置

custom/mydict.dic;custom/single_word_low_freq.dic

custom/ext_stopword.dic

location

http://xxx.com/xxx.dic

热更新 IK 分词使用方法
目前该插件支持热更新 IK 分词，通过上文在 IK 配置文件中提到的如下配置

<!--用户可以在这里配置远程扩展字典 -->

<entry key="remote_ext_dict">location</entry>

<!--用户可以在这里配置远程扩展停止词字典-->

<entry key="remote_ext_stopwords">location</entry>

其中 location 是指一个 url，比如 http://yoursite.com/getCustomDict，该请求只需满足以下两点即可完成分词热更新。

该 http 请求需要返回两个头部(header)，一个是 Last-Modified，一个是 ETag，这两者都是字符串类型，只要有一个发生变化，该插件就会去抓取新的分词进而更新词库。

该 http 请求返回的内容格式是一行一个分词，换行符用 \n 即可。

满足上面两点要求就可以实现热更新分词了，不需要重启 ES 实例。

可以将需自动更新的热词放在一个 UTF-8 编码的 .txt 文件里，放在 nginx 或其他简易 http server 下，当 .txt 文件修改时，http server 会在客户端请求该文件时自动返回相应的 Last-Modified 和 ETag。可以另外做一个工具来从业务系统提取相关词汇，并更新这个 .txt 文件。

常见问题

自定义词典为什么没有生效？

请确保你的扩展词典的文本格式为 UTF8 编码

设置elasticsearch默认分词为ik：在ES_HOME/config/elasticsearch.yml文件最后一行中增加index.analysis.analyzer.default.type: ik即可。

分词测试失败请在某个索引下调用analyze接口测试,而不是直接调用analyze接口如:http://localhost:9200/your_index/_analyze?text=中华人民共和国MN&tokenizer=my_ik

ES 1.7安装ik分词elasticsearch-analysis-ik-1.2.5的更多相关文章

Elasticsearch安装中文分词插件ik
Elasticsearch默认提供的分词器,会把每一个汉字分开,而不是我们想要的依据关键词来分词.比如: curl -XPOST "http://localhost:9200/userinf ...
windows 环境下安装elasticsearch ，ik,head,marvel
elasticsearch 自带的中分分词器将会使中文分成一个一个的单词,需要安装ik分词等,ik分词分为 ik_smart(粗粒度分词),ik_max_word(细粒度分词)两种模式. 1:首先安 ...
elasticsearch 拼音+ik分词，spring data elasticsearch 拼音分词
elasticsearch 自定义分词器安装拼音分词器.ik分词器拼音分词器: https://github.com/medcl/elasticsearch-analysis-pinyin/rel ...
如何开发自己的搜索帝国之安装ik分词器
Elasticsearch默认提供的分词器,会把每个汉字分开,而不是我们想要的根据关键词来分词,我是中国人不能简单的分成一个个字,我们更希望 “中国人”,“中国”,“我”这样的分词,这样我们就需要 ...
Windows下安装Elasticsearch6.4.1和Head，IK分词器
所需运行环境 1.安装jdk1.8(步骤略) 2.安装git(步骤略)3.安装nodejs(步骤略) 一.ElasticSearch的安装下载elasticsearch6.4.1,将下载后的es解压 ...
SpringBoot整合Elasticsearch+ik分词器+kibana
话不多说直接开整首先是版本对应,SpringBoot和ES之间的版本必须要按照官方给的对照表进行安装,最新版本对照表如下: (官网链接:https://docs.spring.io/spring-d ...
Elastic Stack 笔记（二）Elasticsearch5.6 安装 IK 分词器和 Head 插件
博客地址:http://www.moonxy.com 一.前言 Elasticsearch 作为开源搜索引擎服务器,其核心功能在于索引和搜索数据.索引是把文档写入 Elasticsearch 的过程, ...
[Linux]Linux下安装和配置solr/tomcat/IK分词器详细实例二.
为了更好的排版, 所以将IK分词器的安装重启了一篇博文, 大家可以接上solr的安装一同查看.[Linux]Linux下安装和配置solr/tomcat/IK分词器详细实例一: http://ww ...
Elasticsearch之文档的增删改查以及ik分词器
文档的增删改查增加文档使用elasticsearch-head查看修改文档使用elasticsearch-head查看删除文档使用elasticsearch-head查看查看文档的三种方 ...
IK 分词器
目录 IK 分词器-介绍 IK 分词器-安装环境准备:Maven 安装 IK 分词器 IK 分词器-使用 IK 分词器-介绍现有问题:ES 默认对中文分词并不友好,实际上是把中文进行了每个字的分词 ...

随机推荐

jsp+spring+jquery+ajax的简单例子
初学b/s编程,花费了许多时间,进度颇慢! 不过终于完成了一个简单的例子: jsp代码 <%@ page language="java" contentType=" ...
搭建两个节点的大数据集群-1.hdfs集群
0.规划两个节点: ip 部署的程序备注 192.168.56.2/bigdata.lzf namenode,datanode,NodeManager,hive,presto,mysql, ...
SpringMVC中session使用&&拦截器&&乱码处理&&异常处理
### 1. 使用Session 通常,会在Session中存放: 1. 客户端(用户)的身份标识,通常是用户的id:2. 使用频率非常高的数据,例如显示在页面中的用户名.头像等:3. 其它的不便于使 ...
win10家庭版升级为win10专业版
windows10 升级钥匙: DR9VN-GF3CR-RCWT2-H7TR8-82QGT 亲测可用
关于linux命令的说明
开始前我们必须先认识绝对路径与相对路径绝对路径是从盘符开始的路径 :例如:/etc/sysconfig/network (从根直接指到network) 相对路径是从当前自己所在位置开始的路径:例如我 ...
jquery把数组中年月相同的数组重新组成新的数组
//原数组var data = { results: [{ id:0, date:'2017-12-12', content:'123' },{ id:0, date:'2017-12-12', co ...
isolate-user-vlan隔离用户vlan的配置
lab1 根据项目需求搭建好拓扑图: 首先,配置sw2,在E0/4/0接口上创建vlan20,并将该vlan接口配置成带有ip地址的类以太接口其次,在E0/4/1接口上加入vlan2,同理,E0/4 ...
ELK 安装部署实战 (最新6.4.0版本)
一.实战背景根据公司平台的发展速度,对于ELK日志分析日益迫切.主要的需求有: 1.用户行为分析 2.运营活动点击率分析作为上述2点需求,安装最新版本6.4.0是非常有必要的,大家可根据本人之前博 ...
Python基础03
while循坏while属于条件判断条件满足====>执行条件不满足====>退出循环 whlie循环格式 while 条件 : 执行语句 while 1 == 1: print(&q ...
zabbix监控nginx服务状态
nginx需要安装--with-http_stub_status_module模块 $ nginx -V nginx version: nginx/1.12.2 built by gcc 4.8.5 ...

ES 1.7安装ik分词elasticsearch-analysis-ik-1.2.5

IK简介

https://www.cnblogs.com/yjf512/p/4789239.html

https://www.cnblogs.com/xing901022/p/5910139.html

https://blog.csdn.net/hyx1990/article/details/52892032

https://blog.csdn.net/hyx1990/article/category/6462597

https://yq.aliyun.com/articles/6786