Install IK

源码地址：https://github.com/medcl/elasticsearch-analysis-ik，git clone下来。

1.compile

mvn package

copy and unzip target/releases/elasticsearch-analysis-ik-{version}.zip to your-es-root/plugins/ik

2.restart elasticsearch

Tips:

ik_max_word: 会将文本做最细粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”，会穷尽各种可能的组合；

ik_smart: 会做最粗粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”。

Changes

5.0.0

移除名为 ik 的analyzer和tokenizer,请分别使用 ik_smart 和 ik_max_word

IK与Elasticsearch-5.0.0的集成步骤

1.创建索引m8：

PUT 'http://localhost:9200/m8'

2.为索引（m8）及类型（logs）下的字段（message）设置分词器（分词器可选ik_smart或ik_max_word）：

PUT localhost:/m8 -d '

{

    "settings" : {

        "analysis" : {

            "analyzer" : {

                "ik" : {

                    "tokenizer" : "ik_smart"

                }

            }

        }

    },

    "mappings" : {

        "logs" : {

            "dynamic" : true,

            "properties" : {

                "message" : {

                    "type" : "string",

                    "analyzer" : "ik_smart"

                }

            }

        }

    }

}'

关于两种不同分词的用处以及区别：
2.1.使用方面的不同：

其中我们在做索引的时候，希望能将所有的句子切分的更详细，以便更好的搜索，所以ik_max_word更多的用在做索引的时候，但是在搜索的时候，对于用户所输入的query(查询)词，我们可能更希望得比较准确的结果，例如，我们搜索“无花果”的时候，更希望是作为一个词进行查询，而不是切分为"无"，“花”，“果”三个词进行结果的召回，因此ik_smart更加常用语对于输入词的分析。
2.2.效率方面的不同：

ik_max_word分词相对来说效率更加迅速，而ik_smart的效率比不上ik_max_word(个人做索引的时候将两种分词器进行尝试得出的结果，有误的话，望指正)

3.用logstash-5.0.0上传数据：

logstash -f ../config/input-file.conf

4.测试分词效果：

POST http://localhost:9200/m8/_analyze?analyzer=ik_smart&text=中文分词

效果：

5.查询测试：

GET http://localhost:9200/m8/_search?q=中国

效果：

ElasticSearch-5.0.0安装中文分词插件IK的更多相关文章

Elasticsearch安装中文分词插件ik
Elasticsearch默认提供的分词器,会把每一个汉字分开,而不是我们想要的依据关键词来分词.比如: curl -XPOST "http://localhost:9200/userinf ...
Elasticsearch如何安装中文分词插件ik
elasticsearch-analysis-ik 是一款中文的分词插件,支持自定义词库. 安装步骤: 1.到github网站下载源代码,网站地址为:https://github.com/medcl/ ...
如何给Elasticsearch安装中文分词器IK
安装Elasticsearch安装中文分词器IK的步骤: 1. 停止elasticsearch 2.2的服务 2. 在以下地址下载对应的elasticsearch-analysis-ik插件安装包(版 ...
如何在Elasticsearch中安装中文分词器(IK)和拼音分词器？
声明:我使用的Elasticsearch的版本是5.4.0,安装分词器前请先安装maven 一:安装maven https://github.com/apache/maven 说明: 安装maven需 ...
ElasticSearch(三) ElasticSearch中文分词插件IK的安装
正因为Elasticsearch 内置的分词器对中文不友好,会把中文分成单个字来进行全文检索,所以我们需要借助中文分词插件来解决这个问题. 一.安装maven管理工具 Elasticsearch 要使 ...
ElasticSearch 中文分词插件ik 的使用
下载 IK 的版本要与 Elasticsearch 的版本一致,因此下载 7.1.0 版本. 安装 1.中文分词插件下载地址:https://github.com/medcl/elasticsearc ...
ElasticSearch安装中文分词器IK
1.安装IK分词器,下载对应版本的插件,elasticsearch-analysis-ik中文分词器的开发者一直进行维护的,对应着elasticsearch的版本,所以选择好自己的版本即可.IKAna ...
【elasticsearch】（3）centos7 安装中文分词插件elasticsearch-analyzer-ik
前言 elasticsearch(下面简称ES,安装ES点击这里)的自带standard分词只能把汉语分割成一个个字,而不能分词.分段,这就是我们需要分析器ik的地方了. 一.下载ik的相应版本查看 ...
elasticsearch安装与使用（3）-- 安装中文分词插件elasticsearch-analyzer-ik
前言 elasticsearch(下面简称ES,安装ES点击这里)的自带standard分词只能把汉语分割成一个个字,而不能分词.分段,这就是我们需要分析器ik的地方了. http://{ip}:92 ...

随机推荐

ORACLE AWR结合ASH诊断分析enq: TX - row lock contention
公司用户反馈一系统在14:00~15:00(2016-08-16)这个时间段反应比较慢,于是生成了这个时间段的AWR报告, 如上所示,通过Elapsed Time和DB Time对比分析,可以看出在这 ...
TCP三次握手建立连接
基本过程: ISN(初始序号)随时间变化,每一个连接具有不同的ISN,防止在网络延迟中分组被重新发送. 请求端发送SYN(同步序号 )=1,seq=ISN(32bits序号,每4ms+ ...
浅谈Java中的Set、List、Map的区别（转）
对JAVA的集合的理解是想对于数组: 数组是大小固定的,并且同一个数组只能存放类型一样的数据(基本类型/引用类型),JAVA集合可以存储和操作数目不固定的一组数据. 所有的JAVA集合都位于 java ...
记SQL SERVER一次诡异的优化
最近做的项目快上线了,在做了一次压力测试后发现了不少问题,基本都是因为数据量达到一定级别时(预测系统上线10年后的数据量)SQL查询超时,其中有些是因为索引缺失.有些是因为写法不好,这些在有经验的人眼 ...
QT210 android2.3 和android4.0 烧写编译日记
QT210下载烧录编译android2.3过程工作环境:ubuntu12.04.5 | QT210开发板光盘 | QT210开发板 android2.3编译环境:gcc version 4.4.7 ...
Oracle数据库穿越防火墙访问
原因 Oracle listener 只起一个中介作用,当客户连接它时,它根据配置寻找到相应的数据库实例进程,然后spawned一个新的数据库连接,这个连接端口由listener传递给客户机,此后客户 ...
2016.10.29 清北学堂NOIP冲刺班Day1 AM 考试总结
成绩:满分300,我得了200, 1:90//前两个题目都是模拟,没用到什么其他算法,第一题有可能少考虑了一点细节 2:100 3:10//感觉是个DP,但是毫无思路,只打了个普通背包,10分而已. ...
return和finally的执行和联系
1.try{}里有一个return语句,那么紧跟在这个try后的finally {}里的code会不会被执行,什么时候被执行,在return前还是后? 也许你的答案是在return之前,但往更细地说, ...
python-异常处理
一.异常异常是什么? 就是影响程序正常执行的事件,异常在程序执行的过程中发生,脚本发生异常时,我们需要捕获它,否则程序就会终止. 异常处理: 1.捕获异常:try:...except ..... w ...
提高Axure设计效率的10条建议
http://www.woshipm.com/ucd/92153.html Axure 是创建软件原型的快速有力的工具.上手很容易,但是,其中存在一个危险.这款软件是如此的直观以至于很多用户可以在没有 ...

ElasticSearch-5.0.0安装中文分词插件IK

Install IK

IK与Elasticsearch-5.0.0的集成步骤

ElasticSearch-5.0.0安装中文分词插件IK的更多相关文章

随机推荐

热门专题