ES-IK分词器

一、安装

https://www.cnblogs.com/wudequn/p/11001382.html

https://github.com/medcl/elasticsearch-analysis-ik/（官方文档）

二、配置

IKAnalyzer.cfg.xml 这个是配置文件，其他的都是自带的分词文件。

    <!--用户可以在这里配置自己的扩展字典 -->

    <entry key="ext_dict"></entry>

     <!--用户可以在这里配置自己的扩展停止词字典-->

    <entry key="ext_stopwords"></entry>

将分词文件填入***.dic <entry key ="exyt_dict">my.dic<entry>中，在重启es。

或者

    <!--用户可以在这里配置远程扩展字典 -->

    <entry key="remote_ext_dict">words_location</entry>

    <!--用户可以在这里配置远程扩展停止词字典-->

    <entry key="remote_ext_stopwords">words_location</entry>

其中location是指一个 url，比如http://*******，该请求只需满足以下两点即可完成分词热更新。

1、该 http 请求需要返回两个头部(header)，一个是Last-Modified，一个是ETag，这两者都是字符串类型，只要有一个发生变化，该插件就会去抓取新的分词进而更新词库。

2、该 http 请求返回的内容格式是一行一个分词，换行符用\n即可。

满足上面两点要求可实现热更新分词，不需要重启 ES 实例。

三、测试

https://github.com/medcl/elasticsearch-analysis-ik/ （官网教程要是跑不通就试试下面的）

mapping相当于指定表中字段以及字段类型。这时也可以指定分词。

https://blog.csdn.net/qinyuezhan/article/details/82463340 (mapping 详解)

ik_max_word: 会将文本做最细粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”，会穷尽各种可能的组合，适合 Term Query；

ik_smart: 会做最粗粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”，适合 Phrase 查询。

http://localhost:9200/这里是索引名称/_analyze/

ES-IK分词器的更多相关文章

ES ik分词器使用技巧
match查询会将查询词分词,然后对分词的结果进行term查询. 然后默认是将每个分词term查询之后的结果求交集,所以只要分词的结果能够命中,某条数据就可以被查询出来,而分词是在新建索引时指定的,只 ...
ES系列一、CentOS7安装ES 6.3.1、集成IK分词器
Elasticsearch 6.3.1 地址: wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.3. ...
安装ik分词器以及版本和ES版本的兼容性
一.查看自己ES的版本号与之对应的IK分词器版本 https://github.com/medcl/elasticsearch-analysis-ik/blob/master/README.md 二. ...
es之IK分词器
1:默认的分析器-- standard 使用默认的分词器 curl -XGET 'http://hadoop01:9200/_analyze?pretty&analyzer=standard' ...
Elasticsearch5.1.1+ik分词器+HEAD插件安装小记
一.安装elasticsearch 1.首先需要安装好java,并配置好环境变量,详细教程请看 http://tecadmin.net/install-java-8-on-centos-rhel-an ...
elasticsearch 之IK分词器安装
IK分词器地址:https://github.com/medcl/elasticsearch-analysis-ik 安装好ES之后就可以安装分词器插件了记住选择ES对应的版本对应的有版本选择下载 ...
如何开发自己的搜索帝国之安装ik分词器
Elasticsearch默认提供的分词器,会把每个汉字分开,而不是我们想要的根据关键词来分词,我是中国人不能简单的分成一个个字,我们更希望 “中国人”,“中国”,“我”这样的分词,这样我们就需要 ...
elasticsearch安装ik分词器
一.概要: 1.es默认的分词器对中文支持不好,会分割成一个个的汉字.ik分词器对中文的支持要好一些,主要由两种模式:ik_smart和ik_max_word 2.环境操作系统:centos es版 ...
ElasticSearch6.5.0 【安装IK分词器】
不得不夸奖一下ES的周边资源,比如这个IK分词器,紧跟ES的版本,卢本伟牛逼!另外ES更新太快了吧,几乎不到半个月一个小版本就发布了!!目前已经发了6.5.2,估计我还没怎么玩就到7.0了. 下载分 ...
Elasticsearch入门之从零开始安装ik分词器
起因需要在ES中使用聚合进行统计分析,但是聚合字段值为中文,ES的默认分词器对于中文支持非常不友好:会把完整的中文词语拆分为一系列独立的汉字进行聚合,显然这并不是我的初衷.我们来看个实例: POST ...

随机推荐

Alpha冲刺（1/6)
队名:無駄無駄组长博客作业博客(5分) 以下内容一个小组共55分,看完之后对此部分整体打分张越洋过去两天完成了哪些任务如何进行团队代码的版本管理如何使用微信云开发如何使用管理微信开发团队 ...
Java GUI：将JPanel添加进JScrollPane
实现的目标: 因为在滚动框中含有很多个Java GUI 组件,因此这里采用JPanel面板包住这些组件,在用JScrollPane实现滚动问题1:布局揉在一起 JPanel有自己默认的布局方式,因此 ...
HDU 6086 Rikka with String ——（AC自动机 + DP）
这是一个AC自动机+dp的问题,在中间的串的处理可以枚举中断点来插入自动机内来实现,具体参见代码. 在这题上不止为何一直MLE,一直找不到结果(lyf相同写法的代码消耗内存较少),还好考虑到这题节点应 ...
Redis面试问答(子文章)(持续更新)
-----> 总文章入口文章目录 [-----> 总文章入口](https://blog.csdn.net/qq_37214567/article/details/90174445) ...
ubuntu之路——day4(今天主要看了神经网络的概念)
感谢两位老师做的免费公开课: 第一个是由吴恩达老师放在网易云课堂的神经网络和深度学习,比较偏理论,使用numpy包深入浅出的介绍了向量版神经网络的处理方式,当然由于视频有点老,虽然理论很好但是工具有点 ...
mysql8数据库连接kettle
1.将kettle连接mysql的包放入lib文件目录 2.修改data-integration\simple-jndi路径下的jdbc.properties配置文件,加上如下内容(kettle为数据 ...
Gated CNN 阅读笔记
之前看过TCN,稍微了解了一下语言模型,这篇论文也是对语言模型建模,但是由于对语言模型了解不深,一些常用数据处理方法,训练损失的计算包括残差都没有系统的看过,只是参考网上代码对论文做了粗浅的复现.开学 ...
贝叶斯分类器——递增式学习partial_fit方法
版权声明:本文为博主原创文章,遵循CC 4.0 by-sa版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/weixin_39777626/articl ...
Java 从入门到进阶之路（十六）
在之前的文章我们介绍了一下 Java 中类的多态,本章我们来看一下 Java 中类的内部类. 在 Java 中,内部类分为成员内部类和匿名内部类. 我们先来看一下成员内部类: 1.类中套类,外面的叫外 ...
HmacSHA256摘要算法
mac(Message Authentication Code,消息认证码算法)是含有密钥散列函数算法,兼容了MD和SHA算法的特性,并在此基础上加上了密钥. 甲乙双方进行数据交换可以采取如下流程完成 ...