搜索引擎ElasticSearch系列（五）： ElasticSearch2.4.4 IK中文分词器插件安装

一：IK分词器简介

　　 IK Analyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始， IKAnalyzer已经推出了4个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。从3.0版本开始，IK发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。在2012版本中，IK实现了简单的分词歧义排除算法，标志着IK分词器从单纯的词典分词向模拟语义分词衍化。

IK Analyzer 2012特性:

1.采用了特有的“正向迭代最细粒度切分算法“，支持细粒度和智能分词两种切分模式；

2.在系统环境：Core2 i7 3.4G双核，4G内存，window 7 64位， Sun JDK 1.6_29 64位普通pc环境测试，IK2012具有160万字/秒（3000KB/S）的高速处理能力。

3.2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。

4.采用了多子处理器分析模式，支持：英文字母、数字、中文词汇等分词处理，兼容韩文、日文字符

5.优化的词典存储，更小的内存占用。支持用户词典扩展定义。特别的，在2012版本，词典支持中文，英文，数字混合词语。

二：默认standard分词器测试

　　1）启动es服务

　　2）打开浏览器输入： http://localhost:9200/_analyze?analyzer=standard&pretty=true&text=中华人民共和国

　　我们可以看到 “中华人民共和国” 被分成了单个汉字。

三：Ik中文分词器安装

　　插件下载： https://github.com/medcl/elasticsearch-analysis-ik

　　我们以1.10.4版本为例： http://files.cnblogs.com/files/sunyj/elasticsearch-analysis-ik-1.10.4.zip

　　1）在plugins文件夹下建ik文件夹

　　2）把下载的ik安装包解压后放到ik文件夹里，如下图：

　　3）重新启动es服务

　　4）打开浏览器输入：http://localhost:9200/_analyze?analyzer=ik&pretty=true&text=中华人民共和国

　　我们可以看到用analyzer=ik “中华人民共和国”被按中文的习惯分成了多个词组

　　Tips：

　　我们再分别输入：

　　 http://localhost:9200/_analyze?analyzer=ik_max_word&pretty=true&text=中华人民共和国国歌

　　 http://localhost:9200/_analyze?analyzer=ik_smart&pretty=true&text=中华人民共和国国歌

　　ik_max_word: 会将文本做最细粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”，会穷尽各种可能的组合；

　　ik_smart: 会做最粗粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”。

四：Ik在索引中的使用

　　新建index索引

PUT index

{

    "settings": {

        "number_of_shards": 5

    },

    "mappings": {

        "fulltext": {

            "_all": {

                "analyzer": "ik_max_word",

                "search_analyzer": "ik_max_word",

                "term_vector": "no",

                "store": "false"

            },

            "properties": {

                "content": {

                    "type": "string",

                    "analyzer": "ik_max_word",

                    "search_analyzer": "ik_max_word",

                    "include_in_all": "true",

                    "boost": 8

                }

            }

        }

    }

}

　　插入一条数据　

PUT /index/fulltext/1

{"content":"美国留给伊拉克的是个烂摊子吗"}

　　查询测试，输入

POST /index/fulltext/_search

{

    "query": {

        "match": {

            "content": "美国"

        }

    },

    "highlight": {

        "pre_tags": [

            "<tag1>",

            "<tag2>"

        ],

        "post_tags": [

            "</tag1>",

            "</tag2>"

        ],

        "fields": {

            "content": {}

        }

    }

}

　　结果如图所示：

搜索引擎ElasticSearch系列（五）： ElasticSearch2.4.4 IK中文分词器插件安装的更多相关文章

30.IK中文分词器的安装和简单使用
在之前我们学的都是英文,用的也是英文的standard分词器.从这一节开始,学习中文分词器.中国人基本上都是中文应用,很少是英文的,而standard分词器是没有办法对中文进行合理分词的,只是将每个中 ...
elasticsearch ik中文分词器的安装配置使用
安装步骤 https://github.com/medcl/elasticsearch-analysis-ik 以插件形式安装: [elsearch@localhost elasticsearch- ...
ES[7.6.x]学习笔记（七）IK中文分词器
在上一节中,我们给大家介绍了ES的分析器,我相信大家对ES的全文搜索已经有了深刻的印象.分析器包含3个部分:字符过滤器.分词器.分词过滤器.在上一节的例子,大家发现了,都是英文的例子,是吧?因为ES是 ...
【自定义IK词典】Elasticsearch之中文分词器插件es-ik的自定义词库
Elasticsearch之中文分词器插件es-ik 针对一些特殊的词语在分词的时候也需要能够识别有人会问,那么,例如: 如果我想根据自己的本家姓氏来查询,如zhouls,姓氏“周”. 如 ...
elasticsearch使用ik中文分词器
elasticsearch使用ik中文分词器一.背景二.安装 ik 分词器 1.从 github 上找到和本次 es 版本匹配上的分词器 2.使用 es 自带的插件管理 elasticsearc ...
elasticsearch ik中文分词器安装
特殊说明:灰色文字用来辅助理解的. 安装IK中文分词器我在百度上搜索了下,大多介绍的都是用maven打包下载下来的源码,这种方法也行,但是不够方便,为什么这么说? 首先需要安装maven吧?其次需要 ...
ElasticSearch速学 - IK中文分词器远程字典设置
前面已经对”IK中文分词器“有了简单的了解: 但是可以发现不是对所有的词都能很好的区分,比如: 逼格这个词就没有分出来. 词库实际上IK分词器也是根据一些词库来进行分词的,我们可以丰富这个词库. ...
Elasticsearch：IK中文分词器
Elasticsearch内置的分词器对中文不友好,只会一个字一个字的分,无法形成词语,比如: POST /_analyze { "text": "我爱北京天安门&quo ...
Elasticsearch之中文分词器插件es-ik（博主推荐）
前提什么是倒排索引? Elasticsearch之分词器的作用 Elasticsearch之分词器的工作流程 Elasticsearch之停用词 Elasticsearch之中文分词器 Elasti ...

随机推荐

[转]OpenGL与CUDA互操作方式总结
一.介绍 CUDA是Nvidia推出的一个通用GPU计算平台,对于提升并行任务的效率非常有帮助.本人主管的项目中采用了OpenGL做图像渲染,但是在数据处理方面比较慢,导致帧率一直上不来.于是就尝试把 ...
BootStrap启动类
来源本文整理自 <Tomcat内核设计剖析>.<Tomcat结构解析> 加上自己的理解.源码来自 Tomcat8.5 版本 // org.apache.catalina.st ...
PAT——1049. 数列的片段和
给定一个正数数列,我们可以从中截取任意的连续的几个数,称为片段.例如,给定数列{0.1, 0.2, 0.3, 0.4},我们有(0.1) (0.1, 0.2) (0.1, 0.2, 0.3) (0.1 ...
HDU 1233 还是畅通工程（Kruskal算法）
题目链接: http://acm.hdu.edu.cn/showproblem.php?pid=1233 还是畅通工程 Time Limit: 4000/2000 MS (Java/Others) ...
DPI在SDN中的部署方式
目录在sdn中的部署分类将DPI部署到基础设施层将DPI部署到控制层将DPI部署到应用层个人总结参考文献在sdn中的部署分类 DPI 可以分别部署到SDN的基础设施层.控制层和应用层. ...
04_Docker入门（下）之docker镜像和仓库的使用
docker镜像和仓库镜像介绍 docker镜像是由文件系统叠加而成的.最低端是一个引导文件系统,即bootfs.当一个容器启动后,它会将被移动到内存中,而引导文件系统则会被卸载,以留出更多的内存以 ...
python2.7下使用logging模块记录日志到终端显示乱码问题解决
刚才翻了翻2年以前用python2.7写的一个爬虫程序,主要功能就是把各地市知识产权局/专利局网站的专利相关项目.课题通知,定期爬取和分析,辅助企业进行项目申请. 这里要谈的不是爬虫功能的实现,而是今 ...
python3爬虫-通过requests获取拉钩职位信息
import requests, json, time, tablib def send_ajax_request(data: dict): try: ajax_response = session. ...
OpenStack(queens)最小化搭建记录——控制与计算共两个节点
境: 2台安装了centos7-minimal的主机 ip地址: 10.132.226.103/24 (controller) 10.132.226.104/24 (compute1) 1.配置主机名 ...
CentOS7.6离线安装JDK1.8
卸载CentOS自带的openJDK: 查看openJDK命令:rpm -qa|grep java 结果: java-1.8.0-openjdk-headless-1.8.0.181-7.b13.el ...

搜索引擎ElasticSearch系列（五）： ElasticSearch2.4.4 IK中文分词器插件安装

搜索引擎ElasticSearch系列（五）： ElasticSearch2.4.4 IK中文分词器插件安装的更多相关文章

随机推荐

热门专题