搜索引擎ElasticSearch系列（五）： ElasticSearch2.4.4 IK中文分词器插件安装

一：IK分词器简介

　　 IK Analyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始， IKAnalyzer已经推出了4个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。从3.0版本开始，IK发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。在2012版本中，IK实现了简单的分词歧义排除算法，标志着IK分词器从单纯的词典分词向模拟语义分词衍化。

IK Analyzer 2012特性:

1.采用了特有的“正向迭代最细粒度切分算法“，支持细粒度和智能分词两种切分模式；

2.在系统环境：Core2 i7 3.4G双核，4G内存，window 7 64位， Sun JDK 1.6_29 64位普通pc环境测试，IK2012具有160万字/秒（3000KB/S）的高速处理能力。

3.2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。

4.采用了多子处理器分析模式，支持：英文字母、数字、中文词汇等分词处理，兼容韩文、日文字符

5.优化的词典存储，更小的内存占用。支持用户词典扩展定义。特别的，在2012版本，词典支持中文，英文，数字混合词语。

二：默认standard分词器测试

　　1）启动es服务

　　2）打开浏览器输入： http://localhost:9200/_analyze?analyzer=standard&pretty=true&text=中华人民共和国

　　我们可以看到 “中华人民共和国” 被分成了单个汉字。

三：Ik中文分词器安装

　　插件下载： https://github.com/medcl/elasticsearch-analysis-ik

　　我们以1.10.4版本为例： http://files.cnblogs.com/files/sunyj/elasticsearch-analysis-ik-1.10.4.zip

　　1）在plugins文件夹下建ik文件夹

　　2）把下载的ik安装包解压后放到ik文件夹里，如下图：

　　3）重新启动es服务

　　4）打开浏览器输入：http://localhost:9200/_analyze?analyzer=ik&pretty=true&text=中华人民共和国

　　我们可以看到用analyzer=ik “中华人民共和国”被按中文的习惯分成了多个词组

　　Tips：

　　我们再分别输入：

　　 http://localhost:9200/_analyze?analyzer=ik_max_word&pretty=true&text=中华人民共和国国歌

　　 http://localhost:9200/_analyze?analyzer=ik_smart&pretty=true&text=中华人民共和国国歌

　　ik_max_word: 会将文本做最细粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”，会穷尽各种可能的组合；

　　ik_smart: 会做最粗粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”。

四：Ik在索引中的使用

　　新建index索引

PUT index

{

    "settings": {

        "number_of_shards": 5

    },

    "mappings": {

        "fulltext": {

            "_all": {

                "analyzer": "ik_max_word",

                "search_analyzer": "ik_max_word",

                "term_vector": "no",

                "store": "false"

            },

            "properties": {

                "content": {

                    "type": "string",

                    "analyzer": "ik_max_word",

                    "search_analyzer": "ik_max_word",

                    "include_in_all": "true",

                    "boost": 8

                }

            }

        }

    }

}

　　插入一条数据　

PUT /index/fulltext/1

{"content":"美国留给伊拉克的是个烂摊子吗"}

　　查询测试，输入

POST /index/fulltext/_search

{

    "query": {

        "match": {

            "content": "美国"

        }

    },

    "highlight": {

        "pre_tags": [

            "<tag1>",

            "<tag2>"

        ],

        "post_tags": [

            "</tag1>",

            "</tag2>"

        ],

        "fields": {

            "content": {}

        }

    }

}

　　结果如图所示：

搜索引擎ElasticSearch系列（五）： ElasticSearch2.4.4 IK中文分词器插件安装的更多相关文章

30.IK中文分词器的安装和简单使用
在之前我们学的都是英文,用的也是英文的standard分词器.从这一节开始,学习中文分词器.中国人基本上都是中文应用,很少是英文的,而standard分词器是没有办法对中文进行合理分词的,只是将每个中 ...
elasticsearch ik中文分词器的安装配置使用
安装步骤 https://github.com/medcl/elasticsearch-analysis-ik 以插件形式安装: [elsearch@localhost elasticsearch- ...
ES[7.6.x]学习笔记（七）IK中文分词器
在上一节中,我们给大家介绍了ES的分析器,我相信大家对ES的全文搜索已经有了深刻的印象.分析器包含3个部分:字符过滤器.分词器.分词过滤器.在上一节的例子,大家发现了,都是英文的例子,是吧?因为ES是 ...
【自定义IK词典】Elasticsearch之中文分词器插件es-ik的自定义词库
Elasticsearch之中文分词器插件es-ik 针对一些特殊的词语在分词的时候也需要能够识别有人会问,那么,例如: 如果我想根据自己的本家姓氏来查询,如zhouls,姓氏“周”. 如 ...
elasticsearch使用ik中文分词器
elasticsearch使用ik中文分词器一.背景二.安装 ik 分词器 1.从 github 上找到和本次 es 版本匹配上的分词器 2.使用 es 自带的插件管理 elasticsearc ...
elasticsearch ik中文分词器安装
特殊说明:灰色文字用来辅助理解的. 安装IK中文分词器我在百度上搜索了下,大多介绍的都是用maven打包下载下来的源码,这种方法也行,但是不够方便,为什么这么说? 首先需要安装maven吧?其次需要 ...
ElasticSearch速学 - IK中文分词器远程字典设置
前面已经对”IK中文分词器“有了简单的了解: 但是可以发现不是对所有的词都能很好的区分,比如: 逼格这个词就没有分出来. 词库实际上IK分词器也是根据一些词库来进行分词的,我们可以丰富这个词库. ...
Elasticsearch：IK中文分词器
Elasticsearch内置的分词器对中文不友好,只会一个字一个字的分,无法形成词语,比如: POST /_analyze { "text": "我爱北京天安门&quo ...
Elasticsearch之中文分词器插件es-ik（博主推荐）
前提什么是倒排索引? Elasticsearch之分词器的作用 Elasticsearch之分词器的工作流程 Elasticsearch之停用词 Elasticsearch之中文分词器 Elasti ...

随机推荐

Odoo中报表PDF样式出错的解决办法
如果发现生成的pdf样式不对,那可能是wkhtmltopdf没办法访问web服务器导致的.wkhtmltopdf进程使用web.base.url作为根url来生成对应文件路径,但这个地址是每次管理员登 ...
[Python 多线程] Timer定时器/延迟执行、Event事件 (七)
Timer继承子Thread类,是Thread的子类,也是线程类,具有线程的能力和特征.这个类用来定义多久执行一个函数. 它的实例是能够延迟执行目标函数的线程,在真正执行目标函数之前,都可以cance ...
ethereumjs/ethereumjs-vm-5-vm对象
1.运行文件 var Buffer = require('safe-buffer').Buffer // use for Node.js <4.5.0 var VM = require('./i ...
PL/SQL Developer修改窗口字体和大小
工具 → 首选项 → 字体 → 选择, 然后自己调节设置
JavaScript(jQuery)中的事件委托
一:什么是事件委托? 事件委托是利用事件冒泡,只指定一个事件处理程序来管理某一类型的所有事件. 二:为什么要用事件委托? 1.在JavaScript中添加到页面上的事件处理程序的个数直接关系到页面的整 ...
Oracle输出数字1-10
,) from dual connect by level<
rsync + mysql + gzip + --single-transaction
1.rsync -avz 172.16.2.61:~/vs/program/elasticsearch-5.0.0 --exclude=elasticsearch-5.0.0/data/* ./ 从其 ...
CentOS7开发环境搭建
BIOS开启VT支持查询笔记本进入BIOS的按键,启动BIOS的虚拟化设置假设安装360卫士,那么请永久关闭Intel-VT核晶防护引擎 CentOS DNS配置 Linux 下设置DNS位置有3 ...
Redhat7.2 ----team网卡绑定
我先声明一下,team和bonding是一样的作用,只不过team多了几项功能bonding没有, 做team我们要最少准备两个网卡,我们这里主要显示主备模式. 首先我们先把网卡配置文件删除 nmcl ...
【转】：Oracle Linux6.9下安装Oracle 11.2.0.4.0及psu补丁升级
为方便截图,本文操作都在vmware虚拟机上完成. 目录: 1.操作系统安装 2.数据库安装 3.PSU补丁升级卸载 part1 操作系统安装 Oracle (Enterprise) Linux ...

搜索引擎ElasticSearch系列（五）： ElasticSearch2.4.4 IK中文分词器插件安装

搜索引擎ElasticSearch系列（五）： ElasticSearch2.4.4 IK中文分词器插件安装的更多相关文章

随机推荐

热门专题