IK 分词器-介绍

现有问题：ES 默认对中文分词并不友好，实际上是把中文进行了每个字的分词。

# 查看ES对中文的默认分词

GET /_analyze

{

  "analyzer": "standard",

  "text": "乒乓球明年总冠军"

}

# 分词结果，是将“乒乓球明年总冠军”拆分成了“乒”、“乓”、“球”、“明”、“年”、“总”、“冠”、“军”

对此，通常我们需要为 ES 加入友好的中文分词器，如 IKAnalyzer 。

IKAnalyzer 是一个开源的、基于 Java 语言开发的、轻量级的中文分词工具包。
是一个基于 Maven 构建的项目。
具有 60 万字/秒的高速处理能力。
支持用户词典扩展定义。
下载地址：https://github.com/medcl/elasticsearch-analysis-ik/archive/v7.4.0.zip

IK 分词器-安装

环境准备：Maven

ElasticSearch 要使用 IK，就要先构建 IK 的 jar 包，这里要用到 Maven 包管理工具，而 Maven 需要 Java 环境，而 ElasticSearch 内置了 JDK，所以可以将 JAVA_HOME 设置为ElasticSearch 内置的 JDK 。

1）设置 JAVA_HOME

vi /etc/profile

# 在profile文件末尾添加

#java environment

export JAVA_HOME=/opt/elasticsearch-7.4.0/jdk

export PATH=$PATH:${JAVA_HOME}/bin

# 保存退出后，重新加载profile

source /etc/profile

2）下载 Maven 安装包

wget https://mirrors.aliyun.com/apache/maven/maven-3/3.1.1/binaries/apache-maven-3.1.1-bin.tar.gz

3）解压 Maven 安装包

tar xzf apache-maven-3.1.1-bin.tar.gz

4）设置软连接

ln -s apache-maven-3.1.1 maven

5）设置 path

打开文件：

vi /etc/profile.d/maven.sh

将下面的内容复制到文件，保存：

export MAVEN_HOME=/opt/maven

export PATH=${MAVEN_HOME}/bin:${PATH}

设置好 Maven 的路径之后，需要运行下面的命令使其生效：

source /etc/profile.d/maven.sh

6）验证 Maven 是否安装成功

mvn -v

7）将 Maven 镜像下载换成阿里云

vi /opt/apache-maven-3.1.1/conf/setting.xml

	<mirror>

        <id>alimaven</id>

        <name>aliyun maven</name>

        <url>http://maven.aliyun.com/nexus/content/groups/public/</url>

        <mirrorOf>central</mirrorOf>

    </mirror>

安装 IK 分词器

1）下载 IK

wget https://github.com/medcl/elasticsearch-analysis-ik/archive/v7.4.0.zip

2）解压 IK

# 如果本机环境没有安装 unzip

yum install zip

yum install unzip

# 解压 IK

unzip v7.4.0.zip

3）编译 jar 包

# 切换到 elasticsearch-analysis-ik-7.4.0目录

cd elasticsearch-analysis-ik-7.4.0/

#打包

mvn package

4） jar 包移动

package 执行完毕后会在当前目录下生成 target/releases 目录，将其中的 elasticsearch-analysis-ik-7.4.0.zip 拷贝到 ElasticSearch 目录下的新建的目录 plugins/analysis-ik，并解压：

#切换目录

cd /opt/elasticsearch-7.4.0/plugins/

#新建目录

mkdir analysis-ik

cd analysis-ik

#执行拷贝

cp -R /opt/elasticsearch-analysis-ik-7.4.0/target/releases/elasticsearch-analysis-ik-7.4.0.zip /opt/elasticsearch-7.4.0/plugins/analysis-ik

#执行解压

unzip /opt/elasticsearch-7.4.0/plugins/analysis-ik/elasticsearch-analysis-ik-7.4.0.zip

5）拷贝辞典

将 elasticsearch-analysis-ik-7.4.0目录下的 config 目录中的所有文件拷贝到 elasticsearch 的 config 目录：

cp -R /opt/elasticsearch-analysis-ik-7.4.0/config/* /opt/elasticsearch-7.4.0/config

6）重启 ElasticSearch

IK 分词器-使用

IK分词器有两种分词模式：ik_max_word 和 ik_smart 模式

# ik_max_word：会将文本做最细粒度的拆分。

GET /_analyze

{

  "analyzer": "ik_max_word",

  "text": "乒乓球明年总冠军"

}

# 分词结果：“乒乓球”、“乒乓”、“球”、“明年”、“总冠军”、“冠军”

# ik_smart：会做最粗粒度的拆分

GET /_analyze

{

  "analyzer": "ik_smart",

  "text": "乒乓球明年总冠军"

}

# 分词结果：“乒乓球”、“明年”、“总冠军”

由结果看出，IK 的分词效果达到我们对中文分词的要求。

IK 分词器的更多相关文章

[Linux]Linux下安装和配置solr/tomcat/IK分词器详细实例一.
在这里一下讲解着三个的安装和配置, 是因为solr需要使用tomcat和IK分词器, 这里会通过图文教程的形式来详解它们的安装和使用.注: 本文属于原创文章, 如若转载,请注明出处, 谢谢.关于设置I ...
IK分词器整合solr4.7 含同义词、切分词、停止词
转载请注明出处! IK分词器如果配置成 <fieldType name="text_ik" class="solr.TextField"> < ...
Elasticsearch5.1.1+ik分词器+HEAD插件安装小记
一.安装elasticsearch 1.首先需要安装好java,并配置好环境变量,详细教程请看 http://tecadmin.net/install-java-8-on-centos-rhel-an ...
[Linux]Linux下安装和配置solr/tomcat/IK分词器详细实例二.
为了更好的排版, 所以将IK分词器的安装重启了一篇博文, 大家可以接上solr的安装一同查看.[Linux]Linux下安装和配置solr/tomcat/IK分词器详细实例一: http://ww ...
elasticsearch 之IK分词器安装
IK分词器地址:https://github.com/medcl/elasticsearch-analysis-ik 安装好ES之后就可以安装分词器插件了记住选择ES对应的版本对应的有版本选择下载 ...
Solr和IK分词器的整合
IK分词器相对于mmseg4J来说词典内容更加丰富,但是没有mmseg4J灵活,后者可以自定义自己的词语库.IK分词器的配置过程和mmseg4J一样简单,其过程如下: 1.引入IKAnalyzer.j ...
Solr(四)Solr实现简单的类似百度搜索高亮功能-1.配置Ik分词器
配置Ik分词器一效果图二实现此功能需要添加分词器,在这里使用比较主流的IK分词器. 1 没有配置IK分词器,用solr自带的text分词它会把一句话分成单个的字. 2 配置IK分词器,的话它会 ...
如何开发自己的搜索帝国之安装ik分词器
Elasticsearch默认提供的分词器,会把每个汉字分开,而不是我们想要的根据关键词来分词,我是中国人不能简单的分成一个个字,我们更希望 “中国人”,“中国”,“我”这样的分词,这样我们就需要 ...
elasticsearch安装ik分词器
一.概要: 1.es默认的分词器对中文支持不好,会分割成一个个的汉字.ik分词器对中文的支持要好一些,主要由两种模式:ik_smart和ik_max_word 2.环境操作系统:centos es版 ...
Lucene 6.0下使用IK分词器
Lucene 6.0使用IK分词器需要修改修改IKAnalyzer和IKTokenizer. 使用时先新建一个MyIKTokenizer类,一个MyIkAnalyzer类: MyIKTokenizer ...

随机推荐

shell脚本监控网卡信息
一.简介源码地址日期:2018/6/22 介绍:显示实时输入输出流量效果图: 二.使用适用:centos6+ 语言:英文注意:无下载 wget https://raw.githubuser ...
java 多线程：线程通信-等待通知机制wait和notify方法;(同步代码块synchronized和while循环相互嵌套的差异);管道通信：PipedInputStream;PipedOutputStream;PipedWriter; PipedReader
1.等待通知机制: 等待通知机制的原理和厨师与服务员的关系很相似: 1,厨师做完一道菜的时间不确定,所以厨师将菜品放到"菜品传递台"上的时间不确定 2,服务员什么时候可以取到菜,必 ...
原生XMLHTTPResponse，jQuery-Ajax 上传文件；iframe上传图片&预览；图片验证码小案例
原生AJAX Ajax主要就是使用 [XmlHttpRequest]对象来完成请求的操作,该对象在主流浏览器中均存在(除早起的IE),Ajax首次出现IE5.5中存在(ActiveX控件) 1.Xml ...
JavaScript 中的防抖和节流
什么是防抖函数防抖(debounce):当持续触发事件时,一定时间段内没有再触发事件,事件处理函数才会执行一次,如果设定的时间到来之前,又一次触发了事件,就重新开始延时.如下图,持续触发 scrol ...
贪心——55. 跳跃游戏 && 45.跳跃游戏II
给定一个非负整数数组,你最初位于数组的第一个位置. 数组中的每个元素代表你在该位置可以跳跃的最大长度. 判断你是否能够到达最后一个位置. 示例 1: 输入: [2,3,1,1,4] 输出: true ...
JAVA实现office文档(word、excel、ppt等)、压缩包在线预览，支持禁止下载功能、支持PC和手机
我们使用的是永中的第三方服务.支持直接转换文档的线上地址,也可以直接把文档上传到官方服务器上官方文档地址:https://www.yozodcs.com/page/help.html#link152 ...
[Flink-源码分析]Blink SQL 回撤解密
因为目前我司使用的版本还是和Blink对齐的版本,所以本文还是先针对Blink中对于回撤的实现来进行源码分析. 概念回撤这个概念,是流计算中特有的,简单理解起来就是将先前的计算结果回撤,那什么场景下 ...
Linux C++获取磁盘剩余空间和可用空间
完整源码 #include <sys/statfs.h> #include <string> #include <iostream> #include <li ...
【LeetCode】991. Broken Calculator 解题报告（Python）
作者: 负雪明烛 id: fuxuemingzhu 个人博客: http://fuxuemingzhu.cn/ 目录题目描述题目大意解题方法日期题目地址:https://leetcode.c ...
【LeetCode】645. Set Mismatch 解题报告（Python）
作者: 负雪明烛 id: fuxuemingzhu 个人博客: http://fuxuemingzhu.cn/ 目录题目描述题目大意解题方法 Hash方法直接计算日期题目地址: https ...

IK 分词器