ElasticSearch速学 - IK中文分词器远程字典设置

前面已经对”IK中文分词器“有了简单的了解：

但是可以发现不是对所有的词都能很好的区分，比如：

逼格这个词就没有分出来。

词库

实际上IK分词器也是根据一些词库来进行分词的，我们可以丰富这个词库。
IK分词器(IK Analysis for Elasticsearch)给了我们一个基本的配置：
https://github.com/medcl/elasticsearch-analysis-ik

修改我们es实例中ik插件的配置：

cd elasticsearch-5.3.0/plugins/ik/config/

main.dic是住词库，stopword是停用词库（把一些错误的分词加入进来，之后不会再被分词了）；custom目录中是我们的自定义词库。
这些词库都是本地词库。可以参考配置文档来设置。

热更新 IK 分词使用方法

官方文档：
https://github.com/medcl/elasticsearch-analysis-ik

我们来配置一下：

#进入es实例找到ik插件的配置文件

elasticsearch-5.3.0/plugins/ik/config

#编辑配置文件

vi IKAnalyzer.cfg.xml

内容：

<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">

<properties>

    <comment>IK Analyzer 扩展配置</comment>

    <!--用户可以在这里配置自己的扩展字典 -->

    <entry key="ext_dict">custom/mydict.dic;custom/single_word_low_freq.dic</entry>

     <!--用户可以在这里配置自己的扩展停止词字典-->

    <entry key="ext_stopwords">custom/ext_stopword.dic</entry>

    <!--用户可以在这里配置远程扩展字典 -->

    <entry key="remote_ext_dict">http://10.211.55.13/api/DictApi/GetDictionary</entry>

    <!--用户可以在这里配置远程扩展停止词字典-->

    <!-- <entry key="remote_ext_stopwords">words_location</entry> -->

</properties>

/api/DictApi/GetDictionary：

ElasticSearch速学 - IK中文分词器远程字典设置的更多相关文章

es（elasticsearch）安装IK中文分词器
IK压缩包下载地址:https://github.com/medcl/elasticsearch-analysis-ik/releases?after=v6.7.0,需要下载对应的版本我也上传了 h ...
30.IK中文分词器的安装和简单使用
在之前我们学的都是英文,用的也是英文的standard分词器.从这一节开始,学习中文分词器.中国人基本上都是中文应用,很少是英文的,而standard分词器是没有办法对中文进行合理分词的,只是将每个中 ...
ElasticSearch搜索引擎安装配置中文分词器IK插件
近几篇ElasticSearch系列: 1.阿里云服务器Linux系统安装配置ElasticSearch搜索引擎 2.Linux系统中ElasticSearch搜索引擎安装配置Head插件 3.Ela ...
elasticsearch使用ik中文分词器
elasticsearch使用ik中文分词器一.背景二.安装 ik 分词器 1.从 github 上找到和本次 es 版本匹配上的分词器 2.使用 es 自带的插件管理 elasticsearc ...
elasticsearch ik中文分词器安装
特殊说明:灰色文字用来辅助理解的. 安装IK中文分词器我在百度上搜索了下,大多介绍的都是用maven打包下载下来的源码,这种方法也行,但是不够方便,为什么这么说? 首先需要安装maven吧?其次需要 ...
Elasticsearch：IK中文分词器
Elasticsearch内置的分词器对中文不友好,只会一个字一个字的分,无法形成词语,比如: POST /_analyze { "text": "我爱北京天安门&quo ...
搜索引擎ElasticSearch系列（五）： ElasticSearch2.4.4 IK中文分词器插件安装
一:IK分词器简介 IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包.从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本.最初,它是以开源 ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十九）ES6.2.2 安装Ik中文分词器
注: elasticsearch 版本6.2.2 1)集群模式,则每个节点都需要安装ik分词,安装插件完毕后需要重启服务,创建mapping前如果有机器未安装分词,则可能该索引可能为RED,需要删除后 ...
ES-Mac OS环境搭建-ik中文分词器
下载从github下载ik中文分词器,点击地址,需要注意的是,ik分词器和elasticsearch版本必须一致. 安装下载到本地并解压到elasticsearch中的plugins目录内即可. ...

随机推荐

manjaro i3 配置笔记
更改国内源 sudo pacman-mirrors -GB testing -c China 增加Arch linuxcn源在/etc/pacman.conf文件末尾添加两行: [archlinux ...
ubuntu17.10 安装ssh
sudo apt-get install openssh-server sudo /etc/init.d/ssh start
UNITY 多SCENE加载与编辑
Unity内部场景的加载分为两步: Loading.是指从文件.内存(主要是Streamed scene AssetBundle)中加载Scene的内容,创建并读取所有相关的Game objects. ...
从值栈获取List集合
-------------------siwuxie095 从值栈获取 List 集合 1.具体步骤 (1)在 Action 中向值栈放 List 集合 (2)在 JSP 页面中从值栈获取 List ...
leetcode 235 236 二叉树两个节点的最近公共祖先
描述: 给定二叉树两个节点,求其最近公共祖先.最近即所有公共祖先中深度最深的. ps:自身也算自身的祖先. 235题解决: 这是二叉搜索树,有序的,左边小右边大. TreeNode* lowestCo ...
IPMI设置与使用（远程控制服务器）
如果服务器crash了或者就hang住了,我们不必要跑到机房去按电源键的,因为我们也想“运筹帷幄之中,决胜千里之外”嘛.我们可以用IPMI,它可以让我们远程用一条命令开启(关闭.重启)一台服务器,也可 ...
import c++ project to eclipse cdt with exiting makefile
Step 2: You are now ready to build your project. To build your project, select Project > Build Pr ...
o7 文件和函数
一:文件 1 控制文件内指针的移动文件内指针移动,只有在t模式下的read(n),n代表的字符的个数除此之外文件内指针的移动都是以字节为单位的 with open('a.txt',mode ='r ...
HDU 6065 RXD, tree and sequence (LCA+DP)
题意:给定上一棵树和一个排列,然后问你把这个排列分成m个连续的部分,每个部分的大小的是两两相邻的LCA的最小深度,问你最小是多少. 析:首先这个肯定是DP,然后每个部分其实就是里面最小的那个LCA的深 ...
Git 客户端基本配置
Welcome to Git (version -preview20140611) Run 'git help git' to display the help index. Run 'git hel ...

ElasticSearch速学 - IK中文分词器远程字典设置

词库

热更新 IK 分词使用方法

ElasticSearch速学 - IK中文分词器远程字典设置的更多相关文章

随机推荐

热门专题