安装

1）方式一：

a. 下载对应的release安装包，最新release包可从baidu盘下载（链接:https://pan.baidu.com/s/1mFPNJXgiTPzZeqEjH_zifw 密码:i0o7）

b. 执行如下命令安装，其中PATH为插件包绝对路径：

./bin/elasticsearch-plugin install file://${PATH}

2）方式二：

a. 使用elasticsearch插件脚本安装command如下：

./bin/elasticsearch-plugin install https://github.com/KennFalcon/elasticsearch-analysis-hanlp/releases/download/v7.4.2/elasticsearch-analysis-hanlp-7.4.2.zip

安装完后，我们可以使用如下的方式来验证我们的安装是否成功：

    $ ./bin/elasticsearch-plugin list

    analysis-hanlp

如果我们安装时成功的话，我们可以看到上面的输出。

安装数据包

release包中存放的为HanLP源码中默认的分词数据，若要下载完整版数据包，请查看HanLP Release。

数据包目录：ES_HOME/plugins/analysis-hanlp

注：因原版数据包自定义词典部分文件名为中文，这里的hanlp.properties中已修改为英文，请对应修改文件名

重启Elasticsearch

注：上述说明中的ES_HOME为自己的ES安装路径，需要绝对路径。

这一步非常重要。如果我们不重新启动，新安装的分词器将不会工作。

热更新

在本版本中，增加了词典热更新，修改步骤如下：

a. 在ES_HOME/plugins/analysis-hanlp/data/dictionary/custom目录中新增自定义词典

b. 修改hanlp.properties，修改CustomDictionaryPath，增加自定义词典配置

c. 等待1分钟后，词典自动加载

注：每个节点都需要做上述更改

提供的分词方式说明

hanlp: hanlp默认分词
hanlp_standard: 标准分词
hanlp_index: 索引分词
hanlp_nlp: NLP分词
hanlp_n_short: N-最短路分词
hanlp_dijkstra: 最短路分词
hanlp_crf: CRF分词（已有最新方式）
hanlp_speed: 极速词典分词

我们来做一个简单的例子：

    GET _analyze

    {

      "text": "美国阿拉斯加州发生8.0级地震",

      "tokenizer": "hanlp"

    }

那么显示的结果为：

    {

      "tokens" : [

        {

          "token" : "美国",

          "start_offset" : 0,

          "end_offset" : 2,

          "type" : "nsf",

          "position" : 0

        },

        {

          "token" : "阿拉斯加州",

          "start_offset" : 2,

          "end_offset" : 7,

          "type" : "nsf",

          "position" : 1

        },

        {

          "token" : "发生",

          "start_offset" : 7,

          "end_offset" : 9,

          "type" : "v",

          "position" : 2

        },

        {

          "token" : "8.0",

          "start_offset" : 9,

          "end_offset" : 12,

          "type" : "m",

          "position" : 3

        },

        {

          "token" : "级",

          "start_offset" : 12,

          "end_offset" : 13,

          "type" : "q",

          "position" : 4

        },

        {

          "token" : "地震",

          "start_offset" : 13,

          "end_offset" : 15,

          "type" : "n",

          "position" : 5

        }

      ]

    }

更多详细阅读，请参阅链接https://github.com/KennFalcon/elasticsearch-analysis-hanlp

Elasticsearch：hanlp 中文分词器的更多相关文章

elasticsearch教程--中文分词器作用和使用
概述本文都是基于elasticsearch安装教程中的elasticsearch安装目录(/opt/environment/elasticsearch-6.4.0)为范例环境准备 ·全新最小 ...
如何给Elasticsearch安装中文分词器IK
安装Elasticsearch安装中文分词器IK的步骤: 1. 停止elasticsearch 2.2的服务 2. 在以下地址下载对应的elasticsearch-analysis-ik插件安装包(版 ...
【自定义IK词典】Elasticsearch之中文分词器插件es-ik的自定义词库
Elasticsearch之中文分词器插件es-ik 针对一些特殊的词语在分词的时候也需要能够识别有人会问,那么,例如: 如果我想根据自己的本家姓氏来查询,如zhouls,姓氏“周”. 如 ...
Elasticsearch之中文分词器插件es-ik（博主推荐）
前提什么是倒排索引? Elasticsearch之分词器的作用 Elasticsearch之分词器的工作流程 Elasticsearch之停用词 Elasticsearch之中文分词器 Elasti ...
沉淀再出发：ElasticSearch的中文分词器ik
沉淀再出发:ElasticSearch的中文分词器ik 一.前言为什么要在elasticsearch中要使用ik这样的中文分词呢,那是因为es提供的分词是英文分词,对于中文的分词就做的非常不好了 ...
Elasticsearch之中文分词器
前提什么是倒排索引? Elasticsearch之分词器的作用 Elasticsearch之分词器的工作流程 Elasticsearch之停用词 Elasticsearch的中文分词器 1.单字分词 ...
Elasticsearch之中文分词器插件es-ik的自定义热更新词库
不多说,直接上干货! 欢迎大家,关注微信扫码并加入我的4个微信公众号: 大数据躺过的坑 Java从入门到架构师人工智能躺过的坑 Java全栈大联盟 ...
elasticsearch安装中文分词器插件smartcn
原文:http://blog.java1234.com/blog/articles/373.html elasticsearch安装中文分词器插件smartcn elasticsearch默认分词器比 ...
ElasticSearch安装中文分词器IKAnalyzer
# ElasticSearch安装中文分词器IKAnalyzer 本篇主要讲解如何在ElasticSearch中安装中文分词器IKAnalyzer,拆分的每个词都是我们熟知的词语,从而建立词汇与文档 ...

随机推荐

kotlin之基本数据类型
数据类型占用字节数 Double 8 Float 4 Long 4 Int 4 Short 2 Byte 1 数据类型之间的转换 toByte():转换为 ...
正向代理与反向代理以及Nginx【总结】(转)
今天在了解Nginx的时候,涉及到反向代理的问题,看到一篇博文写的清晰明了,转载记录一下,后续继续学习,再次感谢博主的分享. 原文地址:https://www.cnblogs.com/Anker/p/ ...
OpenvSwitch/OpenFlow 架构解析与实践案例
目录文章目录目录前言软件定义网络(SDN) 虚拟交换机(vSwitch) 为什么说云计算时代的 SDN 非常重要 OpenFlow 简介 Open vSwitch Open vSwitch 的 ...
437路径总和III
题目: 给定一个二叉树,它的每个结点都存放着一个整数值.找出路径和等于给定数值的路径总数.路径不需要从根节点开始,也不需要在叶子节点结束,但是路径方向必须是向下的(只能从父节点到子节点).来源: ht ...
Linux 常用命令之 mv cp scp
1.mv 命令是move的缩写,用于文件(或文件夹)移动的. 1)将 luna 目录下的文件 a.txt,移动到 miracle 目录下: mv ./luna/a.txt ./miracle/ 2)将 ...
C#使用NPOI读写excel
本帖内容来自网络+自己稍作整理,已找不到原贴,侵删个人比较习惯用NPOI操作excel,方便易理解.在宇宙第一IDE(笑)——VS2017中插入NPOI就很方便: 首先安装NPOI: 然后在.cs文 ...
python基础-python函数参数为print语句时的输出
函数参数输入print语句,调用函数时都会执行print语句,实例: def outer(func): def inner(): print("我是内层函数!") return i ...
AGC035 B - Even Degrees【思维·树形结构的妙用】
题目传送门一句话题意: 首先,每一条边会产生1个入度,1个出度,因此,如果边的数量是奇数的话,图的所有节点的总出度就是奇数,不可能每个节点的出度都是偶数,因此无解. 有解时,我们先找出原图中的一棵生 ...
[JS] 文本框判断输入的内容是否为数字
可以通过触发文本框的onchange事件来对输入的内容进行判断是否为数字文本框的属性设置: 把onchange的属性对应的js函数写好即可参数传输的是当前控件的value值,即text值 < ...
小记---------idea新手操作
加载jar包 file---project structrue ---modules---dependencies---- 点+号选择idea软件的位置的lib 添加自带的jar包,or ...

Elasticsearch：hanlp 中文分词器

安装

安装数据包

重启Elasticsearch

热更新

Elasticsearch：hanlp 中文分词器的更多相关文章

随机推荐

热门专题