HanLP Analysis for Elasticsearch

基于 HanLP 的 Elasticsearch 中文分词插件，核心功能：

兼容 ES 5.x-7.x；

内置词典，无需额外配置即可使用；

支持用户自定义词典；

支持远程词典热更新（待开发）；

内置多种分词模式，适合不同场景；

拼音过滤器（待开发）；

简繁体转换过滤器（待开发）。

版本

插件版本和 ES 版本一致，直接下载对应版本的插件进行安装即可。

·插件开发完成时，最新版本已经为 6.5.2 了，所以个人只对典型的版本进行了测试；

·5.X 在 5.0.0、5.5.0 版本进行了测试；

·6.X 在 6.0.0、6.3.0、6.4.1、6.5.1 版本进行了测试；

·7.X 在 7.0.0 版本进行了测试。

安装使用

下载编译

git clone 对应版本的代码，打开 pom.xml 文件，修改 <elasticsearch.version>6.5.1</elasticsearch.version> 为需要的 ES 版本；然后使用 mvn package 生产打包文件，最终文件在 target/release 文件夹下。

打包完成后，使用离线方式安装即可。

使用默认词典

·在线安装：.\elasticsearch-plugin install github.com/AnyListen/elasticsearch-analysis-hanlp/releases/download/vA.B.C/elasticsearch-analysis-hanlp-A.B.C.zip

·离线安装：.\elasticsearch-plugin install file:///FILE_PATH/elasticsearch-analysis-hanlp-A.B.C.zip

离线安装请把 FILE_PATH 更改为 zip 文件路径；A、B、C 对应的是 ES 版本号。

使用自定义词典

默认词典是精简版的词典，能够满足基本需求，但是无法使用感知机和 CRF 等基于模型的分词器。

HanLP 提供了更加完整的词典，请按需下载。

词典下载后，解压到任意目录，然后修改插件安装目录下的 hanlp.properties 文件，只需修改第一行

root=D:/JavaProjects/HanLP/

为 data 的父目录即可，比如 data 目录是 /Users/hankcs/Documents/data，那么 root=/Users/hankcs/Documents/。

使用自定义配置文件

如果你在其他地方使用了 HanLP，希望能够复用 hanlp.properties 文件，你只需要修改插件安装目录下的 plugin.properties 文件，将 configPath 配置为已有的 hanlp.properties 文件地址即可。

内置分词器

分析器(Analysis)

·hanlp_index：细粒度切分

·hanlp_smart：常规切分

·hanlp_nlp：命名实体识别

·hanlp_per：感知机分词

·hanlp_crf：CRF分词

·hanlp：自定义

分词器(Tokenizer)

·hanlp_index：细粒度切分

·hanlp_smart：常规切分

·hanlp_nlp：命名实体识别

·hanlp_per：感知机分词

·hanlp_crf：CRF分词

·hanlp：自定义

自定义分词器

插件有较为丰富的选项允许用户自定义分词器，下面是可用的配置项：

案例展示：

# 创建自定义分词器

PUT my_index

{

"settings": {

"analysis": {

"analyzer": {

"my_analyzer": {

"type": "hanlp",

"algorithm": "viterbi",

"enableIndexMode": "true",

"enableCustomDictionary": "true",

"customDictionaryPath": "",

"enableCustomDictionaryForcing": "false",

"enableStopWord": "true",

"stopWordDictionaryPath": "",

"enableNumberQuantifierRecognize": "true",

"enableNameRecognize": "true",

"enableTranslatedNameRecognize": "true",

"enableJapaneseNameRecognize": "true",

"enableOrganizationRecognize": "true",

"enablePlaceRecognize": "true",

"enableTraditionalChineseMode": "false"

}

# 测试分词器

POST my_index/_analyze

{

"analyzer": "my_analyzer",

"text": "张惠妹在上海市举办演唱会啦"

}

分词速度（仅供参考）

借助 _analyze API（1核1G单线程），通过改变分词器类型，对 2W 字的文本进行分词，以下为从请求到返回的耗时：

HanLP Analysis for Elasticsearch的更多相关文章

ElasticSearch使用IK中文分词---安装步骤记录
提示1:必须保证之前的ES中不存在index, 否则ES集群无法启动, 会提示red! 提示2:下载的IK如果太新,会报错 TokenStream被重载Caused by: java.lang.Ver ...
Elasticsearch入门教程之安装与基本使用
ubuntu16.04+elasticsearch6.5为例,参考官网文档https://www.elastic.co/guide/en/elasticsearch/reference/current ...
Elasticsearch入门之从零开始安装ik分词器
起因需要在ES中使用聚合进行统计分析,但是聚合字段值为中文,ES的默认分词器对于中文支持非常不友好:会把完整的中文词语拆分为一系列独立的汉字进行聚合,显然这并不是我的初衷.我们来看个实例: POST ...
Install elasticsearch-head: – for Elasticsearch 5.x
Running as a plugin of Elasticsearch Install elasticsearch-head:– for Elasticsearch 5.x:site plugins ...
ElasticSearch速学 - IK中文分词器远程字典设置
前面已经对”IK中文分词器“有了简单的了解: 但是可以发现不是对所有的词都能很好的区分,比如: 逼格这个词就没有分出来. 词库实际上IK分词器也是根据一些词库来进行分词的,我们可以丰富这个词库. ...
Elasticsearch集群使用ik分词器
IK分词插件的安装 ES集群环境 VMWare下三台虚拟机Ubuntu 14.04.2 LTS JDK 1.8.0_66 Elasticsearch 2.3.1 elasticsearch-jdbc- ...
Linux安装ElasticSearch-2.2.0-分词器插件（IK）
1.在gitpub上搜索elasticsearch-analysis,能够看到所有elasticsearch的分词器: 2.安装IK分词器:https://github.com/medcl/elast ...
Elastic Search的学习
那些必须要知道的事儿自然语言处理自然语言处理之中文分词器什么是Apache Lucene 什么是elasticsearch 搭建elasticsearch环境 Windows下 Java环境配置 ...
ELK Stack 5.2.2 安装文档
简介: ELK Stack 安装文档,这次都使用最新版本(5.2.2).RPM 包的方式搭建 ELK Stack. 下载地址: https://artifacts.elastic.co/downloa ...

随机推荐

error: `cout' was not declared in this scope
原因:C++ 1998 要求cout and endl被调用使用'std::cout'和'std::endl'格式,或using namespace std; 修改后:#include<iost ...
vue-cli title 里面怎动态显示文字
在路由里每个都添加一个meta[{ path:'/login', meta: { title: '登录页面' }, component:'login' }] main.js里面加如下代码: ...
从零搭建Vue开发环境
参考: 1.node安装和环境配置:https://www.cnblogs.com/zhouyu2017/p/6485265.html: 2.babel的安装:https://www.cnblogs. ...
Shell 使用 expr 进行数学运算
1.语法格式: 第一种:expr $num1 operator $num2 第二种:$(($num1 operator $num2)) 2.expr 操作符: 注意:这里比较为true,返回 1.只支 ...
this.$nextTick()作用
当data中的某个属性改变的时候,这个值并不是立即渲染到页面上,而是先放到watcher队列上(异步),只有当前任务空闲的时候才会去执行watcher队列上的任务.所以导致,改变的数据挂载到dom上会 ...
Strut2第一章
一.Struts2的执行流程: 用户提交一个请求,服务器接收,交给Struts2的核心过滤器进行处理,Struts2的过滤器调用Struts2的一系列处理器来处理(如:解析struts.xml配置文件 ...
oracle 表空间不足处理
linux环境将*.dmp文件导入数据库时,df -h 发现测试环境虚拟机空间不足,而数据文件xxx.dbf所占空间达到40G左右,果断删除表空间重建在导入. 一.查出存储数据表空间名称 selec ...
今天遇到一个关于栈溢出的问题StackOverflowError
关于这个问题个人认为是一个比较棘手的问题,因为我们每个人遇到溢出问题的原因都不一样,所以遇到这样的问题就多从问题的根本入手. 我遇到的原因是,循环多次导致的,以为我的俩个互相关联的实体类,当作查询时, ...
tp5 删除服务器文件
public function test(){ //ROOT_PATH . 'public' . DS . 'uploads' $filename = ROOT_PATH . 'public' . D ...
java 二分法学习
假设有一个数组 { 12, 23, 34, 45, 56, 67, 77, 89, 90 },现要求采用二分法找出指定的数值并将其在数组的索引返回,如果没有找到则返回 -1.代码如下: package ...

HanLP Analysis for Elasticsearch

HanLP Analysis for Elasticsearch的更多相关文章

随机推荐

热门专题