es学习(三)：分词器介绍以及中文分词器ik的安装与使用

什么是分词

把文本转换为一个个的单词，分词称之为analysis。es默认只对英文语句做分词，中文不支持，每个中文字都会被拆分为独立的个体。

示例

POST http://192.168.247.8:9200/_analyze

{

	"analyzer":"standard",

	"text":"good good study"

}

# 返回

{

    "tokens": [

        {

            "token": "good",

            "start_offset": 0,

            "end_offset": 4,

            "type": "<ALPHANUM>",

            "position": 0

        },

        {

            "token": "good",

            "start_offset": 5,

            "end_offset": 9,

            "type": "<ALPHANUM>",

            "position": 1

        },

        {

            "token": "study",

            "start_offset": 10,

            "end_offset": 15,

            "type": "<ALPHANUM>",

            "position": 2

        }

    ]

}

如果想在某个索引下进行分词

POST /my_doc/_analyze

{

    "analyzer": "standard",

    "field": "name",

    "text": "text文本"

}

es内置分词器

standard：默认分词，单词会被拆分，大小会转换为小写。
simple：按照非字母分词。大写转为小写。
whitespace：按照空格分词。忽略大小写。
stop：去除无意义单词，比如the/a/an/is…
keyword：不做分词。把整个文本作为一个单独的关键词

建立ik中文分词器

下载

Github：https://github.com/medcl/elasticsearch-analysis-ik

这里需要选择和你的es版本一致的ik。我的是7.5.1

解压

[root@localhost software]# ls

elasticsearch-7.5.1-linux-x86_64.tar.gz  elasticsearch-analysis-ik-7.5.1.zip

[root@localhost software]# unzip elasticsearch-analysis-ik-7.5.1.zip -d /usr/local/elasticsearch-7.5.1/plugins/ik

重启es

ik_max_word 和 ik_smart 什么区别?

ik_max_word: 会将文本做最细粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”，会穷尽各种可能的组合，适合 Term Query；
ik_smart: 会做最粗粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”，适合 Phrase 查询。

测试

POST http://192.168.247.8:9200/_analyze

{

	"analyzer":"ik_max_word",

	"text":"上下班做公交"

}

# 返回

{

    "tokens": [

        {

            "token": "上下班",

            "start_offset": 0,

            "end_offset": 3,

            "type": "CN_WORD",

            "position": 0

        },

        {

            "token": "上下",

            "start_offset": 0,

            "end_offset": 2,

            "type": "CN_WORD",

            "position": 1

        },

        {

            "token": "下班",

            "start_offset": 1,

            "end_offset": 3,

            "type": "CN_WORD",

            "position": 2

        },

        {

            "token": "做",

            "start_offset": 3,

            "end_offset": 4,

            "type": "CN_CHAR",

            "position": 3

        },

        {

            "token": "公交",

            "start_offset": 4,

            "end_offset": 6,

            "type": "CN_WORD",

            "position": 4

        }

    ]

}

自定义中文词库

1.进入IKAnalyzer.cfg.xml 配置如下

	<!--用户可以在这里配置自己的扩展字典 -->

	<entry key="ext_dict">custom.dic</entry>

2.保存后再同级目录下建立custom.dic

[esuser@localhost config]$  cat custom.dic

崔神

牛皮

3.重启es

4.测试

POST http://192.168.247.8:9200/_analyze

{

	"analyzer":"ik_smart",

	"text":"崔神牛皮"

}

# 返回

{

    "tokens": [

        {

            "token": "崔神",

            "start_offset": 0,

            "end_offset": 2,

            "type": "CN_WORD",

            "position": 0

        },

        {

            "token": "牛皮",

            "start_offset": 2,

            "end_offset": 4,

            "type": "CN_WORD",

            "position": 1

        }

    ]

}

es学习(三)：分词器介绍以及中文分词器ik的安装与使用的更多相关文章

Es学习第五课，分词器介绍和中文分词器配置
上课我们介绍了倒排索引,在里面提到了分词的概念,分词器就是用来分词的. 分词器是ES中专门处理分词的组件,英文为Analyzer,定义为:从一串文本中切分出一个一个的词条,并对每个词条进行标准化.它由 ...
Lucene系列四：Lucene提供的分词器、IKAnalyze中文分词器集成、扩展 IKAnalyzer的停用词和新词
一.Lucene提供的分词器StandardAnalyzer和SmartChineseAnalyzer 1.新建一个测试Lucene提供的分词器的maven项目LuceneAnalyzer 2. 在p ...
深度学习实战篇-基于RNN的中文分词探索
深度学习实战篇-基于RNN的中文分词探索近年来,深度学习在人工智能的多个领域取得了显著成绩.微软使用的152层深度神经网络在ImageNet的比赛上斩获多项第一,同时在图像识别中超过了人类的识别水平 ...
.net 的一个分词系统（jieba中文分词的.NET版本：jieba.NET）
简介平时经常用Python写些小程序.在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词.jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以 ...
Python学习(三)：迭代器、生成器、装饰器、递归、算法、正则
1.迭代器迭代器是访问集合的一种方式,迭代对象从集合的第一个元素开始访问,直到元素被访问结束,迭代器只能往前不能后退,最大的优点是不要求事先准备好整个迭代过程中的元素,这个特点使得它特别适合用于遍历 ...
转：从头开始编写基于隐含马尔可夫模型HMM的中文分词器
http://blog.csdn.net/guixunlong/article/details/8925990 从头开始编写基于隐含马尔可夫模型HMM的中文分词器之一 - 资源篇首先感谢52nlp的 ...
11大Java开源中文分词器的使用方法和分词效果对比，当前几个主要的Lucene中文分词器的比较
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
NLP+词法系列（二）︱中文分词技术简述、深度学习分词实践（CIPS2016、超多案例）
摘录自:CIPS2016 中文信息处理报告<第一章词法和句法分析研究进展.现状及趋势>P4 CIPS2016 中文信息处理报告下载链接:http://cips-upload.bj.bce ...
Elasticsearch之中文分词器插件es-ik（博主推荐）
前提什么是倒排索引? Elasticsearch之分词器的作用 Elasticsearch之分词器的工作流程 Elasticsearch之停用词 Elasticsearch之中文分词器 Elasti ...

随机推荐

Lambda函数到底是个什么
1 什么是Lambda函数 lambda函数是指简单的代码片段,通常认为是不值得命名的函数,它不能重复使用,能方便程序员使用,增强代码可读性,降低代码出错概率. [ 捕获列表 ] (参数) -> ...
win32简单的sockeTCP协议通信
什么也不说了看代码首先是服务端代码 #include <stdio.h> #include <stdlib.h> #include <WinSock2.h> #i ...
洛谷$P2469\ [SDOI2010]$ 星际竞速网络流
正解:网络流解题报告: 传送门$QwQ$ 题目好长昂,,,大概概括下就说有$m$条单向边,$n$个点,每条边有一条边权,每个点有一个点权,然后问每个点都要到达一遍的最小代价是多少$QwQ$? 发现有 ...
【一起学源码-微服务】Nexflix Eureka 源码四：EurekaServer启动之完成上下文构建及EurekaServer总结
前言上篇文章已经介绍了 Eureka Server上下文创建相关的Eureka Client逻辑,这一部分还是比较复杂的.接下来就讲解下Eureka Server上下文初始化最后的部分,然后加上整个 ...
使用Theia——添加语言支持
上一篇:使用Theia——创建插件 Theia——添加语言支持 Theia中TextMate的支持使用TextMate语法可以为大部分源文件提供精准的着色修饰,虽然这只是在语法级别上(没有语言本身的 ...
用TensorFlow做图像识别（python）
一.TensorFlow简介 TensorFlow是由谷歌开发的一套机器学习的工具,使用方法很简单,只需要输入训练数据位置,设定参数和优化方法等,TensorFlow就可以将优化结果显示出来,节省了很 ...
java线程相关基本方法
java线程中常用的基本方法有wait,notify,notifyAll,sleep,join,yield等. 线程的生命周期一共分为五个部分,分别是:新建(New).就绪(Runnable).运行( ...
openjudge 7622 求排列的逆序数（归并）
7622:求排列的逆序数总时间限制: 1000ms 内存限制: 65536kB 描述在Internet上的搜索引擎经常需要对信息进行比较,比如可以通过某个人对一些事物的排名来估计他(或她) ...
KindEditor.ready 不执行的解决方法
问题描述按照官网的要求,一一都设置好了,但就是没法显示富文本编辑器. 1.设置好textarea输入框 <textarea id="myEditor" name=" ...
ArcEngine 数据编辑(IWorkspaceFactory)
数据编辑做过很多次,没怎么出现问题,今天出现了问题,浪费了大半天,记录一下. 问题:修改Featrue的属性,修改后停止编辑,但是没有提示是否保存修改原因:在编辑数据的时候没有加StartEditO ...

es学习(三)：分词器介绍以及中文分词器ik的安装与使用

什么是分词

示例

es内置分词器

建立ik中文分词器

下载

解压

重启es

ik_max_word 和 ik_smart 什么区别?

测试

自定义中文词库

es学习(三)：分词器介绍以及中文分词器ik的安装与使用的更多相关文章

随机推荐

热门专题