Es学习第五课，分词器介绍和中文分词器配置

上课我们介绍了倒排索引，在里面提到了分词的概念，分词器就是用来分词的。

分词器是ES中专门处理分词的组件，英文为Analyzer，定义为：从一串文本中切分出一个一个的词条，并对每个词条进行标准化。它由三部分组成，

Character Filters：分词之前进行预处理，比如去除html标签
Tokenizer：将原始文本按照一定规则切分为单词
Token Filters：针对Tokenizer处理的单词进行再加工，比如转小写、删除或增新等处理，也就是标准化

预定义的分词器

ES自带的分词器有如下：

Standard Analyzer
- 默认分词器
- 按词切分，支持多语言
- 小写处理
- 支持中文采用的方法为单字切分
Simple Analyzer
- 按照非字母切分
- 小写处理
Whitespace Analyzer
- 空白字符作为分隔符
Stop Analyzer
- 相比Simple Analyzer多了去除请用词处理
- 停用词指语气助词等修饰性词语，如the, an, 的，这等
Keyword Analyzer
- 不分词，直接将输入作为一个单词输出
Pattern Analyzer
- 通过正则表达式自定义分隔符
- 默认是\W+，即非字词的符号作为分隔符

ES默认对中文分词是一个一个字来解析，这种情况会导致解析过于复杂，效率低下，所以目前有几个开源的中文分词器，来专门解决中文分词，其中常用的叫IK

中文分词

难点
- 中文分词指的是将一个汉字序列切分为一个一个的单独的词。在英文中，单词之间以空格作为自然分界词，汉语中词没有一个形式上的分界符
- 上下文不同，分词结果迥异，比如交叉歧义问题
常见分词系统
- IK：实现中英文单词的切分，可自定义词库，支持热更新分词词典
- jieba：支持分词和词性标注，支持繁体分词，自定义词典，并行分词等
- Hanlp：由一系列模型与算法组成的Java工具包，目标是普及自然语言处理在生产环境中的应用
- THUAC：中文分词和词性标注

安装配置ik中文分词插件

# 在Elasticsearch安装目录下执行命令，然后重启es

bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.3.0/elasticsearch-analysis-ik-6.3.0.zip

# 如果由于网络慢，安装失败，可以先下载好zip压缩包，将下面命令改为实际的路径，执行，然后重启es

bin/elasticsearch-plugin install file:///path/to/elasticsearch-analysis-ik-6.3.0.zip

ik两种分词模式ik_max_word 和 ik_smart 什么区别?

ik_max_word: 会将文本做最细粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”，会穷尽各种可能的组合；
ik_smart: 会做最粗粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”。

你也可以直接上IK的github的教程来配置，https://github.com/medcl/elasticsearch-analysis-ik。

安装完后，修改elasticsearch.yml文件，把ik分词器设置为es的默认分词器

index.analysis.analyzer.default.type:ik

重启es，注意es中的每个节点都要进行上述配置。

Es学习第五课，分词器介绍和中文分词器配置的更多相关文章

es学习(三)：分词器介绍以及中文分词器ik的安装与使用
什么是分词把文本转换为一个个的单词,分词称之为analysis.es默认只对英文语句做分词,中文不支持,每个中文字都会被拆分为独立的个体. 示例 POST http://192.168.247.8: ...
Elasticsearch7.X 入门学习第五课笔记---- - Mapping设定介绍
原文:Elasticsearch7.X 入门学习第五课笔记---- - Mapping设定介绍版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本 ...
【转载】salesforce 零基础开发入门学习（五）异步进程介绍与数据批处理Batchable
salesforce 零基础开发入门学习(五)异步进程介绍与数据批处理Batchable 本篇知识参考:https://developer.salesforce.com/trailhead/for ...
Lucene 03 - 什么是分词器 + 使用IK中文分词器
目录 1 分词器概述 1.1 分词器简介 1.2 分词器的使用 1.3 中文分词器 1.3.1 中文分词器简介 1.3.2 Lucene提供的中文分词器 1.3.3 第三方中文分词器 2 IK分词器的 ...
Lucene系列四：Lucene提供的分词器、IKAnalyze中文分词器集成、扩展 IKAnalyzer的停用词和新词
一.Lucene提供的分词器StandardAnalyzer和SmartChineseAnalyzer 1.新建一个测试Lucene提供的分词器的maven项目LuceneAnalyzer 2. 在p ...
Es学习第四课，倒排索引
大家知道,ES的发明者初衷是想做一个搜索引擎给自己老婆用来搜菜谱,所以ES的核心工作就是做搜索,下面我们就开始讲关于搜索方面的知识点. DOC的概念我们第一课就讲过,它是ES存储数据的最小单元,我们再 ...
Es学习第七课， term、terms、match等基本查询语法
term.terms查询 term query会去倒排索引中寻找确切的term,它并不知道分词器的存在,这种查询适合keyword.numeric.date等明确值的 term:查询某个字段里含有某个 ...
Es学习第三课， ElasticSearch基本的增删改查
前面两课我们了解了ES的基本概念并且学会了安装ES,这节课我们就来讲讲ES基本的增删改查:ES主要对外界提供的是REST风格的API,我们通过客户端操作ES本质上就是API的调用.在第一课我们就讲了索 ...
.net 的一个分词系统（jieba中文分词的.NET版本：jieba.NET）
简介平时经常用Python写些小程序.在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词.jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以 ...

随机推荐

$emit 和 $on 进行平行组件之间的传值
效果图: 注:$emit 和 $on 的事件必须在一个公共的实例上,才能够触发: $emit 触发 $on 接收需求: 1.有A.B.C三个组件,同时挂载到入口组件中: 2.将A组件中的数据传递到C ...
Centos7.4 修改selinux错误导致服务器起不来
[root@node10 ~]# cat /etc/selinux/config # This file controls the state of SELinux on the system. # ...
使用lambda编写九九乘法表
Java 8 出来有一段时间了,支持lambda表达式非常的赞. lambda表达式即匿名方法,属于一种轻量级的封装 lambda表达式的语法由参数列表.箭头符号->和函数体组成.函数体既可 ...
angualr6 引入iframe
项目开发中需要在angular项目中嵌入iframe窗口,上网搜索了相关文档,不是很多,但是总算是把功能实现了,现记录一下,便于后期查看: step1:在.html中放入需要承载内容的div,并定义好 ...
appium desktop 定位弹出框时报错
今天在定位真机APP的时候,弹出框的内容死活定位不到,只能定位到背景的内容. 问题:appium desktop 定位弹出框时报错,定位不到,只能定位到背景的内容. 分析: 定位工具找不到弹出框的元素 ...
python unittest 之mock
1.什么是mockunittest.mock是一个用于在Python中进行单元测试的库,Mock翻译过来就是模拟的意思,顾名思义这个库的主要功能是模拟一些东西.它的主要功能是使用mock对象替代掉指定 ...
Java 时间相关
java的时间主要关注这几个类,查看Java API 1.6 java.util.Calendar Calendar 类是一个抽象类,它为特定瞬间与一组诸如 YEAR.MONTH.DAY_OF_MON ...
[python面试题] 什么是单例，单例有什么用，业务场景是什么
单例概念: 单例是一个特殊的类,这个类只能创建一次实例,例子如下: 1.a = Std(name='leo'), b = Std(name='jack'),两者的指向都是name=‘leo’的对象: ...
java反射(一)--认识反射机制
一.认识java反射机制在java语言中,之所以会有如此众多的开源技术支撑,很大的一部分来源于java最大特征--反射机制.能够灵活的去使用反射机制进行项目的开发与设计,才能够真正接触到java的精 ...
python3使除法结果为整数
学习python3遇到问题: 今天在学习python时,想利用(121/100)得到的结果为整数 1, 121/100 outout:1.21 但是实际结果是浮点数 1.21 原因:python3后, ...

Es学习第五课， 分词器介绍和中文分词器配置