ElasticSearch中分词器组件配置详解

首先要明确一点，ElasticSearch是基于Lucene的，它的很多基础性组件，都是由Apache Lucene提供的，而es则提供了更高层次的封装以及分布式方面的增强与扩展。

所以要想熟练的掌握的关于es中分词方面的知识，一定得先从Lucene抓起，否则只会是丈二和尚摸不着头脑，当然我们大多数开发者只关注于怎么用，偏底层的东东，也没有太多时间去深究，这也有情可原，遇到问题再去探究，也何尝不是一种办法，如果有时间，还是建议看看Lucene基础的知识。

在ElasticSearch或Solr中，都提供了基于配置的可插拔式的分词插件，管理方式，这样以来就组合配置方式就非常灵活，在es中，一个analysis集合
可以包含多个analyzer，而一个analyzer则由一个单个的tokenizer，零个或多个的tokenfilter组成，而一个tokenizer又可以包含零个或多个的charFilter。总体的执行流程如下图：

在es里面的一个模板配置如下：

index :
analysis ://一个analysis可以包含多个analyzer，tokenizer，filter，char_filter配置
analyzer :// 一个analyzer下面可以包含一个tokenizer，多个filter和char_filter， position_increment_gap是距离查询时，最大允许查询的距离，默认是100
myAnalyzer1 :
type : custom
tokenizer : myTokenizer1
filter : [myTokenFilter1, myTokenFilter2]
char_filter : [my_html]
position_increment_gap: 256
myAnalyzer2 :
type : custom
tokenizer : myTokenizer1
filter : [myTokenFilter1, myTokenFilter2]
char_filter : [my_html]
position_increment_gap: 256
tokenizer :
myTokenizer1 :
type : standard
max_token_length : 900
myTokenizer2 :
type : keyword
max_token_length : 900
filter :
myTokenFilter1 :
type : stop
stopwords : [stop1, stop2, stop3, stop4]
myTokenFilter2 :
type : length
min : 0
max : 2000
char_filter :
my_html :
type : html_strip
escaped_tags : [xxx, yyy]
read_ahead : 1024

一个比较完整的分词器配置案例，就如上面的例子，几乎涵盖了所有可能用到的组件，而我们在实际应用中，要做的就是，选择组合我们需要的组件，定制成一个分词器，然后就可以使用了，
上面的这段配置，我们需要配置在elasticsearch.yml文件中，全局有效，然后我们就可以在静态mapping或动态mapping中引用和使用它了。
参考链接：
https://www.elastic.co/guide/en/elasticsearch/reference/2.1/analysis-custom-analyzer.html

ElasticSearch中分词器组件配置详解的更多相关文章

Tomcat中的Server.xml配置详解
Tomcat中的Server.xml配置详解 Tomcat Server的结构图如下: 该文件描述了如何启动Tomcat Server <Server> <Listener /> ...
Linux中Nginx安装与配置详解
转载自:http://www.linuxidc.com/Linux/2016-08/134110.htm Linux中Nginx安装与配置详解(CentOS-6.5:nginx-1.5.0). 1 N ...
Apache 中httpd.conf文件配置详解（转载）
httpd.conf文件配置详解 Apache的基本设置主要交由httpd.conf来设定管理,我们要修改Apache的相关设定,主要还是通过修改httpd.cong来实现.下面让我们来看看htt ...
elasticsearch ik中文分词器的使用详解
(基于es5.4)先喵几眼github,按照步骤安装好分词器 link:https://github.com/medcl/elasticsearch-analysis-ik 复习一下常用的操作 .查看 ...
binlog之四：mysql中binlog_format模式与配置详解，binlog的日志格式详解
mysql复制主要有三种方式:基于SQL语句的复制(statement-based replication, SBR),基于行的复制(row-based replication, RBR),混合模式复 ...
ElasticSearch中辅助API常用用法详解
本篇是使用Elasticsearch必不可少的必备知识,并且适用于所有的Rest Api. 返回数据格式化当在Rest请求后面添加?pretty时,结果会以Json格式化的方式显示.另外,如果添加? ...
mysql中binlog_format模式与配置详解
mysql复制主要有三种方式:基于SQL语句的复制(statement-based replication, SBR),基于行的复制(row-based replication, RBR),混合模式复 ...
Spring中配置文件applicationContext.xml配置详解
<?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.spr ...
Eclipse中使用javap运行配置详解
javap是sun提供的对class文件进行反编译的工具 1.配置Run---external tools---external tools configurations 选择Program 新建ja ...

随机推荐

Codeforces Breaking Good
Breaking Good time limit per test 2 seconds memory limit per test 256 megabytes Breaking Good is a n ...
Guacamole 远程桌面
本文将Apache的guacamole服务的部署和应用,http://guacamole.apache.org/doc/gug/ 该链接下有全部相关知识的英文文档,如果水平ok,可以去这里仔细查看. ...
JavaScript仿淘宝实现放大镜效果的实例
我们都知道放大镜效果一般都是用于一些商城中的,列如每当我们打开淘宝,天猫等pc端时,看到心仪的物品时,点击图片时,便呈现出放大镜的效果.在没有去理解分析它的原理时,感觉非常的神奇,当真正地去接触,也是 ...
sqoop 数据导入hive
一. sqoop: mysql->hive sqoop import -m 1 --hive-import --connect "jdbc:mysql://127.0.0.1:3306 ...
numpy.unique
Find the unique elements of an array. Returns the sorted unique elements of an array. There are thre ...
shell 输入输出重定向
1. 命令列表: command > file 将输出重定向到file command < file 将输入重定向到file command >> file 将输出以追加的方式 ...
Ceph中PG和PGP的区别
http://www.zphj1987.com/2016/10/19/Ceph%E4%B8%ADPG%E5%92%8CPGP%E7%9A%84%E5%8C%BA%E5%88%AB/ 一.前言首先来一 ...
泰坦尼克号沉没之谜，用数据还原真相——Titanic获救率分析（用pyecharts）
泰坦尼克号获救率数据分析报告,用数据揭露真相. 一,船上乘客生存率分析报告泰坦尼克号生存率仅有38%的,可见此次事件救援不力,救生艇严重不足,且泰坦尼克号号撞得是冰山,海水冷,没有救生艇,在水里冻死 ...
linux c（一）Helloworld
终端的屏幕上输入命令如下: 使用vi helloworld.c打开helloworld.c文件,写下如下代码:
hci_ceph安装过程
auto loiface lo inet loopbackauto enp50s0f0iface enp50s0f0 inet static address 192.168.1.6 netmask 2 ...

ElasticSearch中分词器组件配置详解

ElasticSearch中分词器组件配置详解的更多相关文章

随机推荐

热门专题