es之分词器和分析器

Elasticsearch这种全文搜索引擎，会用某种算法对建立的文档进行分析，从文档中提取出有效信息（Token）

对于es来说，有内置的分析器（Analyzer）和分词器（Tokenizer）

1：分析器

ES内置分析器

standard	分析器划分文本是通过词语来界定的，由Unicode文本分割算法定义。它删除大多数标点符号，将词语转换为小写(就是按照空格进行分词)
simple	分析器每当遇到不是字母的字符时，将文本分割为词语。它将所有词语转换为小写。
keyword	可以接受任何给定的文本，并输出与单个词语相同的文本
pattern	分析器使用正则表达式将文本拆分为词语，它支持小写和停止字
language	语言分析器
whitespace	（空白）分析器每当遇到任何空白字符时，都将文本划分为词语。它不会将词语转换为小写
custom	自定义分析器

测试simple Analyzer：

POST _analyze
{
  "analyzer": "simple",
  "text": "today is 2018year 5month 1day."
}

custom（自定义）分析器接受以下的参数：

`tokenizer`	内置或定制的标记器（也就是需要使用哪种分析器）。<br/>（需要）
`char_filter`	内置或自定义字符过滤器的可选阵列。
`filter`	可选的内置或定制token过滤器阵列。
`position_increment_gap`	在索引文本值数组时，Elasticsearch会在一个词的最后一个位置和下一个词的第一个位置之间插入“间隙”，以确保短语查询与不同数组元素的两个术语不匹配。默认为100.有关更多信息

测试：

PUT /my_index/groups/1
{
    "names": [ "John Abraham", "Lincoln Smith"]
}

做一下普通查询：

GET /my_index/groups/_search
{
    "query": {
        "match_phrase": {
            "names": "Abraham Lincoln"
        }
    }
}

然后删除索引，重新添加：

PUT my_index
{
  "mappings": {
    "my_type": {
      "properties": {
        "names": {
          "type": "text",
          "position_increment_gap": 0
        }
      }
    }
  }
}

然后倒入数据:

PUT /my_index/groups/1
{
    "names": [ "John Abraham", "Lincoln Smith"]
}

在做查询操作：

GET /my_index/groups/_search
{
    "query": {
        "match_phrase": {
            "names": "Abraham Lincoln"
        }
    }
}

2：更新分析器

1：要先关闭索引

2：添加分析器

3：打开索引

1、关闭索引

POST my_index/_close

2、添加分析器

PUT my_index/_settings
{
  "analysis": {
      "analyzer": {
        "my_custom_analyzer3": {
          "type":      "custom",
          "tokenizer": "standard",
          "char_filter": [
            "html_strip"
          ],
          "filter": [
            "lowercase",
            "asciifolding"
          ]
        }
      }
    }
}

3、打开索引

POST my_index/_open

4、测试：

POST my_index/_analyze
{
  "analyzer": "my_custom_analyzer",
  "text": "Is this <b>网页 </b>?"
}

3：分词器

Es中也支持非常多的分词器

Standard	默认的分词器根据 Unicode 文本分割算法，以单词边界分割文本。它删除大多数标点符号。<br/>它是大多数语言的最佳选择
Letter	遇到非字母时分割文本
Lowercase	类似 letter ，遇到非字母时分割文本，同时会将所有分割后的词元转为小写
Whitespace	遇到空白字符时分割位文本

Standard例子：

POST _analyze
{
  "tokenizer": "standard",
  "text": "this is standard tokenizer!!!!."
}

Letter例子：

POST _analyze
{
  "tokenizer": "letter",
  "text": "today is 2018year-05month"
}

Whitespace例子：

POST _analyze
{
  "tokenizer": "whitespace",
  "text": "this is t es t."
}

4：更新分词器

我们在创建索引之后可以添加分词器，比如想要按照空格的方式进行分词

【注意】

添加分词器步骤：

1：要先关闭索引

2：添加分词器

3：打开索引

POST school/_close

PUT school/_settings
{
  "analysis" :
  {
    "analyzer" :
    {
      "content" : {"type" : "custom" , "tokenizer" : "whitespace"}
    }
  }
}

POST school/_open

获取索引的配置：

索引中包含了非常多的配置参数，我们可以通过命令进行查询

GET school/_settings

es之分词器和分析器的更多相关文章

Elasticsearch（ES）分词器的那些事儿
1. 概述分词器是Elasticsearch中很重要的一个组件,用来将一段文本分析成一个一个的词,Elasticsearch再根据这些词去做倒排索引. 今天我们就来聊聊分词器的相关知识. 2. 内置 ...
es的分词器analyzer
analyzer 分词器使用的两个情形: 1,Index time analysis. 创建或者更新文档时,会对文档进行分词2,Search time analysis. 查询时,对查询语句 ...
ES中文分词器安装以及自定义配置
之前我们创建索引,查询数据,都是使用的默认的分词器,分词效果不太理想,会把text的字段分成一个一个汉字,然后搜索的时候也会把搜索的句子进行分词,所以这里就需要更加智能的分词器IK分词器了. ik分词 ...
ES ik分词器使用技巧
match查询会将查询词分词,然后对分词的结果进行term查询. 然后默认是将每个分词term查询之后的结果求交集,所以只要分词的结果能够命中,某条数据就可以被查询出来,而分词是在新建索引时指定的,只 ...
Elasticsearch(10) --- 内置分词器、中文分词器
Elasticsearch(10) --- 内置分词器.中文分词器这篇博客主要讲:分词器概念.ES内置分词器.ES中文分词器. 一.分词器概念 1.Analysis 和 Analyzer Analy ...
ElasticSearch最全分词器比较及使用方法
介绍:ElasticSearch 是一个基于 Lucene 的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful web 接口.Elasticsearch 是用 Java 开 ...
Solr6.5配置中文分词器
Solr作为搜索应用服务器,我们在使用过程中,不可避免的要使用中文搜索.以下介绍solr自带的中文分词器和第三方分词器IKAnalyzer. 注:下面操作在Linux下执行,所添加的配置在windo ...
ElasticSearch中文分词器-IK分词器的使用
IK分词器的使用首先我们通过Postman发送GET请求查询分词效果 GET http://localhost:9200/_analyze { "text":"农业银行 ...
Elasticsearch系列---倒排索引原理与分词器
概要本篇主要讲解倒排索引的基本原理以及ES常用的几种分词器介绍. 倒排索引的建立过程倒排索引是搜索引擎中常见的索引方法,用来存储在全文搜索下某个单词在一个文档中存储位置的映射.通过倒排索引,我们输 ...

随机推荐

<<用法
数据移位运算符,左移几位,如:x=i<<4;就是将i的值左移4位(放大2的4次方)后,赋给x,若i=2,则X=32.
vue组件事件(极客时间Vue视频笔记)
vue组件核心:事件 <body> <div class="app"> <todo-list></todo-list> {{mess ...
CentOS7 内核模块管理
1.查看所有模块:lsmod 2.查看指定模块的详细信息:modinfo 模块名 3.动态加载模块:modprobe 模块名 4.动态卸载模块:modprobe -r 模块名 5.开机自动加载模块:假 ...
java通过正则进行语法分析实现表达式的逻辑判断和复杂计算实现
首先功能展示: 相关功能实现,实现功能类似js,弱语言类型: 1.核销语法解析使用正则校验和匹配实现处理,每一行是一个完整表达式 2.有系统变量使用,内置的变量可直接获取值进行相关逻辑和条件计算 3. ...
Java编程思想学习录（连载之：内部类）
内部类基本概念可将一个类的定义置于另一个类定义的内部内部类允许将逻辑相关的类组织在一起,并控制位于内部的类的可见性甚至可将内部类定义于一个方法或者任意作用域内! 当然,内部类 ≠ 组合内部类拥 ...
为什么要用消息队列及自己如何设计一个mq架构
1. 解耦:如左图, 系统a因为业务需求需要调用系统b,后续因为业务需求可能需要改代码调用系统c,甚至还要考虑被调用的系统挂了访问超时的问题.耦合性太高! 如右图, 系统a产生一条数据发送到消息队列里 ...
div的edit和drag（点击div可编辑、删除、拖动）
1.可编辑: <div id="move" contentEditable="true">可编辑</div> 设置contentEdit ...
js中的函数防抖与节流
一.滚动条监听的例子写一个功能需求-- 监听浏览器滚动事件,返回当前滚条与顶部的距离,代码如下: function showTop () { var scrollTop = document.bod ...
为docker配置国内镜像加速器
docker官方镜像仓库地址为:https://hub.docker.com/search?q=&type=image 因为是国外地址,因此下载镜像时速度很慢. 我们需要配置国内镜像加速, 可 ...
Codeforces 959 树构造暴力求最小字典序互质序列
A B C 题目给你一个结论最少需要min((odd,even)个结点可以把一棵树的全部边连起来要求你输出两颗树一棵树结论是正确的另外一棵结论是正确的正确结论的树很好造主要是错误的树题目 ...