1 索引的分析
- 1.1 分析器的组成
- 1.2 倒排索引的核心原理-normalization
2 ES的默认分词器
3 修改分词器
4 定制分词器
5 常见问题
版权声明

1 索引的分析

索引分析: 就是把输入的文本块按照一定的策略进行分解, 并建立倒排索引的过程. 在Lucene的架构中, 这个过程由分析器(analyzer)完成.

1.1 分析器的组成

① 字符过滤器(character filter): 比如去除HTML标签、把&替换为and等.

② 分词器(tokenizer): 按照某种规律, 如根据空格、逗号等, 将文本块进行分解.

③ 标记过滤器(token filter): 所有被分词器分解的词都将经过token filters的处理, 它可以修改词(如小写化处理)、去掉词(根据某一规则去掉无意义的词, 如"a", "the", "的"等), 增加词(如同义词"jump"、"leap"等).

注意: 人们一般将分析器通称为分词器, 并不是相等的关系, 而是包含的关系.

1.2 倒排索引的核心原理-normalization

建立倒排索引时, 会执行normalization(正常化)操作 —— 将拆分的各个单词进行处理, 以提高搜索时命中关联的文档的概率.

normalization的方式有: 时态转换, 单复数转换, 同义词转换, 大小写转换等.

比如文档中包含His mom likes small dogs:

① 在建立索引的时候normalization会对文档进行时态、单复数、同义词等方面的处理;

② 然后用户通过近似的mother liked little dog, 也能搜索到相关的文档.

2 ES的默认分词器

(1) ES中的默认分词器: standard tokenizer, 是标准分词器, 它以单词为边界进行分词. 具有如下功能:

① standard token filter: 去掉无意义的标签, 如<>, &, - 等.

② lowercase token filter: 将所有字母转换为小写字母.

③ stop token filer(默认被禁用): 移除停用词, 比如"a"、"the"等.

(2) 测试默认分词器:

GET _analyze			// ES引擎中已有standard分词器, 所以可以不指定index

{

    "analyzer": "standard",

    "text": "There-is & a DOG<br/> in house"

}

可以发现, Elasticsearch对text文本进行了分析处理, 结果如下:

{

  "tokens" : [

    {

      "token" : "there",      // 分词

      "start_offset" : 0,     // 起始偏移量

      "end_offset" : 5,       // 结束偏移量

      "type" : "<ALPHANUM>",  // 分词的类型

      "position" : 0          // 该分词在文本中的位置

    },

    {

      "token" : "is",

      "start_offset" : 6,

      "end_offset" : 8,

      "type" : "<ALPHANUM>",

      "position" : 1

    },

    {

      "token" : "a",

      "start_offset" : 11,

      "end_offset" : 12,

      "type" : "<ALPHANUM>",

      "position" : 2

    },

    // 省略其他4项

  ]

}

3 修改分词器

(1) 创建索引后可以添加新的分词器:

说明: 必须先关闭索引, 添加完成后, 再及时打开索引进行搜索等操作, 否则将出现错误.

// 关闭索引:

POST address/_close

// 启用English停用词token filter

PUT address/_settings

{

    "analysis": {

        "analyzer": {

            "my_token_filter": {        // 自定义的分词器名称

                "type": "standard",

                "stopwords": "_english_"

            }

        }

    }

}

// 打开索引:

POST address/_open

(2) 使用具有停词功能的分词器进行分词:

GET address/_analyze      // 指定索引

{

    "analyzer": "my_token_filter",   // 指定要使用的分词器

    "text": "There-is & a DOG<br/> in house"

}

(3) 返回结果减少了停用词there, is, &, a, in等:

{

  "tokens" : [

    {

      "token" : "dog",

      "start_offset" : 13,

      "end_offset" : 16,

      "type" : "<ALPHANUM>",

      "position" : 3

    },

    {

      "token" : "br",

      "start_offset" : 17,

      "end_offset" : 19,

      "type" : "<ALPHANUM>",

      "position" : 4

    },

    {

      "token" : "house",

      "start_offset" : 25,

      "end_offset" : 30,

      "type" : "<ALPHANUM>",

      "position" : 6

    }

  ]

}

4 定制分词器

4.1 向索引中添加自定义的分词器

同样的, 在添加新的分词器之前, 必须先关闭索引, 添加完成后, 再打开索引进行搜索等操作.

PUT address/_settings

{

    "analysis": {

        "char_filter": {

            "&_to_and": {

                "type": "mapping",

                "mappings": ["& => and"]

            }

        },

        "filter": {

            "my_stopwords": {

                "type": "stop",

                "stopwords": ["the", "a"]

            }

        },

        "analyzer": {

            "my_analyzer": {    // 自定义的分析器名称

                "type": "custom",

                "char_filter": ["html_strip", "&_to_and"], // 跳过HTML标签, 将&符号转换为"and"

                "tokenizer": "standard",

                "filter": ["lowercase", "my_stopwords"]    // 转换为小写

            }

        }

    }

}

4.2 测试自定义分析器

GET address/_analyze

{

    "analyzer": "my_analyzer",   // 上面定义的分析器名称

    "text": "There-is & a DOG<br/> in house"

}

可以发现, 返回的分析结果中已经对大写单词、HTML标签, 以及"&"做了处理.

{

  "tokens" : [

    // there和is

    {

      "token" : "and",      // &被处理成了and

      "start_offset" : 9,

      "end_offset" : 10,

      "type" : "<ALPHANUM>",

      "position" : 2

    },

    // dog、in和house

  ]

}

4.3 向映射中添加自定义的分词器

PUT address/_mapping/province

{

    "properties": {

        "content": {

            "type": "text",

            "analyzer": "my_analyzer"

        }

    }

}

此时查看mapping信息:

GET address/_mapping

发现自定义的分析器已经配置到province上了:

{

  "address": {

    "mappings": {

      "province": {

        "properties": {

          "area" : {

            "type" : "float"

          },

          "content" : {

            "type" : "text",

            "analyzer" : "my_analyzer"

          },

          "name" : {

            "type" : "text"

          }

        }

      }

    }

  }

}

5 常见问题

在修改索引之前, 没有关闭索引, 修改时发生如下错误:

{

  "error": {

    "root_cause": [

      {

        "type": "illegal_argument_exception",

        "reason": "Can't update non dynamic settings [[index.analysis.analyzer.my_token_filter.type, index.analysis.analyzer.my_token_filter.stopwords]] for open indices [[address/Ci6MJV4sTyuoF4r9aLvVZg]]"

      }

    ],

    "type": "illegal_argument_exception",

    "reason": "Can't update non dynamic settings [[index.analysis.analyzer.my_token_filter.type, index.analysis.analyzer.my_token_filter.stopwords]] for open indices [[address/Ci6MJV4sTyuoF4r9aLvVZg]]"

  },

  "status": 400

}

查看本篇第[3]节的说明, 先关闭索引再执行修改操作.

版权声明

作者: 马瘦风(https://healchow.com)

出处: 博客园马瘦风的博客(https://www.cnblogs.com/shoufeng)

感谢阅读, 如果文章有帮助或启发到你, 点个[好文要顶

 ES 09 - 定制Elasticsearch的分词器 (自定义分词策略)的更多相关文章

【ELK】【docker】【elasticsearch】2.使用elasticSearch+kibana+logstash+ik分词器+pinyin分词器+繁简体转化分词器 6.5.4 启动 ELK+logstash概念描述
官网地址:https://www.elastic.co/guide/en/elasticsearch/reference/current/docker.html#docker-cli-run-prod ...

ElasticSearch中文分词器-IK分词器的使用
IK分词器的使用首先我们通过Postman发送GET请求查询分词效果 GET http://localhost:9200/_analyze { "text":"农业银行 ...

用lucene4.10.2分词器进行分词
import java.util.Iterator; import java.util.LinkedList; import java.util.List; import org.apache.luc ...

es的分词器analyzer
analyzer 分词器使用的两个情形: 1,Index time analysis. 创建或者更新文档时,会对文档进行分词2,Search time analysis. 查询时,对查询语句 ...

ES中文分词器安装以及自定义配置
之前我们创建索引,查询数据,都是使用的默认的分词器,分词效果不太理想,会把text的字段分成一个一个汉字,然后搜索的时候也会把搜索的句子进行分词,所以这里就需要更加智能的分词器IK分词器了. ik分词 ...

ElasticSearch（二十六）修改分词器及定制自己的分词器
1.默认的分词器 standard 分词器 standard tokenizer:以单词边界进行切分standard token filter:什么都不做lowercase token filter: ...

elasticsearch最全详细使用教程：入门、索引管理、映射详解、索引别名、分词器、文档管理、路由、搜索详解
一.快速入门1. 查看集群的健康状况http://localhost:9200/_cat http://localhost:9200/_cat/health?v 说明:v是用来要求在结果中返回表头状 ...

ElasticSearch最全分词器比较及使用方法
介绍:ElasticSearch 是一个基于 Lucene 的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful web 接口.Elasticsearch 是用 Java 开 ...

Elasticsearch(10) --- 内置分词器、中文分词器
Elasticsearch(10) --- 内置分词器.中文分词器这篇博客主要讲:分词器概念.ES内置分词器.ES中文分词器. 一.分词器概念 1.Analysis 和 Analyzer Analy ...

随机推荐

BZOJ_1895_Pku3580 supermemo_Splay
BZOJ_1895_Pku3580 supermemo_Splay Description 给出一个初始序列fA1;A2;:::Ang,要求你编写程序支持如下操作: 1. ADDxyD:给子序列fAx ...

ssh 隧道
SSH 隧道转发实战大家都知道SSH是一种安全的传输协议,用在连接服务器上比较多.不过其实除了这个功能,它的隧道转发功能更是吸引人.下面是个人根据自己的需求以及在网上查找的资料配合自己的实际操作 ...

记一次logback传输日志到logstash根据自定义设置动态创建ElasticSearch索引
先说背景,由于本人工作需要创建很多小应用程序,而且在微服务的大环境下,服务越来越多,然后就导致日志四分五裂,到处都有,然后就有的elk,那么问题来了不能每个小应用都配置一个 logstash 服务来 ...

mysql获取表中日期的年月日时分秒
SELECT year(callTheRollTime) from schedule_account 获取年 SELECT month(callTheRollTime) from schedule_a ...

前端学习笔记之HTML body内常用标签
阅读目录一 HTML语义化二字符实体三 h系列标签四 p标签五 img标签六 a标签七列表标签八 table标签九 form标签一 HTML语义化 body中的标签是会显示到浏 ...

GraphQL 入门介绍
写在前面 GraphQL是一种新的API标准,它提供了一种更高效.强大和灵活的数据提供方式.它是由Facebook开发和开源,目前由来自世界各地的大公司和个人维护.GraphQL本质上是一种基于api ...

从YOLOv1到v3的进化之路
引言:如今基于深度学习的目标检测已经逐渐成为自动驾驶,视频监控,机械加工,智能机器人等领域的核心技术,而现存的大多数精度高的目标检测算法,速度较慢,无法适应工业界对于目标检测实时性的需求,这时YOLO ...

死磕 java集合之DelayQueue源码分析
问题 (1)DelayQueue是阻塞队列吗? (2)DelayQueue的实现方式? (3)DelayQueue主要用于什么场景? 简介 DelayQueue是java并发包下的延时阻塞队列,常用于 ...

让你分分钟理解 JavaScript 闭包
闭包,是 Javascript 比较重要的一个概念,对于初学者来讲,闭包是一个特别抽象的概念,特别是 ECMAScript 规范给的定义,如果没有实战经验,很难从定义去理解它.因此,本文不会对闭包的概 ...

CSS fixed 定位元素失效的问题
一个示例考察下面的代码: <head> <title>css filter issue</title> <style> body { height: ...

ES 09 - 定制Elasticsearch的分词器 (自定义分词策略)