ElasticSearch7.3 学习之定制分词器（Analyzer）

1、默认的分词器

关于分词器，前面的博客已经有介绍了，链接：ElasticSearch7.3 学习之倒排索引揭秘及初识分词器(Analyzer)。这里就只介绍默认的分词器standard analyzer

2、修改分词器的设置

首先自定义一个分词器es_std。启用english停用词token filter

PUT /my_index

{

  "settings": {

    "analysis": {

      "analyzer": {

        "es_std": {

          "type": "standard",

          "stopwords": "_english_"

        }

      }

    }

  }

}

接下来开始测试两种不同的分词器，首先是默认的分词器

GET /my_index/_analyze

{

  "analyzer": "standard",

  "text": "a dog is in the house"

}

返回结果

{

  "tokens" : [

    {

      "token" : "a",

      "start_offset" : 0,

      "end_offset" : 1,

      "type" : "<ALPHANUM>",

      "position" : 0

    },

    {

      "token" : "dog",

      "start_offset" : 2,

      "end_offset" : 5,

      "type" : "<ALPHANUM>",

      "position" : 1

    },

    {

      "token" : "is",

      "start_offset" : 6,

      "end_offset" : 8,

      "type" : "<ALPHANUM>",

      "position" : 2

    },

    {

      "token" : "in",

      "start_offset" : 9,

      "end_offset" : 11,

      "type" : "<ALPHANUM>",

      "position" : 3

    },

    {

      "token" : "the",

      "start_offset" : 12,

      "end_offset" : 15,

      "type" : "<ALPHANUM>",

      "position" : 4

    },

    {

      "token" : "house",

      "start_offset" : 16,

      "end_offset" : 21,

      "type" : "<ALPHANUM>",

      "position" : 5

    }

  ]

}

可以看到就是简单的按单词进行拆分，在接下来测试上面自定义的一个分词器es_std

GET /my_index/_analyze

{

  "analyzer": "es_std",

  "text":"a dog is in the house"

}

{

  "tokens" : [

    {

      "token" : "dog",

      "start_offset" : 2,

      "end_offset" : 5,

      "type" : "<ALPHANUM>",

      "position" : 1

    },

    {

      "token" : "house",

      "start_offset" : 16,

      "end_offset" : 21,

      "type" : "<ALPHANUM>",

      "position" : 5

    }

  ]

}

可以看到结果只有两个单词了，把停用词都给去掉了。

3、定制化自己的分词器

首先删除掉上面建立的索引

DELETE my_index

然后运行下面的语句。简单说下下面的规则吧，首先去除html标签，把&转换成and，然后采用standard进行分词，最后转换成小写字母及去掉停用词a the，建议读者好好看看，下面我也会对这个分词器进行测试。

PUT /my_index

{

  "settings": {

    "analysis": {

      "char_filter": {

        "&_to_and": {

          "type": "mapping",

          "mappings": [

            "&=> and"

          ]

        }

      },

      "filter": {

        "my_stopwords": {

          "type": "stop",

          "stopwords": [

            "the",

            "a"

          ]

        }

      },

      "analyzer": {

        "my_analyzer": {

          "type": "custom",

          "char_filter": [

            "html_strip",

            "&_to_and"

          ],

          "tokenizer": "standard",

          "filter": [

            "lowercase",

            "my_stopwords"

          ]

        }

      }

    }

  }

}

{

  "acknowledged" : true,

  "shards_acknowledged" : true,

  "index" : "my_index"

}

老规矩，测试这个分词器

GET /my_index/_analyze

{

  "analyzer": "my_analyzer",

  "text": "tom&jerry are a friend in the house, <a>, HAHA!!"

}

结果如下：

{

  "tokens" : [

    {

      "token" : "tomandjerry",

      "start_offset" : 0,

      "end_offset" : 9,

      "type" : "<ALPHANUM>",

      "position" : 0

    },

    {

      "token" : "are",

      "start_offset" : 10,

      "end_offset" : 13,

      "type" : "<ALPHANUM>",

      "position" : 1

    },

    {

      "token" : "friend",

      "start_offset" : 16,

      "end_offset" : 22,

      "type" : "<ALPHANUM>",

      "position" : 3

    },

    {

      "token" : "in",

      "start_offset" : 23,

      "end_offset" : 25,

      "type" : "<ALPHANUM>",

      "position" : 4

    },

    {

      "token" : "house",

      "start_offset" : 30,

      "end_offset" : 35,

      "type" : "<ALPHANUM>",

      "position" : 6

    },

    {

      "token" : "haha",

      "start_offset" : 42,

      "end_offset" : 46,

      "type" : "<ALPHANUM>",

      "position" : 7

    }

  ]

}

最后我们可以在实际使用时设置某个字段使用自定义分词器，语法如下：

PUT /my_index/_mapping/

{

  "properties": {

    "content": {

      "type": "text",

      "analyzer": "my_analyzer"

    }

  }

}

ElasticSearch7.3 学习之定制分词器（Analyzer）的更多相关文章

ElasticSearch7.3 学习之倒排索引揭秘及初识分词器(Analyzer)
一.倒排索引 1. 构建倒排索引例如说有下面两个句子doc1,doc2 doc1:I really liked my small dogs, and I think my mom also like ...
Lucene.net(4.8.0) 学习问题记录一:分词器Analyzer的构造和内部成员ReuseStategy
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...
Lucene学习-深入Lucene分词器,TokenStream获取分词详细信息
Lucene学习-深入Lucene分词器,TokenStream获取分词详细信息在此回复牛妞的关于程序中分词器的问题,其实可以直接很简单的在词库中配置就好了,Lucene中分词的所有信息我们都可以从 ...
es的分词器analyzer
analyzer 分词器使用的两个情形: 1,Index time analysis. 创建或者更新文档时,会对文档进行分词2,Search time analysis. 查询时,对查询语句 ...
Lucene.net(4.8.0)+PanGu分词器问题记录一:分词器Analyzer的构造和内部成员ReuseStategy
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...
Elasticsearch：定制分词器（analyzer）及相关性
转载自:https://elasticstack.blog.csdn.net/article/details/114278163 在许多的情况下,我们使用现有的分词器已经足够满足我们许多的业务需求,但 ...
Lucene.net(4.8.0) 学习问题记录二: 分词器Analyzer中的TokenStream和AttributeSource
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...
es学习(三)：分词器介绍以及中文分词器ik的安装与使用
什么是分词把文本转换为一个个的单词,分词称之为analysis.es默认只对英文语句做分词,中文不支持,每个中文字都会被拆分为独立的个体. 示例 POST http://192.168.247.8: ...
ElasticSearch7.3 学习之定制动态映射（dynamic mapping）
1.dynamic mapping ElasticSearch中有一个非常重要的特性--动态映射,即索引文档前不需要创建索引.类型等信息,在索引的同时会自动完成索引.类型.映射的创建. 当ES在文档中 ...

随机推荐

有手就行3——持续集成环境—maven、tomcat、安装和配置
有手就行3--持续集成环境-maven.tomcat.安装持续集成环境(5)-Maven安装和配置持续集成环境(6)-Tomcat安装和配置持续集成环境(5)-Maven安装和配置在Jenki ...
Node.js躬行记（15）——活动规则引擎
在日常的业务开发中,会包含许多的业务规则,一般就是用if-else硬编码的方式实现,这样就会增加逻辑的维护成本,若无注释,可能都无法理解规则意图. 因为一旦规则有所改变,那么就需要修改代码再发布代码, ...
《STL源码剖析》学习半生记：第一章小结与反思
不学STL,无以立.--陈轶阳从1.1节到1.8节大部分都是从各方面介绍STL, 包括历史之类的(大致上是这样,因为实在看不下去我就直接略到了1.9节(其实还有一点1.8.3的内容)). 第一章里比 ...
CentOS7+Rsyslog+MySQL 搭建 Rsyslog 日志服务器
文章目录 1.主机环境 2.rsyslog搭建 2.1.rsyslog-server搭建 2.2.rsyslog-client 2.2.1.测试 2.3.rsyslog日志分类 2.3.1.测试 3. ...
SpringBoot外部配置属性注入
一.命令行参数配置 Spring Boot可以是基于jar包运行的,打成jar包的程序可以直接通过下面命令运行: java -jar xx.jar 那么就可以通过命令行改变相关配置参数.例如默认tom ...
练习推导一个最简单的BP神经网络训练过程【个人作业/数学推导】
写在前面各式资料中关于BP神经网络的讲解已经足够全面详尽,故不在此过多赘述.本文重点在于由一个"最简单"的神经网络练习推导其训练过程,和大家一起在练习中一起更好理解神经网络训 ...
大厂晋升指南：材料准备，PPT 写作和现场答辩
大部分公司在年初,都是绩效回顾.晋升答辩的时期,对于阿里.美团等不少互联网企业,财年是从前一年的 4 月到第二年的 3 月底,春节回来以后,就是一年一度的述职晋升环节. 这里我结合自己述职以及辅导其他 ...
Mybatis获取自增主键的两种方式
<insert id="saveOne" parameterType="com.buwei.entity.User" > INSERT into u ...
react 也就这么回事 04 —— 元素渲染
为了便于后续理解,我们再来回顾和总结前面几个章节的内容 1 元素及其创建元素是构成 React 应用的最小砖块. 元素描述了你在屏幕上想看到的内容. const element = <h1&g ...
如何让测试RFC2544更便捷——RFC2544测试实操
关键词:RFC2544:吞吐量测试:时延测试:丢包率:背靠背. 作为一名网络测试人员,大家肯定熟知一个测试标准,那就是RFC2544,RFC2544通过提供一个测试网络设备的测试标准,并规定了一系列测 ...