ElasticSearch7.3 学习之定制分词器（Analyzer）

1、默认的分词器

关于分词器，前面的博客已经有介绍了，链接：ElasticSearch7.3 学习之倒排索引揭秘及初识分词器(Analyzer)。这里就只介绍默认的分词器standard analyzer

2、修改分词器的设置

首先自定义一个分词器es_std。启用english停用词token filter

PUT /my_index

{

  "settings": {

    "analysis": {

      "analyzer": {

        "es_std": {

          "type": "standard",

          "stopwords": "_english_"

        }

      }

    }

  }

}

接下来开始测试两种不同的分词器，首先是默认的分词器

GET /my_index/_analyze

{

  "analyzer": "standard",

  "text": "a dog is in the house"

}

返回结果

{

  "tokens" : [

    {

      "token" : "a",

      "start_offset" : 0,

      "end_offset" : 1,

      "type" : "<ALPHANUM>",

      "position" : 0

    },

    {

      "token" : "dog",

      "start_offset" : 2,

      "end_offset" : 5,

      "type" : "<ALPHANUM>",

      "position" : 1

    },

    {

      "token" : "is",

      "start_offset" : 6,

      "end_offset" : 8,

      "type" : "<ALPHANUM>",

      "position" : 2

    },

    {

      "token" : "in",

      "start_offset" : 9,

      "end_offset" : 11,

      "type" : "<ALPHANUM>",

      "position" : 3

    },

    {

      "token" : "the",

      "start_offset" : 12,

      "end_offset" : 15,

      "type" : "<ALPHANUM>",

      "position" : 4

    },

    {

      "token" : "house",

      "start_offset" : 16,

      "end_offset" : 21,

      "type" : "<ALPHANUM>",

      "position" : 5

    }

  ]

}

可以看到就是简单的按单词进行拆分，在接下来测试上面自定义的一个分词器es_std

GET /my_index/_analyze

{

  "analyzer": "es_std",

  "text":"a dog is in the house"

}

{

  "tokens" : [

    {

      "token" : "dog",

      "start_offset" : 2,

      "end_offset" : 5,

      "type" : "<ALPHANUM>",

      "position" : 1

    },

    {

      "token" : "house",

      "start_offset" : 16,

      "end_offset" : 21,

      "type" : "<ALPHANUM>",

      "position" : 5

    }

  ]

}

可以看到结果只有两个单词了，把停用词都给去掉了。

3、定制化自己的分词器

首先删除掉上面建立的索引

DELETE my_index

然后运行下面的语句。简单说下下面的规则吧，首先去除html标签，把&转换成and，然后采用standard进行分词，最后转换成小写字母及去掉停用词a the，建议读者好好看看，下面我也会对这个分词器进行测试。

PUT /my_index

{

  "settings": {

    "analysis": {

      "char_filter": {

        "&_to_and": {

          "type": "mapping",

          "mappings": [

            "&=> and"

          ]

        }

      },

      "filter": {

        "my_stopwords": {

          "type": "stop",

          "stopwords": [

            "the",

            "a"

          ]

        }

      },

      "analyzer": {

        "my_analyzer": {

          "type": "custom",

          "char_filter": [

            "html_strip",

            "&_to_and"

          ],

          "tokenizer": "standard",

          "filter": [

            "lowercase",

            "my_stopwords"

          ]

        }

      }

    }

  }

}

{

  "acknowledged" : true,

  "shards_acknowledged" : true,

  "index" : "my_index"

}

老规矩，测试这个分词器

GET /my_index/_analyze

{

  "analyzer": "my_analyzer",

  "text": "tom&jerry are a friend in the house, <a>, HAHA!!"

}

结果如下：

{

  "tokens" : [

    {

      "token" : "tomandjerry",

      "start_offset" : 0,

      "end_offset" : 9,

      "type" : "<ALPHANUM>",

      "position" : 0

    },

    {

      "token" : "are",

      "start_offset" : 10,

      "end_offset" : 13,

      "type" : "<ALPHANUM>",

      "position" : 1

    },

    {

      "token" : "friend",

      "start_offset" : 16,

      "end_offset" : 22,

      "type" : "<ALPHANUM>",

      "position" : 3

    },

    {

      "token" : "in",

      "start_offset" : 23,

      "end_offset" : 25,

      "type" : "<ALPHANUM>",

      "position" : 4

    },

    {

      "token" : "house",

      "start_offset" : 30,

      "end_offset" : 35,

      "type" : "<ALPHANUM>",

      "position" : 6

    },

    {

      "token" : "haha",

      "start_offset" : 42,

      "end_offset" : 46,

      "type" : "<ALPHANUM>",

      "position" : 7

    }

  ]

}

最后我们可以在实际使用时设置某个字段使用自定义分词器，语法如下：

PUT /my_index/_mapping/

{

  "properties": {

    "content": {

      "type": "text",

      "analyzer": "my_analyzer"

    }

  }

}

ElasticSearch7.3 学习之定制分词器（Analyzer）的更多相关文章

ElasticSearch7.3 学习之倒排索引揭秘及初识分词器(Analyzer)
一.倒排索引 1. 构建倒排索引例如说有下面两个句子doc1,doc2 doc1:I really liked my small dogs, and I think my mom also like ...
Lucene.net(4.8.0) 学习问题记录一:分词器Analyzer的构造和内部成员ReuseStategy
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...
Lucene学习-深入Lucene分词器,TokenStream获取分词详细信息
Lucene学习-深入Lucene分词器,TokenStream获取分词详细信息在此回复牛妞的关于程序中分词器的问题,其实可以直接很简单的在词库中配置就好了,Lucene中分词的所有信息我们都可以从 ...
es的分词器analyzer
analyzer 分词器使用的两个情形: 1,Index time analysis. 创建或者更新文档时,会对文档进行分词2,Search time analysis. 查询时,对查询语句 ...
Lucene.net(4.8.0)+PanGu分词器问题记录一:分词器Analyzer的构造和内部成员ReuseStategy
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...
Elasticsearch：定制分词器（analyzer）及相关性
转载自:https://elasticstack.blog.csdn.net/article/details/114278163 在许多的情况下,我们使用现有的分词器已经足够满足我们许多的业务需求,但 ...
Lucene.net(4.8.0) 学习问题记录二: 分词器Analyzer中的TokenStream和AttributeSource
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...
es学习(三)：分词器介绍以及中文分词器ik的安装与使用
什么是分词把文本转换为一个个的单词,分词称之为analysis.es默认只对英文语句做分词,中文不支持,每个中文字都会被拆分为独立的个体. 示例 POST http://192.168.247.8: ...
ElasticSearch7.3 学习之定制动态映射（dynamic mapping）
1.dynamic mapping ElasticSearch中有一个非常重要的特性--动态映射,即索引文档前不需要创建索引.类型等信息,在索引的同时会自动完成索引.类型.映射的创建. 当ES在文档中 ...

随机推荐

opencv笔记-GFTTDetector
在 "光流跟踪" 中,使用了 Harris 角点作为 LK 光流跟踪输入点.角点定义为在两个方向上均有较大梯度变化的小区域,使用自相关函数描述. 自相关函数为为图像平移前后某一个区 ...
Solution -「Gym 102956F」Find the XOR
\(\mathcal{Description}\) Link. 给定 \(n\) 个点 \(m\) 条边的连通无向图 \(G\),边有边权.其中 \(u,v\) 的距离 \(d(u,v)\) ...
Windows RestartManeger重启管理器
介绍重启管理器API可以消除或是减少在完成安装或是更新的过程中系统需要重启的次数.软件安装或是更新过程之所以需要重启系统的原因在于一些需要更新的文件正在被运行中的程序或服务使用.而重启管理器可以 ...
【Azure 应用服务】部署Jar到App Service for Linux，因启动命令路径配置错误而引起:( Application Error 问题
问题描述 App Service for Linux 资源创建完成后,通过FTP方式把 .jar包(logdemo.jar)包上传到 /site/wwwroot/ 文件夹后,在App Service的 ...
harbor服务器脚本
项目实战,160服务器上安装harbor.mysql等检查端口 check.sh #!/bin/bash echo -e "\033[31;1;4;5m check mysql... \0 ...
强力推荐！五款能让你成为Excel“高手”的Excel插件
excel是大家日常生活中经常用到一款表格软件,虽然软件本身的功能已经非常齐全了,但是插件可以进一步加强软件的功能,为用户提供更好的体验,提高工作效率,需要的用户快来看看吧. 1.Smartbi 首推 ...
【C#特性】 Attribute 应用
特性应用取得枚举类型的注释平时开发时,经常会用到枚举类型及其相关判断,而有时我们想显示枚举类型的注释,怎么办?下面用特性来解决这个问题. namespace AttributeDemo.Custo ...
Python实现JSON序列化和反序列化
在我的应用中,序列化就是把类转成符合JSON格式的字符串,反序列化就是把JSON格式的字符串转换成类.C#的话直接用Newtonsoft.JSON就可以了,非常好用.本来以为python也会有类似的库 ...
微信小程序获取经纬度所在城市
小程序的wx.getLocation()获得是经纬度并不包含地名,所以要通过经纬度用相应的地图转换出地名(本文使用的是百度地图) // 获取坐标 onLoad: function (options) ...
查询性能提升3倍！Apache Hudi 查询优化了解下？
从 Hudi 0.10.0版本开始,我们很高兴推出在数据库领域中称为 Z-Order 和 Hilbert 空间填充曲线的高级数据布局优化技术的支持. 1. 背景 Amazon EMR 团队最近发表了一 ...