ElasticSearch教程——自定义分词器（转学习使用）

一、分词器

Elasticsearch中，内置了很多分词器（analyzers），例如standard（标准分词器）、english（英文分词）和chinese（中文分词），默认是standard.

standard tokenizer：以单词边界进行切分

standard token filter：什么都不做

lowercase token filter：将所有字母转换为小写

stop token filer（默认被禁用）：移除停用词，比如a the it等等

二、修改分词器设置

启用english，停用词token filter

PUT /my_index

{

  "settings": {

    "analysis": {

      "analyzer": {

        "es_std":{

          "type":"standard",

          "stopwords":"_english_"

        }

      }

    }

  }

}

三、标准分词测试代码

GET /my_index/_analyze

{

  "analyzer": "standard",

  "text":"a dog is in the house"

}

结果：

{

  "tokens": [

    {

      "token": "a",

      "start_offset": 0,

      "end_offset": 1,

      "type": "<ALPHANUM>",

      "position": 0

    },

    {

      "token": "dog",

      "start_offset": 2,

      "end_offset": 5,

      "type": "<ALPHANUM>",

      "position": 1

    },

    {

      "token": "is",

      "start_offset": 6,

      "end_offset": 8,

      "type": "<ALPHANUM>",

      "position": 2

    },

    {

      "token": "in",

      "start_offset": 9,

      "end_offset": 11,

      "type": "<ALPHANUM>",

      "position": 3

    },

    {

      "token": "the",

      "start_offset": 12,

      "end_offset": 15,

      "type": "<ALPHANUM>",

      "position": 4

    },

    {

      "token": "house",

      "start_offset": 16,

      "end_offset": 21,

      "type": "<ALPHANUM>",

      "position": 5

    }

  ]

}

四、设置的英文分词测试代码

GET /my_index/_analyze

{

  "analyzer": "es_std",

  "text":"a dog is in the house"

}

结果：

{

  "tokens": [

    {

      "token": "dog",

      "start_offset": 2,

      "end_offset": 5,

      "type": "<ALPHANUM>",

      "position": 1

    },

    {

      "token": "house",

      "start_offset": 16,

      "end_offset": 21,

      "type": "<ALPHANUM>",

      "position": 5

    }

  ]

}

五、自定义分词器

PUT /my_index

{

  "settings": {

    "analysis": {

      "char_filter": {

        "&_to_and": {

          "type": "mapping",

          "mappings": ["&=> and"]

        }

      },

      "filter": {

        "my_stopwords": {

          "type": "stop",

          "stopwords": ["the", "a"]

        }

      },

      "analyzer": {

        "my_analyzer": {

          "type": "custom",

          "char_filter": ["html_strip", "&_to_and"],

          "tokenizer": "standard",

          "filter": ["lowercase", "my_stopwords"]

        }

      }

    }

  }

}

测试：

GET /my_index/_analyze

{

  "text": "tom&jerry are a friend in the house, <a>, HAHA!!",

  "analyzer": "my_analyzer"

}

结果：

{

  "tokens": [

    {

      "token": "tomandjerry",

      "start_offset": 0,

      "end_offset": 9,

      "type": "<ALPHANUM>",

      "position": 0

    },

    {

      "token": "are",

      "start_offset": 10,

      "end_offset": 13,

      "type": "<ALPHANUM>",

      "position": 1

    },

    {

      "token": "friend",

      "start_offset": 16,

      "end_offset": 22,

      "type": "<ALPHANUM>",

      "position": 3

    },

    {

      "token": "in",

      "start_offset": 23,

      "end_offset": 25,

      "type": "<ALPHANUM>",

      "position": 4

    },

    {

      "token": "house",

      "start_offset": 30,

      "end_offset": 35,

      "type": "<ALPHANUM>",

      "position": 6

    },

    {

      "token": "haha",

      "start_offset": 42,

      "end_offset": 46,

      "type": "<ALPHANUM>",

      "position": 7

    }

  ]

}

六、type中的使用

PUT /my_index/_mapping/my_type

{

  "properties": {

    "content": {

      "type": "text",

      "analyzer": "my_analyzer"

    }

  }

}

ElasticSearch教程——自定义分词器（转学习使用）的更多相关文章

elasticsearch教程--中文分词器作用和使用
概述本文都是基于elasticsearch安装教程中的elasticsearch安装目录(/opt/environment/elasticsearch-6.4.0)为范例环境准备 ·全新最小 ...
Elasticsearch集成HanLP分词器-个人学习
1.通过git下载分词器代码. 连接如下:https://gitee.com/hualongdata/hanlp-ext hanlp官网如下:http://hanlp.linrunsoft.com/ ...
Elasticsearch之中文分词器插件es-ik的自定义热更新词库
不多说,直接上干货! 欢迎大家,关注微信扫码并加入我的4个微信公众号: 大数据躺过的坑 Java从入门到架构师人工智能躺过的坑 Java全栈大联盟 ...
Elasticsearch笔记六之中文分词器及自定义分词器
中文分词器在lunix下执行下列命令,可以看到本来应该按照中文"北京大学"来查询结果es将其分拆为"北","京","大" ...
【自定义IK词典】Elasticsearch之中文分词器插件es-ik的自定义词库
Elasticsearch之中文分词器插件es-ik 针对一些特殊的词语在分词的时候也需要能够识别有人会问,那么,例如: 如果我想根据自己的本家姓氏来查询,如zhouls,姓氏“周”. 如 ...
【分词器及自定义】Elasticsearch中文分词器及自定义分词器
中文分词器在lunix下执行下列命令,可以看到本来应该按照中文”北京大学”来查询结果es将其分拆为”北”,”京”,”大”,”学”四个汉字,这显然不符合我的预期.这是因为Es默认的是英文分词器我需要为 ...
Elasticsearch修改分词器以及自定义分词器
Elasticsearch修改分词器以及自定义分词器参考博客:https://blog.csdn.net/shuimofengyang/article/details/88973597
ElasticSearch最全分词器比较及使用方法
介绍:ElasticSearch 是一个基于 Lucene 的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful web 接口.Elasticsearch 是用 Java 开 ...
elasticsearch安装ansj分词器
1.概述 elasticsearch用于搜索引擎,需要设置一些分词器来优化索引.常用的有ik_max_word: 会将文本做最细粒度的拆分.ik_smart: 会做最粗粒度的拆分.ansj等. ...

随机推荐

第15.13节 PyQt(Python+Qt)入门学习：Qt Designer的Spacers部件详解
一. 引言在Designer的部件栏中,有两种类型的Spacers部件,下图中上面布局中为一个水平间隔部件(按钮1和按钮2之间的部件),下面布局中为一个垂直间隔部件(按钮3和4之间),如图: 这两种 ...
孪生网络入门（下） Siamese Net分类服装MNIST数据集(pytorch)
主题列表:juejin, github, smartblue, cyanosis, channing-cyan, fancy, hydrogen, condensed-night-purple, gr ...
面试阿里，字节，腾讯90%被问到的springboot常见面试题，这次给你讲的明明白白！
1.什么是Spring Boot? 多年来,随着新功能的增加,spring变得越来越复杂.只需访问https://spring.io/projects页面,我们就会看到可以在我们的应用程序中使用的所有 ...
PHP代码审计分段讲解（4）
08 SESSION验证绕过源代码为: <?php $flag = "flag"; session_start(); if (isset ($_GET['passw ...
shell 编程 && bash 简介(shell 变量、shell操作环境、数据流重导向、管线命令、shell script)
如何学习一门编程语言数据类型运算符关键字 1 认识BASH 这个shell linux是操作系统核心,用户通过shell与核心进行沟通,达到我们想要的目的.硬件.核心.用户之间的关系: 原理:所 ...
CSS图标与文字对齐的两种方法
在平时写页面的过程中,常遇到要把小图标与文字对齐的情况.比如: 总结了两种方法,代码量都比较少. 第一种对img设置竖直方向对齐为middle, <div> <img src=&q ...
kubernetes 中的证书工作机制
一文带你彻底厘清 Kubernetes 中的证书工作机制搬砖者: 张首富时间: 2020-05-26 w x: y18163201 原文地址:https://zhaohuabing.com/po ...
Security篇:RememberMe
RememberMe功能 rememberMeServices接口有AbstractRememberMeServices抽象类 PersistentTokenBasedRememberMeServi ...
2020-2021-1 20209307《Linux内核原理与分析》第五周作业
一.理论知识系统调用:操作系统为用户态进程与硬件设备进行交互提供的一组接口. 系统调用的三层皮:API(应用程序接口),中断向量system_call,中断服务程序sys_xyz 宏观上Linux操 ...
精尽Spring MVC源码分析 - HandlerAdapter 组件（三）之 HandlerMethodArgumentResolver
该系列文档是本人在学习 Spring MVC 的源码过程中总结下来的,可能对读者不太友好,请结合我的源码注释 Spring MVC 源码分析 GitHub 地址进行阅读 Spring 版本:5.2. ...

ElasticSearch教程——自定义分词器（转学习使用）

ElasticSearch教程——自定义分词器（转学习使用）的更多相关文章

随机推荐

热门专题