ES ik分词器使用技巧

match查询会将查询词分词，然后对分词的结果进行term查询。

然后默认是将每个分词term查询之后的结果求交集，所以只要分词的结果能够命中，某条数据就可以被查询出来，而分词是在新建索引时指定的，只有text类型的数据才能设置分词策略。

新建索引，并指定分词策略：

PUT mail_test3

{

  "settings": {

    "index": {

      "refresh_interval": "30s",

      "number_of_shards": "1",

      "number_of_replicas": "0"

    }

  },

  "mappings": {

    "default": {

      "_all": {

        "enabled": false

      },

      "_source": {

        "enabled": true

      },

      "properties": {

        "addressTude": {

          "type": "text",

          "analyzer": "ik_max_word",

          "search_analyzer": "ik_smart",

          "copy_to": [

            "commonText"

          ],

          "fielddata": true

        },

        "captureTime": {

          "type": "long"

        },

        "commonText": {

          "type": "text",

          "analyzer": "ik_max_word",

          "search_analyzer": "ik_smart",

          "fielddata": true

        },

        "commonNum":{

          "type": "text",

          "analyzer": "ik_max_word",

          "search_analyzer": "ik_smart",

          "fielddata": true

        },

        "imsi": {

          "type": "keyword",

          "copy_to": ["commonNum"]

        },

        "uuid": {

          "type": "keyword"

        }

      }

    }

  }

}

analyzer 指的是在建索引时的分词策略，search_analyzer 指的是在查询时的分词策略。ik分词器还有一种ik_smart 的分词策略，可以比较两种分词策略的差别：

ik_smart分词策略：

GET mail_test3/_analyze

{

  "analyzer": "ik_smart",

  "text": "湖南省湘潭市江山路96号-11-8"

}

结果：

{

  "tokens": [

    {

      "token": "湖南省",

      "start_offset": 0,

      "end_offset": 3,

      "type": "CN_WORD",

      "position": 0

    },

    {

      "token": "湘潭市",

      "start_offset": 3,

      "end_offset": 6,

      "type": "CN_WORD",

      "position": 1

    },

    {

      "token": "江",

      "start_offset": 6,

      "end_offset": 7,

      "type": "CN_CHAR",

      "position": 2

    },

    {

      "token": "山路",

      "start_offset": 7,

      "end_offset": 9,

      "type": "CN_WORD",

      "position": 3

    },

    {

      "token": "96号",

      "start_offset": 9,

      "end_offset": 12,

      "type": "TYPE_CQUAN",

      "position": 4

    },

    {

      "token": "11-8",

      "start_offset": 13,

      "end_offset": 17,

      "type": "LETTER",

      "position": 5

    }

  ]

}

ik_max_word分词策略：

GET mail_test1/_analyze

{

  "analyzer": "ik_max_word",

  "text": "湖南省湘潭市江山路96号-11-8"

}

分词结果：

 {

  "tokens": [

    {

      "token": "湖南省",

      "start_offset": 0,

      "end_offset": 3,

      "type": "CN_WORD",

      "position": 0

    },

    {

      "token": "湖南",

      "start_offset": 0,

      "end_offset": 2,

      "type": "CN_WORD",

      "position": 1

    },

    {

      "token": "省",

      "start_offset": 2,

      "end_offset": 3,

      "type": "CN_CHAR",

      "position": 2

    },

    {

      "token": "湘潭市",

      "start_offset": 3,

      "end_offset": 6,

      "type": "CN_WORD",

      "position": 3

    },

    {

      "token": "湘潭",

      "start_offset": 3,

      "end_offset": 5,

      "type": "CN_WORD",

      "position": 4

    },

    {

      "token": "市",

      "start_offset": 5,

      "end_offset": 6,

      "type": "CN_CHAR",

      "position": 5

    },

    {

      "token": "江山",

      "start_offset": 6,

      "end_offset": 8,

      "type": "CN_WORD",

      "position": 6

    },

    {

      "token": "山路",

      "start_offset": 7,

      "end_offset": 9,

      "type": "CN_WORD",

      "position": 7

    },

    {

      "token": "96",

      "start_offset": 9,

      "end_offset": 11,

      "type": "ARABIC",

      "position": 8

    },

    {

      "token": "号",

      "start_offset": 11,

      "end_offset": 12,

      "type": "COUNT",

      "position": 9

    },

    {

      "token": "11-8",

      "start_offset": 13,

      "end_offset": 17,

      "type": "LETTER",

      "position": 10

    },

    {

      "token": "11",

      "start_offset": 13,

      "end_offset": 15,

      "type": "ARABIC",

      "position": 11

    },

    {

      "token": "8",

      "start_offset": 16,

      "end_offset": 17,

      "type": "ARABIC",

      "position": 12

    }

  ]

}

ik_max_word分词器的分词结果更多，分词的粒度更细，而ik_smart的分词结果粒度更粗，但较为智能。一般的策略是建立索引使用ik_max_word，查询时使用ik_smart，这样就能尽可能多的查到结果，而且上文提到，match查询最终是转化为term查询，因此只要某个分词结果命中，结果中就会有该条数据。

如果对搜索结果的精度较高，可以在查询中加入operator参数，然后让分词结果的每个term查询结果之间求交集，这样能尽可能地提高精度。

这里的operator设置为or和and的差别较大，可以测试进行比较：

GET mail_test3/_search

{

  "query": {

    "match": {

      "commonText": {

         "query": "湖北省宜昌市天台东二街",

         "operator": "and"

      }

    }

  }

}

ES ik分词器使用技巧的更多相关文章

ES系列一、CentOS7安装ES 6.3.1、集成IK分词器
Elasticsearch 6.3.1 地址: wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.3. ...
安装ik分词器以及版本和ES版本的兼容性
一.查看自己ES的版本号与之对应的IK分词器版本 https://github.com/medcl/elasticsearch-analysis-ik/blob/master/README.md 二. ...
es之IK分词器
1:默认的分析器-- standard 使用默认的分词器 curl -XGET 'http://hadoop01:9200/_analyze?pretty&analyzer=standard' ...
Elasticsearch5.1.1+ik分词器+HEAD插件安装小记
一.安装elasticsearch 1.首先需要安装好java,并配置好环境变量,详细教程请看 http://tecadmin.net/install-java-8-on-centos-rhel-an ...
elasticsearch 之IK分词器安装
IK分词器地址:https://github.com/medcl/elasticsearch-analysis-ik 安装好ES之后就可以安装分词器插件了记住选择ES对应的版本对应的有版本选择下载 ...
如何开发自己的搜索帝国之安装ik分词器
Elasticsearch默认提供的分词器,会把每个汉字分开,而不是我们想要的根据关键词来分词,我是中国人不能简单的分成一个个字,我们更希望 “中国人”,“中国”,“我”这样的分词,这样我们就需要 ...
elasticsearch安装ik分词器
一.概要: 1.es默认的分词器对中文支持不好,会分割成一个个的汉字.ik分词器对中文的支持要好一些,主要由两种模式:ik_smart和ik_max_word 2.环境操作系统:centos es版 ...
ElasticSearch6.5.0 【安装IK分词器】
不得不夸奖一下ES的周边资源,比如这个IK分词器,紧跟ES的版本,卢本伟牛逼!另外ES更新太快了吧,几乎不到半个月一个小版本就发布了!!目前已经发了6.5.2,估计我还没怎么玩就到7.0了. 下载分 ...
Elasticsearch入门之从零开始安装ik分词器
起因需要在ES中使用聚合进行统计分析,但是聚合字段值为中文,ES的默认分词器对于中文支持非常不友好:会把完整的中文词语拆分为一系列独立的汉字进行聚合,显然这并不是我的初衷.我们来看个实例: POST ...

随机推荐

H5 和 CSS3 新特性
博客地址:https://ainyi.com/52 H5 新特性语义化标签:header.footer.section.nav.aside.article 增强型表单:input 的多个 type ...
Python并发编程之学习异步IO框架：asyncio 中篇（十）
大家好,并发编程进入第十章.好了,今天的内容其实还挺多的,我准备了三天,到今天才整理完毕.希望大家看完,有所收获的,能给小明一个赞.这就是对小明最大的鼓励了.为了更好地衔接这一节,我们先来回顾一下上 ...
细说MVC中仓储模式的应用
文章提纲概述要点理论基础详细步骤总结概述要点设计模式的产生,就是在对开发过程进行不断的抽象. 我们先看一下之前访问数据的典型过程. 在Controller中定义一个Context, 例如: ...
html前端优化建议
1. css 尽可能的放到head里面,且避免css表达式 [@media 类似] 2. js 尽可能的放到</body>之前 <script>do something< ...
配置多个git账号的ssh密钥
博客改版,请直接访问新版文章:https://www.cnblogs.com/xiaoxi666/p/9975981.html 背景我们在工作中会以 ssh 的方式配置公司的 git 账号,但是平时 ...
Android破解学习之路（八）—— 进化之地内购破解
最近在TapTap闲逛,看到了进化之地这款游戏,TapTap上有两个进化之地,一个是在TapTap直接购买的,另外一个则是试玩版,玩到中间就会有个购买完整版. 试玩版连接:https://www.ta ...
java开发环境配置——IntelliJ IDEA
关于开发工具,之前是用eclipse,后来用了一段时间idea后,发现idea比eclipse好用太多了,所以推荐大家用idea 官网下载地址:https://www.jetbrains.com/id ...
nodejs 动态创建二维码
 <div class="qrcode"> <div> <p id="saoma">扫描 ...
如何保证MongoDB的安全性？
上周写了个简短的新闻<MongoDB裸奔,2亿国人求职简历泄漏!>: 根据安全站点HackenProof的报告,由于MongoDB数据库没有采取任何安全保护措施,导致共计202,730,4 ...
vue2.x 给一个对象里添加一个没有的属性
obj = {...obj, name:'addName'} //给obj对象添加一个name字段,并且赋值为‘addName’ 参考:

ES ik分词器使用技巧

ES ik分词器使用技巧的更多相关文章

随机推荐

热门专题