elasticsearch-ik

因lucene默认采用英文且英文通过空格就可以断句。而中文则是词组，如果不加载中文词库或插件则会变为一个一个字而非词组，因此需要加载中文词库。

不加分词库所看到的中文分词效果。

post _analyze

{

   "text": "中国人民"

}

结果变为了1个字一个字的：

{

   "tokens": [

      {

         "token": "中",

         "start_offset": 0,

         "end_offset": 1,

         "type": "<IDEOGRAPHIC>",

         "position": 0

      },

      {

         "token": "国",

         "start_offset": 1,

         "end_offset": 2,

         "type": "<IDEOGRAPHIC>",

         "position": 1

      },

      {

         "token": "人",

         "start_offset": 2,

         "end_offset": 3,

         "type": "<IDEOGRAPHIC>",

         "position": 2

      },

      {

         "token": "民",

         "start_offset": 3,

         "end_offset": 4,

         "type": "<IDEOGRAPHIC>",

         "position": 3

      }

   ]

}

词库下载地址： https://github.com/medcl/elasticsearch-analysis-ik/releases

https://github.com/medcl/elasticsearch-analysis-ik （readme.txt 阅读安装）

将下载的内容copy到elasticsearch的plugin/ik文件夹下，如果没有则建立此文件夹。重启有效。

ik的作用域

standard

　　不需要特别定义（默认）

system

　　在es早期版本可通过在yml中配置 index.analysis.analyzer.default.type: ik

　　错误 "node settings must not contain any index level settings"

　　5.x之后elastic不允许在yml文件中添加以index开头的配置文件，要求这些都必须在es启动后通过接口传递

index

　　首先创建index，然后对index设定属性，最后查看。这里使用的是 sense

　　目前ik的analysis只能通过挂载在index下，对指定的属性使用。如果新加属性要使用ik，则先到map中进行维护增加属性要使用的analysis。

//创建索引

put /testindex

// 设置analysis 注意_mapping中一个索引对属性创建的map，一旦建立后不能修改，只能新增。

POST /testindex/fulltext/_mapping

{

        "properties": {

            "content": {

                "type": "text",

                "analyzer": "ik_max_word",

                "search_analyzer": "ik_max_word"

            }

        }

}

以上可以看出仅content属性具有ik索词效果，其它属性不具备。

mapping添加 address错误： Mapper for [address] conflicts with existing mapping in other types:\n[mapper [address] has different [analyzer]]

这是因为已经建立了一个属性数据，而这个属性数据在建立时会自动给分配一个mapping映射，因此在建立mapper时说已经存在有一个不同类型的属性。即使删除这笔数也不行，因为属性是只能增加不能修改。

切记切记！！！

ik_max_word 以最大的分词形式进行分词，精细粒度

ik_smart 以最敏捷的分词形式分词，粗粒度

注意：原先老版本的ik已经被ik_max_word，ik_smart取代

// 测试不要加type不然以为是create数据

post testindex/_analyze

{

"analyzer": "ik_max_word",

   "text": "中国人民"

}

// 结果

{

   "tokens": [

      {

         "token": "中国人民",

         "start_offset": 0,

         "end_offset": 4,

         "type": "CN_WORD",

         "position": 0

      },

      {

         "token": "中国人",

         "start_offset": 0,

         "end_offset": 3,

         "type": "CN_WORD",

         "position": 1

      },

      {

         "token": "中国",

         "start_offset": 0,

         "end_offset": 2,

         "type": "CN_WORD",

         "position": 2

      },

      {

         "token": "国人",

         "start_offset": 1,

         "end_offset": 3,

         "type": "CN_WORD",

         "position": 3

      },

      {

         "token": "人民",

         "start_offset": 2,

         "end_offset": 4,

         "type": "CN_WORD",

         "position": 4

      }

   ]

}

同时可通过建立索引模板来创建索引统一格式。

DELETE _template/temp_ik

POST _template/temp_ik

{

  "index_patterns": ["ik_*", "*_ik"],

  "settings": {

    "number_of_shards": 2

  },

  "mappings": {

    "type1": {

      "_source": {

        "enabled": true

      },

      "properties": {

        "title": {

          "type": "text",

            "analyzer": "ik_max_word",

                "search_analyzer": "ik_max_word"

        },

        "name":{

            "type": "text",

            "analyzer": "ik_max_word",

                "search_analyzer": "ik_max_word"

        },

        "content":{

            "type": "text",

             "analyzer": "ik_max_word",

                "search_analyzer": "ik_max_word"

        },

        "create_date": {

          "type": "date",

          "format": "EEE MMM dd HH:mm:ss Z YYYY"

        }

      }

    }

  }

}

PUT ik_test

POST ik_test/type1/

{

    "title": "人民银行",

    "name":"7月金融数据传政策暖意",

    "content":"社会融资规模增速等数据也传递出这样的信息"

}

POST ik_test/type1/_search?pretty=true

{

    "query": {"match": {

       "title": "人民"

    }}

}

elasticsearch-ik的更多相关文章

jar hell & elasticsearch ik 版本问题
想给es 安装一个ik 的插件, 我的es 是 2.4.0, 下载了一个版本是 1.9.5, [2016-10-09 16:56:26,248][INFO ][node ] [node-2] init ...
ElasticSearch ik分词安装
1.下载对应版本的ES ik分词 https://github.com/medcl/elasticsearch-analysis-ik/releases 2.解压elasticsearch-analy ...
使用 Elasticsearch ik分词实现同义词搜索（转）
1.首先需要安装好Elasticsearch 和elasticsearch-analysis-ik分词器 2.配置ik同义词 Elasticsearch 自带一个名为 synonym 的同义词 fil ...
Elasticsearch IK+pinyin
如何在Elasticsearch中安装中文分词器(IK+pinyin) 如果直接使用Elasticsearch的朋友在处理中文内容的搜索时,肯定会遇到很尴尬的问题——中文词语被分成了一个一个的汉字 ...
elasticsearch ik中文分词器安装
特殊说明:灰色文字用来辅助理解的. 安装IK中文分词器我在百度上搜索了下,大多介绍的都是用maven打包下载下来的源码,这种方法也行,但是不够方便,为什么这么说? 首先需要安装maven吧?其次需要 ...
【热更新IK词典】ElasticSearch IK 自动热更新原理与实现
一.热更新原理 elasticsearch开启加载外部词典功功能后,会每60s间隔进行刷新字典.具体原理代码如下所示: public void loadDic(HttpServletRequest r ...
Windows10安装Elasticsearch IK分词插件
安装插件 cmd切换到Elasticsearch安装目录下 C:\Users\Administrator>D: D:\>cd D:\Program Files\Elastic\Elasti ...
elasticsearch ik同义词
由于elasticsearch 更新实在太快,配置同义词的资料层次不齐,费尽千辛万苦终于找到了.本文通过一个同义词搜索的简单实例来说明ik同义词的配置. 环境介绍这点很重要,本文是基于elastic ...
elasticsearch ik分词
elasticsearch 默认并不支持中文分词,默认将每个中文字切分为一个词,这明显不符合我们的业务要求.这里就需要用到ik分词插件. 本文主要囊括了以下几部分,ik插件安装.ik用法介绍.自定义词 ...
elasticsearch ik解析器
ik解析器 1. ik解析器 The IK Analysis plugin integrates Lucene IK analyzer (http://code.google.com/p/i ...

随机推荐

JAVA虚拟机关闭钩子(Shutdown Hook)
程序经常也会遇到进程挂掉的情况,一些状态没有正确的保存下来,这时候就需要在JVM关掉的时候执行一些清理现场的代码.JAVA中的ShutdownHook提供了比较好的方案. JDK提供了Java.Run ...
MySQL学习----索引的使用
一.什么是索引?为什么要建立索引? 索引用于快速找出在某个列中有一特定值的行,不使用索引,MySQL必须从第一条记录开始读完整个表,直到找出相关的行,表越大,查询数据所花费的时间就越多,如果表中查询的 ...
[UE4]游戏中服务器切换地图，控制台命令Execute console Command
Execute console Command ServerTravel {地图名称}?listen 在服务器执行了这个命令,所有连接到该服务器的客户端都会跟着服务器同时切换到指定的地图. 1.创建一 ...
vue的坑
1. (vue2.x以上,1.x没有问题)vue和jq一起使用的冲突:在使用了v-bind: class的元素上,当vue和jq都需要增改class时,用jq加的属性可能无效. 原因:当数据的布尔值改 ...
Processing Binary Protocols with Client-Side JavaScript
http://blog.mgechev.com/2015/02/06/parsing-binary-protocol-data-javascript-typedarrays-blobs/ https: ...
Linux双网卡绑定
Linux双网卡绑定作者:Eric 微信:loveoracle11g eth0和eth1绑定为bond0 [root@rac-node1 ~]# cat /etc/sysconfig/network ...
How Computers Boot Up.计算机的引导过程
原文标题:How Computers Boot Up 原文地址:http://duartes.org/gustavo/blog/ [注:本人水平有限,只好挑一些国外高手的精彩文章翻译一下.一来自己复习 ...
requests模块报错：Use body.encode('utf-8') if you want to send it encoded in UTF-8.
在做企业向微信用户个人付款功能时,调用第三方sdk,在进行 requests 的post请求时, 代码如下 req = requests.post(url, data=data,cert(ap ...
uWSGI, Gunicorn, 啥玩意儿?
因为nginx等优秀的开源项目,有不少本来不是做服务器的同学也可以写很多服务器端的程序了.但是在聊天中会发现,大家虽然写了不少代码,但是对wsgi是什么,gunicorn是什么,反向代理又是什么并不了 ...
Spring获取application.properties
方法一:@Value获取属性值首先在application.properties中添加属性值 app.name=MyApp app.description=${app.name} is a Spri ...

elasticsearch-ik

elasticsearch-ik的更多相关文章

随机推荐

热门专题