028 ElasticSearch----全文检索技术03---基础知识详解01-IK分词器和映射

1.IK分词器

(1)安装

使用IK分词器可以实现对中文分词的效果。
下载IK分词器：（Github地址：https://github.com/medcl/elasticsearch-analysis-ik）

下载zip，并将解压的文件拷贝到ES安装目录的plugins下的ik目录下(注意：ik的版本必须与elasticSearch一样)

然后重启elasticsearch：

测试分词效果：
发送：post localhost:9200/_analyze
{"text":"测试分词器，后边是测试内容：spring cloud实战","analyzer":"ik_max_word" }

(2)两种分词方式

ik分词器有两种分词模式：ik_max_word和ik_smart模式。
<1>ik_max_word
会将文本做最细粒度的拆分，比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国、中华人民、中华、
华人、人民共和国、人民、共和国、大会堂、大会、会堂等词语。
<2>ik_smart
会做最粗粒度的拆分，比如会将“中华人民共和国人民大会堂”拆分为中华人民共和国、人民大会堂。

(3)自定义词库

如果要让分词器支持一些专有词语，可以自定义词库。
iK分词器自带一个main.dic的文件，此文件为词库文件。

在上边的目录中新建一个my.dic文件（注意文件格式为utf-8（不要选择utf-8 BOM，使用editplus编辑文件，不要使用自带txt文件编辑器）
可以在其中自定义词汇：
比如定义：
配置文件中配置my.dic，

重启ES，测试分词效果：
发送：post localhost:9200/_analyze
{"text":"测试分词器，后边是测试内容：spring cloud实战","analyzer":"ik_max_word" }

2.映射

(1)映射维护方法

<1>查询所有索引的映射：
GET： http://localhost:9200/_mapping

<2>创建映射
post 请求：http://localhost:9200/lucky/doc/_mapping

<3>更新映射
映射创建成功可以添加新字段，已有字段不允许更新。
<4>删除映射
通过删除索引来删除映射。

(2)常用映射类型

下图是ES6.2核心的字段类型如下：

<1>text文本字段

字符串包括text和keyword两种类型：

text

　　　　1）analyzer
　　　　通过analyzer属性指定分词器。
　　　下边指定name的字段类型为text，使用ik分词器的ik_max_word分词模式。

"name": {

"type": "text",

"analyzer":"ik_max_word"

}

上边指定了analyzer是指在索引(分词的过程)和搜索都使用ik_max_word，如果单独想定义搜索时使用的分词器则可以通过search_analyzer属性。
对于ik分词器建议是索引时使用ik_max_word将搜索内容进行细粒度分词，搜索时使用ik_smart进行粗粒度分词，提高搜索精确性。

"name": {

"type": "text",

"analyzer":"ik_max_word",

"search_analyzer":"ik_smart"

}

　　　　2）index
　　　　　　通过index属性指定是否索引(即通过设置index属性，来指定是否进行分词)。注意：索引为了搜索，搜索必须分词。
　　　　　　默认为index=true，即要进行索引，只有进行索引才可以从索引库搜索到。
　　　　　　但是也有一些内容不需要索引，比如：商品图片地址只被用来展示图片，不进行搜索图片，此时可以将index设置为false。
　　　　　　删除索引，重新创建映射，将pic的index设置为false，尝试根据pic去搜索，结果搜索不到数据

　　　 3）store

　　　　是否在source之外存储，每个文档索引后会在 ES中保存一份原始文档，存放在"_source"中。

　　　一般情况下不需要设置store属性为true，因为在_source中已经有一份原始文档了。

　　测试：

　　<1>创建新索引：

　　<2>创建新映射：Post http://localhost:9200/xc_course/doc/_mapping

{

  "properties": {

    "name": {

      "type": "text",

      "analyzer": "ik_max_word",

      "search_analyzer": "ik_smart"

    },

    "description": {

      "type": "text",

      "analyzer": "ik_max_word",

      "search_analyzer": "ik_smart"

    },

    "pic": {

      "type": "text",

      "index": false

    },

    "studymodel": {

      "type": "text"

    }

  }

}

　　　　<3>插入文档：
　　　　http://localhost:9200/xc_course/doc/4028e58161bcf7f40161bcf8b77c0000

查询测试：
Get http://localhost:9200/xc_course/_search?q=name:开发
Get http://localhost:9200/xc_course/_search?q=description:开发
Get http://localhost:9200/xc_course/_search?q=pic:group1/M00/00/01/wKhlQFqO4MmAOP53AAAcwDwm6SU490.jpg
Get http://localhost:9200/xc_course/_search?q=studymodel:201002
通过测试发现：name和description都支持全文检索，pic不可作为查询条件。

keyword关键字字段

　　上边介绍的text文本字段在映射时要设置分词器，keyword字段为关键字字段，通常搜索keyword是按照整体搜索，所以创建keyword字段的索引时是不进行分词的，比如：邮政编码、手机号码、身份证等。keyword字段通常用于过虑、排序、聚合等

<2>date日期类型

日期类型不用设置分词器。
通常日期类型的字段用于排序。
1)format
通过format设置日期格式
例子：
下边的设置允许date字段存储年月日时分秒、年月日及毫秒三种格式。

{

  "properties": {

    "timestamp": {

      "type": "date",

      "format": "yyyy‐MM‐dd HH:mm:ss||yyyy‐MM‐dd"

    }

  }

}

<3>数值类型

下边是ES支持的数值类型

1、尽量选择范围小的类型，提高搜索效率
2、对于浮点数尽量用比例因子，比如一个价格字段，单位为元，我们将比例因子设置为100这在ES中会按分存
储，映射如下：

"price": {

"type": "scaled_float",

"scaling_factor": 100

},

由于比例因子为100，如果我们输入的价格是23.45则ES中会将23.45乘以100存储在ES中。
如果输入的价格是23.456，ES会将23.456乘以100再取一个接近原始值的数，得出2346。
使用比例因子的好处是整型比浮点型更易压缩，节省磁盘空间

028 ElasticSearch----全文检索技术03---基础知识详解01-IK分词器和映射的更多相关文章

Cisco路由技术基础知识详解
第一部分请写出568A的线序(接触网络第一天就应该会的,只要你掐过,想都能想出来) .网卡MAC地址长度是( )个二进制位(16进制与2进制的换算关系,只是换种方式问,不用你拿笔去算) A.12 ...
RabbitMQ,Apache的ActiveMQ,阿里RocketMQ,Kafka,ZeroMQ,MetaMQ,Redis也可实现消息队列，RabbitMQ的应用场景以及基本原理介绍，RabbitMQ基础知识详解，RabbitMQ布曙
消息队列及常见消息队列介绍 2017-10-10 09:35操作系统/客户端/人脸识别一.消息队列(MQ)概述消息队列(Message Queue),是分布式系统中重要的组件,其通用的使用场景可以 ...
RabbitMQ基础知识详解
什么是MQ? MQ全称为Message Queue, 消息队列(MQ)是一种应用程序对应用程序的通信方法.MQ是消费-生产者模型的一个典型的代表,一端往消息队列中不断写入消息,而另一端则可以读取队列中 ...
Python基础知识详解从入门到精通（七）类与对象
本篇主要是介绍python,内容可先看目录其他基础知识详解,欢迎查看本人的其他文章Python基础知识详解从入门到精通(一)介绍Python基础知识详解从入门到精通(二)基础Python基础知识详 ...
Elasticsearch之文档的增删改查以及ik分词器
文档的增删改查增加文档使用elasticsearch-head查看修改文档使用elasticsearch-head查看删除文档使用elasticsearch-head查看查看文档的三种方 ...
直播一：H.264编码基础知识详解
一.编码基础概念 1.为什么要进行视频编码? 视频是由一帧帧图像组成,就如常见的gif图片,如果打开一张gif图片,可以发现里面是由很多张图片组成.一般视频为了不让观众感觉到卡顿,一秒钟至少需要16帧 ...
第157天：canvas基础知识详解
目录一.canvas简介 1.1 什么是canvas?(了解) 1.2 canvas主要应用的领域(了解) 二.canvas绘图基础 2.0 sublime配置canvas插件(推荐) 2.1 Ca ...
redis基础知识详解
一.redis基础知识 1.Redis是什么Redis是一个开源的key-value存储系统. 和Memcached类似,它支持存储的value类型相对更多,包括string(字符串).list(链表 ...
【干货】用大白话聊聊JavaSE — ArrayList 深入剖析和Java基础知识详解（二）
在上一节中,我们简单阐述了Java的一些基础知识,比如多态,接口的实现等. 然后,演示了ArrayList的几个基本方法. ArrayList是一个集合框架,它的底层其实就是一个数组,这一点,官方文档 ...

随机推荐

02、JDBC查询
① 向数据库发送SQL查询语句首先使用Statement声明一个SQL语句对象,然后让已创建的连接对象con调用方法createStatement()创建SQL语句对象. Statement sql ...
maven 镜像仓库 setting.xml修改 & 手动导入的包如何加到maven里面
如果不知道maven安装路径IDEA中打File->Settings 再点Build->Maven右边看maven安装路径,打开这个路径,再打开conf/settings.xml文件 ...
Flutter 徐徐图之（一）—— 从搭建开发环境到 Hello World
一.环境变量由于众所周知的原因,在国内访问 Flutter 有时可能会受到限制,所以在开发之前,需要先配置环境变量 MacOS: 编辑 ~/.bash_profile 文件 vim ~/.bash_ ...
python列表推导式及其简单应用
列表推导式(又称列表解析式)提供了一种简明扼要的方法来创建列表一个简单平方普通for循环 for i in range(1,5): print(i*i,end='') 列表推导式 res = [x ...
(转)牛牛牌型判定(五小牛 > 五花牛 > 炸弹 > 银牛 > 牛牛 > 有牛>没牛)
牌型大小: 五小牛 > 五花牛 > 炸弹 > 银牛 > 牛牛 > 有牛(牛987654321) > 没牛,K > Q > J ……2 > A, 黑 ...
Android调用系统相机和相册并解决data为空，OOM，图片角度不对的问题
最近公司项目用到手机拍照的问题,好不容易在网上copy了一些代码,但是运行起来一大堆bug,先是三星手机上运行程序直接崩掉,debug了一下原来是onActivityResult中data返回为空,找 ...
JVM参数最佳实践：元空间的初始大小和最大大小
本文阅读时间大约4分钟. JVM加载类的时候,需要记录类的元数据,这些数据会保存在一个单独的内存区域内,在Java 7里,这个空间被称为永久代(Permgen),在Java 8里,使用元空间(Meta ...
Jpa的简介
Jpa:是用于数据持久化的一组标准接口. 1.HelloWorld的编写创建EntityManagerFactory 创建EntityManager 开启事务数据持久化提交事务关闭Entity ...
Hyper-v，装XP的时候没有驱动上不了网，装这个集成服务（vmguest.iso ）就可以了
Win10自带的Hyper-v,装XP的时候没有驱动上不了网,装这个集成服务(vmguest.iso )就可以了安装后无法识别显卡及网卡设备,不能与虚拟网络通讯,设备管理器中显示三个未知设备. 在X ...
win10自带截屏操作
1.win+shift+S,自由截屏 2.win+W,截屏后编辑 3.alt+PrtSc,截取当前活动界面,鼠标在微信就是微信,在浏览器就是浏览器.在桌面就是所有界面. 4.PrtScn,截取所有屏幕 ...

028 ElasticSearch----全文检索技术03---基础知识详解01-IK分词器和映射

028 ElasticSearch----全文检索技术03---基础知识详解01-IK分词器和映射的更多相关文章

随机推荐

热门专题