elasticsearch中的mapping简介

默认mapping

elasticsearch(以下简称ES)是没有模式(schema)的，当我们执行以下命令：

curl -XPUT http://localhost:9200/test/item/1 -d '{"name":"zach", "description": "A Pretty cool guy."}'

ES能非常聪明的识别出"name"和"description"字段的类型是string， ES默认会创建以下的mapping。

mappings: {

    item: {

        properties: {

            description: {

                type: string

            }

            name: {

                type: string

            }

        }

    }

}

什么是mapping

ES的mapping非常类似于静态语言中的数据类型：声明一个变量为int类型的变量，以后这个变量都只能存储int类型的数据。同样的，一个number类型的mapping字段只能存储number类型的数据。

同语言的数据类型相比，mapping还有一些其他的含义，mapping不仅告诉ES一个field中是什么类型的值，它还告诉ES如何索引数据以及数据是否能被搜索到。

当你的查询没有返回相应的数据，你的mapping很有可能有问题。当你拿不准的时候，直接检查你的mapping。

剖析mapping

一个mapping由一个或多个analyzer组成，一个analyzer又由一个或多个filter组成的。当ES索引文档的时候，它把字段中的内容传递给相应的analyzer，analyzer再传递给各自的filters。

filter的功能很容易理解：一个filter就是一个转换数据的方法，输入一个字符串，这个方法返回另一个字符串，比如一个将字符串转为小写的方法就是一个filter很好的例子。

一个analyzer由一组顺序排列的filter组成，执行分析的过程就是按顺序一个filter一个filter依次调用， ES存储和索引最后得到的结果。

总结来说， mapping的作用就是执行一系列的指令将输入的数据转成可搜索的索引项。

默认analyzer

回到我们的例子， ES猜测description字段是string类型，于是默认创建一个string类型的mapping，它使用默认的全局analyzer，默认的analyzer是标准analyzer, 这个标准analyzer有三个filter：token filter, lowercase filter和stop token filter。

我们可以在做查询的时候键入_analyze关键字查看分析的过程。使用以下指令查看description字段的转换过程：

curl -X GET "http://localhost:9200/test/_analyze?analyzer=standard&pretty=true" -d "A Pretty cool guy."

{

  "tokens" : [ {

    "token" : "pretty",

    "start_offset" : 2,

    "end_offset" : 8,

    "type" : "<ALPHANUM>",

    "position" : 2

  }, {

    "token" : "cool",

    "start_offset" : 9,

    "end_offset" : 13,

    "type" : "<ALPHANUM>",

    "position" : 3

  }, {

    "token" : "guy",

    "start_offset" : 14,

    "end_offset" : 17,

    "type" : "<ALPHANUM>",

    "position" : 4

  } ]

可以看到，我们的description字段的值转换成了[pretty], [cool], [guy]，在转换过程中大写的A，标点符号都被filter过滤掉了， Pretty也转成了全小写的pretty，这里比较重要的是，即使ES存储数据的时候仍然存储的是完整的数据，但是可以搜索到这条数据的关键字只剩下这三个单词了，其他的都是抛弃掉了。

看看以单词a来搜索的结果：

$ curl -X GET "http://localhost:9200/test/_search?pretty=true" -d '{

    "query" : {

        "text" : { "description": "a" }

    }

}'

{

  "took" : 29,

  "timed_out" : false,

  "_shards" : {

    "total" : 5,

    "successful" : 5,

    "failed" : 0

  },

  "hits" : {

    "total" : 0,

    "max_score" : null,

    "hits" : [ ]

  }

}

text类型的搜索在查询过程中使用了和之前插入数据相同的分析/过滤系统，所以我们输入"a"，mapping不会有任何返回，因为单词“a”不会被ES存储和索引。反过来，如果我们使用单词"cool"进行搜索：

curl -X GET "http://localhost:9200/test/_search?pretty=true" -d '{

    "query" : {

        "text" : { "description": "cool" }

    }

}'

{

  "took" : 29,

  "timed_out" : false,

  "_shards" : {

    "total" : 5,

    "successful" : 5,

    "failed" : 0

  },

  "hits" : {

    "total" : 1,

    "max_score" : 0.15342641,

    "hits" : [ {

      "_index" : "test",

      "_type" : "item",

      "_id" : "1",

      "_score" : 0.15342641, "_source" : {"name":"zach", "description": "A pretty cool guy"}

    } ]

  }

}

现在就能得到正确的结果，这是一个公认的简单例子，但是它描述了ES是如何工作的，不要把mapping想成是数据类型，把它想象成是搜索数据的指令集合。如果你不想字符"a"被删除，你需要修改你的analyzer。

原文: http://euphonious-intuition.com/2012/07/an-introduction-to-mapping-in-elasticsearch/

elasticsearch中的mapping简介的更多相关文章

elasticsearch中的mapping映射配置与查询典型案例
elasticsearch中的mapping映射配置与查询典型案例 elasticsearch中的mapping映射配置示例比如要搭建个中文新闻信息的搜索引擎,新闻有"标题".&q ...
ElasticSearch 中的 Mapping
公号:码农充电站pro 主页:https://codeshellme.github.io 1,ES 中的 Mapping ES 中的 Mapping 相当于传统数据库中的表定义,它有以下作用: 定义索 ...
elasticsearch中mapping全解实战
目录 Mapping简介 Mapping Type 分词器最佳实践字段类型 text 类型 keyword 类型 date类型 object类型 nest类型 range类型实战:同时使用keyw ...
使用Hive或Impala执行SQL语句，对存储在Elasticsearch中的数据操作(二)
CSSDesk body { background-color: #2574b0; } /*! zybuluo */ article,aside,details,figcaption,figure,f ...
使用Hive或Impala执行SQL语句，对存储在Elasticsearch中的数据操作
http://www.cnblogs.com/wgp13x/p/4934521.html 内容一样,样式好的版本. 使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据 ...
使用Elasticsearch中的copy_to来提高搜索效率
在今天的这个教程中,我们来着重讲解一下如何使用Elasticsearch中的copy来提高搜索的效率.比如在我们的搜索中,经常我们会遇到如下的文档: { "user" : &quo ...
如何在Elasticsearch中安装中文分词器(IK+pinyin)
如果直接使用Elasticsearch的朋友在处理中文内容的搜索时,肯定会遇到很尴尬的问题--中文词语被分成了一个一个的汉字,当用Kibana作图的时候,按照term来分组,结果一个汉字被分成了一组. ...
Elasticsearch中的相似度模型(原文：Similarity in Elasticsearch)
原文链接:https://www.elastic.co/blog/found-similarity-in-elasticsearch 原文 By Konrad Beiske 翻译 By 高家宝译者按 ...
elasticsearch的映射(mapping)和分析(analysis)
转发自:http://blog.csdn.net/hzrandd/article/details/47128895 分析和分析器分析(analysis)是这样一个过程: 首先,表征化一个文本块为适用 ...

随机推荐

在 GitHub 公开仓库中隐藏自己的私人邮箱地址
GitHub 重点在开方源代码,其本身还是非常注重隐私的.这一点与面向企业的 GitLab 很不一样. 不过,你依然可能在 GitHub 上泄露隐私信息,例如企业内部所用的电子邮箱. GitHub 对 ...
Oracle中Inner join和Where的区别
1 .Where子句中使用的连接语句,在数据库语言中,被称为隐性连接.Inner join--on子句产生的连接称为显性连接.(其他Join参数也是显性连接)Where 和Inner join产生的连 ...
用fiddler设置手机代理
做App测试的朋友可能因为环境的需要,要切换不同的测试环境,这时就需要在自己的电脑上配置好环境,然后在手机上设置代理,用WiFi连自己的电脑,这样一来,手机网络走的就是自己的电脑网络,也就是说,手机的 ...
direct2d封装
图片项目
控制已经打开的Excel
using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; usin ...
Android学习路线总结，绝对干货（转）
title: Android学习路线总结,绝对干货tags: Android学习路线,Android学习资料,怎么学习androidgrammar_cjkRuby: true--- 一.前言不知不觉 ...
【转】Eclipse的启动问题【an error has occurred see the log file】
原文网址:http://coderlin.blog.51cto.com/7386328/1275215 方法1: 今天打开Eclipse的时候出现来了一个问题,导致了Eclipse打不开错误的提示是 ...
java 工作流
BPM是jboss旗下遵守LGPL许可的java开源工作流,功能比较完善,从4.0开始引入了pvm的概念,支持jPDL.BPEL等流程定义语言.由于相关资料还比较少,开发自己的一个demo还不是太容易 ...
搭建基于hyperledger fabric的联盟社区（四） --chaincode开发
前几章已经分别把三台虚拟机环境和配置文件准备好了,在启动fabric网络之前我们要准备好写好的chaincode.chaincode的开发一般是使用GO或者JAVA,而我选择的是GO语言.先分析一下官 ...
常见企业IT支撑【3、SVN代码版本控制系统】
代码版本控制系统有人喜欢用SVN,有人喜欢用GIT 1.环境 os:centos7 apache:2.4.6 python:2.7 --自带 submin2:2.2.1 2.安装ap ...

elasticsearch中的mapping简介

elasticsearch中的mapping简介的更多相关文章

随机推荐

热门专题