ElasticSearch 6.2 Mapping参数说明及text类型字段聚合查询配置

背景：

　　由于本人使用的是6.0以上的版本es，在使用发现很多中文博客对于mapping参数的说明已过时。ES6.0以后有很多参数变化。

　　现我根据官网总结mapping最新的参数，希望能对大家有用处。

　　es6.0与之前版本区别：

　　　　-新增字段： eager_global_ordinals

　　　　-删除的字段： include_in_all

　　※特别提示：

　　　　1，建议大家创建索引的时候指定mapping(用到特定分词器，规划字段是否被索引来节省空间等)

　　　　2，mapping创建并插入数据后就无法进行更改了！所以要对需求考虑全面：例如对于text类型字段需要聚合查询(类似group by)对数据进行统计分析，

　　 就需要设置fielddata为true 和fields字段才能进行聚合操作(此处详解请看下面的内容2)

　　　　3，如果必须更改字段属性只能进行reindex，进行重新建立索引再将doc导入

1，es 6.2 mapping详细说明

{

　  "type" : "text", #是数据类型一般文本使用text(可分词进行模糊查询)；keyword无法被分词(不需要执行分词器)，用于精确查找

    "analyzer" : "ik_max_word", #指定分词器，一般使用最大分词：ik_max_word

    "normalizer" : "normalizer_name", #字段标准化规则；如把所有字符转为小写；具体如下举例

    "boost" : 1.5, #字段权重；用于查询时评分，关键字段的权重就会高一些，默认都是1；另外查询时可临时指定权重

    "coerce" : true, #清理脏数据：1，字符串会被强制转换为整数 2，浮点数被强制转换为整数；默认为true

    "copy_to" : "field_name", #自定_all字段；指定某几个字段拼接成自定义；具体如下举例

    "doc_values" : true, #加快排序、聚合操作，但需要额外存储空间；默认true，对于确定不需要排序和聚合的字段可false

    "dynamic" : true, #新字段动态添加 true:无限制 false:数据可写入但该字段不保留 'strict':无法写入抛异常

    "enabled" : true, #是否会被索引，但都会存储;可以针对一整个_doc

    "fielddata" : false, #针对text字段加快排序和聚合（doc_values对text无效）；此项官网建议不开启，非常消耗内存

    "eager_global_ordinals": true, #是否开启全局预加载,加快查询；此参数只支持text和keyword，keyword默认可用，而text需要设置fielddata属性

    "format" : "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd||epoch_millis" ,#格式化 此参数代表可接受的时间格式 3种都接受

    "ignore_above" : 100, #指定字段索引和存储的长度最大值，超过最大值的会被忽略

    "ignore_malformed" : false ,#插入文档时是否忽略类型 默认是false 类型不一致无法插入

    "index_options" : "docs" ,

    # 4个可选参数

    # docs（索引文档号）,

    # freqs（文档号 + 词频），

    # positions（文档号 + 词频 + 位置，通常用来距离查询），

    # offsets（文档号 + 词频 + 位置 + 偏移量，通常被使用在高亮字段）

    # 分词字段默认是position，其他的默认是docs

    "index" : true, #该字段是否会被索引和可查询 默认true

    "fields": {"raw": {"type": "keyword"}} ,#可以对一个字段提供多种索引模式，使用text类型做全文检索，也可使用keyword类型做聚合和排序

    "norms" : true, #用于标准化文档，以便查询时计算文档的相关性。建议不开启

    "null_value" : "NULL", #可以让值为null的字段显式的可索引、可搜索

    "position_increment_gap" : 0 ,#词组查询时可以跨词查询 既可变为分词查询 默认100

    "properties" : {}, #嵌套属性，例如该字段是音乐，音乐还有歌词，类型，歌手等属性

    "search_analyzer" : "ik_max_word" ,#查询分词器;一般情况和analyzer对应

    "similarity" : "BM25",#用于指定文档评分模型，参数有三个：

    # BM25 ：ES和Lucene默认的评分模型

    # classic ：TF/IDF评分

    # boolean：布尔模型评分

    "store" : true, #默认情况false,其实并不是真没有存储，_source字段里会保存一份原始文档。

    # 在某些情况下，store参数有意义，比如一个文档里面有title、date和超大的content字段，如果只想获取title和date

    "term_vector" : "no" #默认不存储向量信息，

    # 支持参数yes（term存储），

    # with_positions（term + 位置）,

    # with_offsets（term + 偏移量），

    # with_positions_offsets(term + 位置 + 偏移量)

    # 对快速高亮fast vector highlighter能提升性能，但开启又会加大索引体积，不适合大数据量用

}

normalizer举例：

{

  "settings": {

    "analysis": {

      "normalizer": {

        "my_normalizer": {

          "type": "custom",

          "char_filter": [],

          "filter": ["lowercase", "asciifolding"]

        }

      }

    }

  },

  "mappings": {

    "type": {

      "properties": {

        "foo": {

          "type": "keyword",

          "normalizer": "my_normalizer"

        }

      }

    }

  }

}

copy_to举例：

{

  "mappings": {

    "my_type": {

      "properties": {

        "first_name": {

          "type": "text",

          "copy_to": "full_name"

        },

        "last_name": {

          "type": "text",

          "copy_to": "full_name"

        },

        "full_name": {

          "type": "text"

        }

      }

    }

  }

}

2，text类型字段进行聚合查询(count(*) group by)

需求：对机构字段既可以进行模糊查询，又可以按照字段全名进行聚合统计

实现：

-设置字段参数

 "institution": {

              "type": "text",

              "analyzer": "ik_max_word",

              "search_analyzer": "ik_max_word",

              "fielddata" : true,

              "fields": {"raw": {"type": "keyword"}}#如果不设置keyword索引在聚合时将会使用已分解后的词。例如：想用“国泰君安”聚合，结果使用“国泰”，“君安”聚合

}

-查询时aggs参数

    body = {

            "query": {

                "range": {

                        "time": {

                                "gte": '2018-02-01'

                                }

                        }

                    },

            "aggs": {

                "institution_count": {

                    "terms": {"field": "institution.raw"},#使用keyword分组

                    "aggs": {

                    }

                }

            }

            }

ElasticSearch 6.2 Mapping参数说明及text类型字段聚合查询配置的更多相关文章

MSSQL数据库中Text类型字段在PHP中被截断之解 (转)
在PHP中使用了MSSQL数据库,恰巧数据库中又使用了Text类型字段,于是问题产生了.每次从数据库中查询得到的数据总是被莫名的截断,一开始是以为我使用的PHP框架中对字符串的长度有所限制,后来发现这 ...
使用like查询text类型字段
使用like查询text类型字段 public bool Exists(GetReadType GRT, ClientMessageGetRead TypeID, string MessageID, ...
ES使用text类型字段排序报错
elasticsearch text字段排序报错解决使用elasticsearch 进行排序的时候,我们一般都会排序数字.日期.但是在排序text类型的时候就会出现错误. GET xytest/sut ...
【MySQL】使用Length和Cast函数计算TEXT类型字段的长度
背景: 前段时间,业务需要,为了快速让解析的Excel入库,所以把不是很确定的字段全部设置成了TEXT. 今天需要进行表结构优化,把字段长度控制在合适的范围,并尽量不使用TEXT类型. -- 计算长度 ...
SQL Server中TEXT类型字段值在数据库中追加字符串方法
在数据上我们往往会遇到ntext大文本类型,这种类型如果和 nvarchar类型相加会出现问题,所以有一中方法可以解决这种问题. 使用的sql 函数: TEXTPTR:返回要更新的 text.nt ...
Elasticsearch5.x版本中对Text类型进行聚合时提示illegal_argument_exception
Having this field in my mapping "answer": { "type": "text", "fiel ...
sqlserver text类型字段错误 net.sourceforge.jtds.jdbc.ClobImpl@66fa192的解决方法
1. SqlServer数据库中text/ntext字段,在用jtds1.2驱动时,会出现用getString()取不到值的问题,toString()也不行. 昨天查了下帮助可以通过简单的配置解决.即 ...
mybatis逆向工程处理text类型字段
如果数据库中的字段为text或者blob这种大文本类型,在使用MybatisGenerator工具自动生成代码的时候会将其进行特殊处理(一个新的sql片段),结果会导致无法对该字段的值进行操作. 修改 ...
Mysql插入text类型字段错误记录 com.mysql.jdbc.MysqlDataTruncation: Data truncation: #22001
一次插入操作报如下错误 com.mysql.jdbc.MysqlDataTruncation: Data truncation: #22001 是说字段值长度超过限制. MySQL TEXT数据类型的 ...

随机推荐

.htaccess实现php网站伪静态
伪静态是啥?很简单,就是假的静态网页...例如有个网页是:www.xxx.com/index.php?id=1这是动态网页,php后缀的如果改成:www.xxx.com/index-1.html那么这 ...
linux----------CentOS的一些除了yum安装以外的基本操作命令。
1.tail -n 5 文件名字 : 查看大型文件的后五行内容 head -n 5 文件名字 : 查看文件的前五行内容 2.ls -lh 可以查看文件大小转换以后 ...
RSA算法的C++string实现(模幂算法和欧几里得算法的使用)后附思路
void resetNumA(string numAStr); //使用string重置numB void resetNumB(string numBStr); //将数组转换为字符串,用于输出 st ...
org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'dataSource' defined in class path resource [app2.xml]: Instantiation of bean failed; nested exception is org.spr
在学习spring整合hubernate时遇到的问题.c3p0遇到了一个问题,老连不上,显示java.lang.NoClassDefFoundError:com.mchange.v2.ser.Indi ...
Log4j介绍与使用
Log4j三大组件 1) 日志记录器Logger负责输出日志信息,并能够对日志信息进行分类筛选,决定哪些日志信息应该被输出,哪些该被忽略.Loggers组件输出日志信息时分为5个级别:DEBUG.IN ...
对接第三方物流APP 手机版
昨天因为bibi项目要对接物流信息开始找了快递鸟文档,但是要填写申请APP,必须要注册公司才可以,这样非常麻烦.下面的第三方物理接口,绝对让你满意. https://m.kuaidi100.com ...
20175208 《Java程序设计》第六周学习总结
20175208 <Java程序设计>第六周学习总结一.教材知识点总结: 第七章 1.内部类: 成员内部类.静态嵌套类.方法内部类.匿名内部类 .(1).内部类仍然是一个独立的类,在编译 ...
Docker 构建 RabbitMQ 集群
刚开始,关于RabbitMQ集群的搭建,我找到了这篇文章:Docker 安装 RabbitMQ 集群从而找到了第三方的RabbitMQ集群容器 rabbitmq-server 但是这个容器只有3.6 ...
[C++ Primer Plus] 第9章、内存模型和名称空间（一）程序清单
程序清单9.9(静态存储连续性.无链接性) #include<iostream> using namespace std; ; void strcount(const char *str) ...
pyhton抛出自定义的异常
用raise语句来引发一个异常.异常/错误对象必须有一个名字,且它们应是Error或Exception类的子类下面是一个引发异常的例子: class ShortInputException(Exce ...

ElasticSearch 6.2 Mapping参数说明及text类型字段聚合查询配置

ElasticSearch 6.2 Mapping参数说明及text类型字段聚合查询配置的更多相关文章

随机推荐

热门专题