elasticsearch数据组织结构
elasticsearch数据组织结构
1. mapping
1.1. 简介
mapping:意为映射关系,特别是指组织结构。在此语境中可理解为数据结构,包括表结构,表约束,数据类型等。(非母语环境伤不起。。。晦涩无比,半小时才转过圈来)
1.2. mapping type
每个索引都有一个映射类型,它决定文档索引的方式。
映射类型分为两种:
- 元字段:_index,_type,_id,_source
- 值字段或属性:
值字段数据类型—相当于mysql的数据类型
有text,keywork,date,boolean,object,nested,geo_point等
具体见其它文档。
1.3. 映射约束
在一个索引中定义太多的字段可能会导致内存溢出,它并不像想象的那么少见。
有一些设置用来约束
index.mapping.total_fields.limit
索引字段数量,计数包括字段,对象映射,字段别名。默认值1000
index.mapping.depth.limit
字段最大深度,指对象引用的深度。默认为20.
index.mapping.nested_fields.limit
The maximum number of distinct nested mappings in an index, defaults to 50.
非重复的嵌套映射数量,默认50
index.mapping.nested_objects.limit
单一文档嵌套json对象的最大值,默认10000
index.mapping.field_name_length.limit
字段名的长度限制,默认无限制。
1.4. 动态映射
字段和映射类型无需提前定义。添加时会自动创建。
在顶层映射、内部对象及nested字段上都会如此。
1.5. 显示映射explicit mapping
设置命令语法:
PUT /<index>/_mapping
创建index并指定映射
curl -X PUT "localhost:9200/my-index?pretty" -H 'Content-Type: application/json' -d'
{
"mappings": {
"properties": {
"age": { "type": "integer" },
"email": { "type": "keyword" },
"name": { "type": "text" }
}
}
}
'
为一个映射添加字段
案例:
curl -X PUT "localhost:9200/my-index/_mapping?pretty" -H 'Content-Type: application/json' -d'
{
"properties": {
"employee-id": { # 字段名
"type": "keyword", # 字段类型
"index": false # 代表此字段不参与index
}
}
}
注意:
已存在的映射是不能修改的,下述项例外:
- 为object字段添加属性
- ignore_above的值是可以改的。
修改已存在的映射会使已有索引数据失效。如果想修改映组织关系,创建新的index并reindex数据。如果只是想修改字段名,建议添加别名字段。
1.6. 相关命令
查看索引的映射
GET /my-index/_mapping
rv = es.indices.get_mapping(index_name)
1.7. 注意事项
_doc问题
7.X及以后版本并没有type参数,但在7.x中部分命令的type位置需要写成_doc。
2. field datatypes
Elasticsearch supports a number of different datatypes for the fields in a document:
-----Core datatypes
2.1. string
text and keyword
2.1.1. text
它会被解析为individual terms before being indexed.
2.1.2. keyword
用于索引结构化内容的字段,例如email addresses, hostnames, status code.
案例
PUT my_index
{
"mappings": {
"properties": {
"tags": {
"type": "keyword"
}
}
}
}
2.2. Numeric
long, integer, short, byte, double, float, half_float, scaled_float
2.3. Date
date
2.4. Date nanoseconds
date_nanos
2.5. Boolean
boolean
2.6. Binary
binary
2.7. Range
integer_range, float_range, long_range, double_range, date_range
------Complex datatypes
2.8. Object
object for single JSON objects
2.9. Nested
nested for arrays of JSON objects
3. meta-field元字段
每个文档都有自己的元字段。
3.1. identity meta-fields
_index
_type
_id
3.2. document source meta-fields
_source:源JSON数据
_size:_source的大小,单位bytes,provided by the mapper-size plugin.
3.3. indexing meta-fields
_fields_names
_igonred
3.4. routing meta-field
_routing
3.5. other meta-field
_meta
4. analyzer
document: https://www.elastic.co/guide/en/elasticsearch/reference/current/analyzer.html
下面是一个设置索引分词器参数及应用的案例:
PUT my_index
{
"settings":{
"analysis":{
"analyzer":{
"my_analyzer":{
"type":"custom",
"tokenizer":"standard",
"filter":[
"lowercase"
]
},
"my_stop_analyzer":{
"type":"custom",
"tokenizer":"standard",
"filter":[
"lowercase",
"english_stop"
]
}
},
"filter":{
"english_stop":{
"type":"stop",
"stopwords":"_english_"
}
}
}
},
"mappings":{
"properties":{
"title": {
"type":"text",
"analyzer":"my_analyzer",
"search_analyzer":"my_stop_analyzer",
"search_quote_analyzer":"my_analyzer"
}
}
}
}
PUT my_index/_doc/1
{
"title":"The Quick Brown Fox"
}
PUT my_index/_doc/2
{
"title":"A Quick Brown Fox"
}
GET my_index/_search
{
"query":{
"query_string":{
"query":"\"the quick brown fox\""
}
}
}
elasticsearch数据组织结构的更多相关文章
- 【原创】大叔经验分享(26)hive通过外部表读写elasticsearch数据
hive通过外部表读写elasticsearch数据,和读写hbase数据差不多,差别是需要下载elasticsearch-hadoop-hive-6.6.2.jar,然后使用其中的EsStorage ...
- Oracle和Elasticsearch数据同步
Python编写Oracle和Elasticsearch数据同步脚本 标签: elasticsearchoraclecx_Oraclepython数据同步 Python知识库 一.版本 Pyth ...
- elasticsearch数据备份还原
elasticsearch数据备份还原 1.在浏览器中运行http://XXX.XXX.XXX.XXX:9200/_flush,确保索引数据能保存到硬盘中. 2.原数据的备份.主要是elasticse ...
- 18-10-15 服务器删除数据的方法【Elasticsearch 数据删除 (delete_by_query 插件安装使用)】方法二没有成功
rpa 都是5.xx ueba 分为2.0 或者5.0 上海吴工删除数据的方法 在许多项目中,用户提供的数据存储盘大小有限,在运行一段时间后,大小不够就需要删除历史的 Elasticsearch 数 ...
- [转] [Elasticsearch] 数据建模 - 处理关联关系(1)
[Elasticsearch] 数据建模 - 处理关联关系(1) 标签: 建模elasticsearch搜索搜索引擎 2015-08-16 23:55 6958人阅读 评论(0) 收藏 举报 分类: ...
- 服务追踪数据使用 RabbitMQ 进行采集 + 数据存储使用 Elasticsearch + 数据展示使用 Kibana
服务追踪数据使用 RabbitMQ 进行采集 + 数据存储使用 Elasticsearch + 数据展示使用 Kibana https://www.cnblogs.com/xishuai/p/elk- ...
- 【原创】MapReduce备份Elasticsearch数据到HDFS(JAVA)
一.环境:JAVA8,Elasticsearch-5.6.2,Hadoop-2.8.1二.实现功能:mapreduce读elasticsearch数据.输出parquet文件.多输出路径三.主要依赖 ...
- 大数据学习[16]--使用scroll实现Elasticsearch数据遍历和深度分页[转]
题目:使用scroll实现Elasticsearch数据遍历和深度分页 作者:星爷 出处: http://lxWei.github.io/posts/%E4%BD%BF%E7%94%A8scroll% ...
- 基于 MySQL Binlog 的 Elasticsearch 数据同步实践 原
一.背景 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品.订单等数据的多维度检索. 使用 Elasticsearch 存储业务数据可以 ...
随机推荐
- mongo 改数据库名称
用命令 db.copyDatabase('old_name', 'new_name') 可以备份出一个新的数据库. 然后 use old_name 并db.dropDatabase() 即可删除旧的 ...
- ASCII编码,将英文存储到计算机
前面我们已经讲到,计算机是以二进制的形式来存储数据的,它只认识 0 和 1 两个数字,我们在屏幕上看到的文字,在存储之前都被转换成了二进制(0和1序列),在显示时也要根据二进制找到对应的字符. 可想而 ...
- java位移运算符|And&,操作二进制
在java中 逻辑运算符有四种:& , |, &&, || &: 如果第一个条件是fasle,还会判断第二个条件,只要有一个条件不满足,结果就返回false; ...
- 【做题笔记】洛谷P1464 Function
我先谔谔一波 /kk 我谔谔 看题第一眼:欸这不就是按题意递归嘛,,直接搞不就好了 3 min 后,重新看题 然后自己手玩了几个样例,噢,递归太多了,铁定会 T 啊...... 然后,作为一个从没写过 ...
- 【转载】Windows环境下JNI的实现实例
转自:http://blog.csdn.net/jjunjoe/article/details/6987183 一.关于JNI: JNI(Java Native Interface):Java本地调用 ...
- 2019牛客暑期多校训练营(第三场) J LRU management 模拟链表操作
输入n, m,n表示n种操作,m表示最多可以容纳m个串. 第一种操作:先在容器里找是否存在这个串,如果不存在,则添加在末尾,这个串携带了一个值v. 如果存在,则先把之前存在的那个拿出来,然后在后面添加 ...
- 吴裕雄 python 机器学习——集成学习AdaBoost算法回归模型
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklear ...
- PHP基础学习笔记3
一.检索表单信息 PHP 中的 $_GET 和 $_POST 变量用于检索表单中的信息,比如用户输入 提交的表单: <form action="welcome.php" me ...
- 基于jmeter+ant实现的接口自动化测试
jmeter+ANT接口自动化测试框架 项目说明 本框架是一套基于jmeter+Ant+Excel+Python而设计的数据驱动接口自动化测试框架,jmeter 作为执行器,Ant 作为构建工具,进行 ...
- String - 字符串分割操作
如果我想将一个字符串按照每8位一组分为若干个块,然后存储在一个byte[ ]数组中,我首先需要确定这个byte数组的长度,但由于我无法确定这个字符串的长度是否可以被8整除,所以无法直接判断,因此需要对 ...