ES 14 - (底层原理) Elasticsearch内部如何处理不同type的数据
1 type的作用
在Elasticsearch的索引(index)中, 通过标识元字段_type
来区分不同的type, 所以我们可以把具有相同字段(field)的文档划分到同一个type下.
==> 因而_type
也称作映射类型, 即每个type都有各自的mapping.
但即使是类似的数据, 也有可能存在不同的field, 比如:
商品中有电子商品有电压field;
服装商品有洗涤方式field;
生鲜商品有营养成分field… 这些不同的field要如何处理呢?
==> 在之前的博文中有提到过: 同一index的不同type中, 同名的field的映射配置必须相同. 这是为什么呢?
2 type的底层数据结构
Elasticsearch底层所使用的核心工具库——Lucene中并没有type的说法, 它在建立索引的时候, 会把所有field的值当做opaque bytes(不透明字节)类型来处理:
在存储document时, ES会将该document所属的type作为一个
type
字段进行存储;在搜索document时, ES通过
_type
来进行过滤和筛选.
每个index中的所有type都是存储在一起的, 因此:
在Elasticsearch 6.0之前: 同一个index的不同type中, 同名的field的映射配置(
_type
)必须相同.在Elasticsearch 6.0开始: 一个index中不能拥有多个type.
3 探究type的存储结构
说明: 从Elasticsearch 6.0开始, 不允许在一个index中创建多个type ——只能创建一个, 否则将发生错误:
{
"error": {
"root_cause": [
{
"type": "illegal_argument_exception",
"reason": "Rejecting mapping update to [website] as the final mapping would have more than 1 type: [manager, writer]"
}
],
"type": "illegal_argument_exception",
"reason": "Rejecting mapping update to [website] as the final mapping would have more than 1 type: [manager, writer]"
},
"status": 400
}
这里演示所用的版本是6.6.0, 特此说明.
3.1 创建索引并配置映射
PUT website
{
"mappings": { // Elasticsearch 6.0之后的版本中, 只添加这一个type
"writer": {
"properties": {
"id": { "type": "long" },
"name": { "type": "text" },
"age": { "type": "integer" },
"sex": { "type": "text", "index": false }
}
},
"manager": { // 省去此type
"properties": {
"id": { "type": "long" },
"name": { "type": "text" },
"age": { "type": "integer" },
"sex": { "type": "text", "index": false },
"authorize": { "type": "text", "index": false}
}
}
}
}
3.2 添加数据
PUT website/writer/1
{
"id": 1001,
"name": "tester",
"age": 18,
"sex": "female"
}
// Elasticsearch 6.0之后的版本中, 不添加下述文档:
PUT website/manager/1
{
"id": 1001,
"name": "shou feng",
"age": 20,
"sex": "male",
"authorize": "all"
}
3.3 查看存储结构
// 搜索所有数据
GET website/_search
// 搜索结果如下:
{
"hits" : {
"total" : 1,
"max_score" : 1.0,
"hits" : [
{
"_index" : "website",
"_type" : "writer", // _type是writer
"_id" : "1",
"_score" : 1.0,
"_source" : {
"id" : 1001,
"name" : "tester",
"age" : 18,
"sex" : "female"
}
},
{
"_index": "website",
"_type": "manager", // _type为manager
"_id": "1",
"_score": 1,
"_source": {
"id": 1001,
"name": "shou feng",
"age": 20,
"sex": "male",
"authorize": "all"
}
}
]
}
}
4 关于type的最佳实践
将结构类似的type存放在同一个index下 —— 这些type的大部分field应该是相同的.
如果将两个field完全不同的type存入同一个index下, 在Lucene底层存储时, 每个document中都将有一大部分field是空值, 这将导致严重的性能问题, 并且占用磁盘空间:
例如: 上述website/writer
的每个document中, 都有"authorize"字段, 只是它们的值都为空.
—— 从这个角度出发, 大概就能猜出 ES限制一个index中只能有一个type 的原因了吧, 也就是更方便地组织文档数据、节省磁盘空间
ES 14 - (底层原理) Elasticsearch内部如何处理不同type的数据的更多相关文章
- ES 18 - (底层原理) Elasticsearch写入索引数据的过程 以及优化写入过程
目录 1 Lucene操作document的流程 1.1 添加document的流程 1.2 删除document的流程 2 优化写入流程 - 实现近实时搜索 2.1 流程的改进思路 2.2 设置re ...
- ES 17 - (底层原理) Elasticsearch增删改查索引数据的过程
目录 1 增删改document的流程 1.1 协调节点 - Coordinating Node 1.2 增删改document的流程 2 查询document的流程 1 增删改document的流程 ...
- ES的底层原理-倒排索引的概念
Elasticsearch底层使用的使用的lucene lucene使用的是倒排索引的方式来进行加快检索速度 倒排索引的原理 doc_1 The quick brown fox jumped ...
- Hive底层原理:explain执行计划详解
不懂hive中的explain,说明hive还没入门,学会explain,能够给我们工作中使用hive带来极大的便利! 理论 本节将介绍 explain 的用法及参数介绍 HIVE提供了EXPLAIN ...
- ELasticSearch(五)ES集群原理与搭建
一.ES集群原理 查看集群健康状况:URL+ /GET _cat/health (1).ES基本概念名词 Cluster 代表一个集群,集群中有多个节点,其中有一个为主节点,这个主节点是可以通过选举产 ...
- ES之二:Elasticsearch原理
Elasticsearch是最近两年异军突起的一个兼有搜索引擎和NoSQL数据库功能的开源系统,基于Java/Lucene构建.最近研究了一下,感觉 Elasticsearch 的架构以及其开源的生态 ...
- 深入源码分析SpringMVC底层原理(二)
原文链接:深入源码分析SpringMVC底层原理(二) 文章目录 深入分析SpringMVC请求处理过程 1. DispatcherServlet处理请求 1.1 寻找Handler 1.2 没有找到 ...
- 并发之volatile底层原理
15.深入分析Volatile的实现原理 14.java多线程编程底层原理剖析以及volatile原理 13.Java中Volatile底层原理与应用 12.Java多线程-java.util.con ...
- MVC底层原理
窥探ASP.Net MVC底层原理 实现跨越Session的分布式TempData 1.问题的引出 我相信大家在项目中都使用过TempData,TempData是一个字典集合,一般用于两个请求之间临时 ...
随机推荐
- Dubbo学习-源码学习
Dubbo概述 dubbo框架提供多协议远程调用,服务提供方可以是分布式部署.dubbo框架可以很简单的帮我们实现微服务. 此处援引官网上图片 dubbo分为客户端和服务提供方 服务方将服务注册到注册 ...
- python爬虫入门(二)Opener和Requests
Handler和Opener Handler处理器和自定义Opener opener是urllib2.OpenerDirector的实例,我们之前一直在使用urlopen,它是一个特殊的opener( ...
- mac终端命令及pycharm常用快捷键记录
mac终端命令: 1.root权限 $sudo su - 2.定位到指定文件夹位置 $cd /Users/计算机名称/Desktop (定位到桌面) 3.新建文件夹 $mkdir 文件夹名称 ...
- maven安装和配置及创建maven项目
(1)下载maven,下载成功后,解压到本地磁盘 里面包含这几项 (2)配置maven环境变量MAVEN_HOME.path (3)最后检验配置是否成功:用win键+R,来打开命令行提示符窗口,即Do ...
- 利用Swagger2自动生成对外接口的文档
一直以来做对外的接口文档都比较原始,基本上都是手写的文档传来传去,最近发现了一个新玩具,可以在接口上省去不少麻烦. swagger是一款方便展示的API文档框架.它可以将接口的类型最全面的展示给对方开 ...
- C# Ioc、DI、Unity、TDD的一点想法和实践
面向对象设计(OOD)有助于我们开发出高性能.易扩展以及易复用的程序.其中,OOD有一个重要的思想那就是依赖倒置原则(DIP). 依赖倒置原则(DIP):一种软件架构设计的原则(抽象概念) 控制反转( ...
- Mysql中MyISAM引擎和InnoDB引擎的比较
结论 如果不清楚自己应该用什么引擎,那么请选择InnoDB,Mysql5.5+的版本默认引擎都是InnoDB,早期的Mysql版本默认的引擎是MyISAM MyISAM 和 InnoDB的适用场景 M ...
- SSM-Spring-21:Spring中事物的使用案例
------------吾亦无他,唯手熟尔,谦卑若愚,好学若饥------------- 股票买卖案例(我会用三种开启事物的方法 代理工厂bean版的,注解版的,aspectj xml版的) 简单的介 ...
- KVM内核文档阅读笔记
KVM在内核中有丰富的文档,位置在Documentation/virtual/kvm/. 00-INDEX:整个目录的索引及介绍文档. api.txt:KVM用户空间API,所谓的API主要是通过io ...
- 将sqlserver导出的csv数据导入到ubuntu和mac上的mysql
最近在捣鼓一些数据相关的东西.将sql server里的数据导入到ubuntu和mac上的mysql,方法有很多.不过我选择了最简单的一种:将sql server的数据导成csv,然后将csv导入到m ...