ElasticSearch 概念解析
索引(index)
1. 作为名词: 索引(index)指我们在 ES 中用来存放 doc 的一个库,类似数据库系统的 DB 概念。
2. 作为动词: 指把数据经过分析并存放到 ES 中形成索引(名词概念)的过程。在 Lucene 里,索引是指把文档(Document)经过分析(Analyzed)并创建倒排索引的过程。是一系列的操作步骤。
查询(query)
查询一般指具体的查询条件,比如:"性别:男" 这就是一条查询语句。
搜索(search)
搜索是指从搜索引擎中获取满足我们一条或多条查询(query)语句的文档集合的过程,比如:搜索"性别:男"、"年龄>30"的人员列表,这样一条搜索就包含2条查询(query)条件。
分片(shards)
理解:
分片,通俗的将就是将一个 ES 索引(index)切割为几个分片存放。一个分片其实是一个 Lucene 实例(Lucene 索引,为了不应起混淆称为实例,每个分片都提供完整的搜索引擎的功能),能提供完整的搜索功能。
用途:
1. 通过 shards 可以横向分割或扩展 index 的容量
2. 通过 shards 可以分发和并发你的操作,从而提高性能
示例:
假如你有一个 index 需要大约 1T 的磁盘容量,把这样的整个 index 存储在同一个 node 上,有时是无法接受的。
- 可能你的单个 node 的存储容量不够 1T
- 性能问题,每次的 search 操作都是从这样庞大的一个 index 中去,性能可能比较低下
通过 shards 就可以很好解决该问题:
- 把这个 1T 的 index 分成多个 shards ,可以使它存放在多个 node 上,从而可以解决存放在单个 node 存储容量不足的问题
- 每一个 search 操作都是在多个 shards 中并发进行的,性能可以成倍提升
复制(replica)
理解:
复制,就是对每一个 shards 提供多个备份的功能,从而可以实现较高的可靠性。
用途:
1. 提供容灾能力,分片不会由于某个 node 的不可用(故障、离线)而不可用,这也就要求了主分片和通过它复制出来的分片(复制分片)必须位于不同的 node 上
2. search 操作可以在所有的分片进行(主分片、复制分片),所以 replica 也能提高 search 的吞吐率,从而提高性能
示例:
假如你的 index 有3个 shards 位于3个不同的 node 上,且没有 replica(只有主分片)。
但其中某个 node 故障了,这将导致该 index 部分 shards 不可用,不能提供完整的功能。
通过设置 replica 就可以在一个 shard 故障后,从它的 replica 分片中进行 search ,整个 index 的所有 shards 依然可用。
路由(Index API Routing)
理解:
这里的路由(routing)是一个 index API 中的参数,通过这个参数来控制文档存放在某个 shard(分片)上去。当然在 search 时候也可以利用该 rouging。
用途:
1. 一个文档在 index 的时候,会通过文档的 ID 来进行 Hash 计算,从而决定该文档存放到哪个分片上去。通过 routing 参数可以人为控制存放的分片(前提你需要知道 Hash 的算法)。
如果有了 rouging 参数,那么就会用 routing 参数的值来进行 Hash 计算,而不是文档的 ID。
2. 更大的用处在于,在 search 时候,默认都是把请求广播发往所有的 shards 上去,而在 search 时候指定 rouging,就可以只请求特定的 shards,从而加快响应。
示例:
lcy@lcy:~$ curl -XPUT localhost:/lcy/test/?routing= -d {"test":} //在 lcy/test/ 上创建 id=1 的文档,分片位置用1来 Hash
{"_index":"lcy","_type":"test","_id":"","_version":,"_shards":{"total":,"successful":,"failed":},"created":true}
lcy@lcy:~$
lcy@lcy:~$ curl -XPUT localhost:/lcy/test/?routing= -d {"test":} //在 lcy/test/ 上创建 id=1 的文档,分片位置用2来 Hash
{"_index":"lcy","_type":"test","_id":"","_version":,"_shards":{"total":,"successful":,"failed":},"created":true}
lcy@lcy:~$
lcy@lcy:~$ curl -XGET localhost:/lcy/test/ //广播查询 lcy/test/1 谁先返回就是谁
{"_index":"lcy","_type":"test","_id":"","_version":,"_routing":"","found":true,"_source":{test:}}
lcy@lcy:~$
lcy@lcy:~$ curl -XGET localhost:/lcy/test/?routing= //查询特定分片上的 lcy/test/1
{"_index":"lcy","_type":"test","_id":"","_version":,"_routing":"","found":true,"_source":{test:}}
lcy@lcy:~$
同一个index/type,可以存放2个 ID 相同的文档,仅仅是分片不同,而且都可以被搜索。这个怎么解释???
ElasticSearch 概念解析的更多相关文章
- Elasticsearch技术解析与实战 PDF (内含目录)
Elasticsearch技术解析与实战 介绍: Elasticsearch是一个强[0大0]的搜索引擎,提供了近实时的索引.搜索.分 ...
- elasticsearch技术解析与实战ES
elasticsearch技术解析与实战ES 下载地址: https://pan.baidu.com/s/1NpPX05C0xKx_w9gBYaMJ5w 扫码下面二维码关注公众号回复100008 获取 ...
- mongodb基本概念解析
MongoDB 概念解析 不管我们学习什么数据库都应该学习其中的基础概念,在mongodb中基本的概念是文档.集合.数据库,下面我们挨个介绍. 下表将帮助您更容易理解Mongo中的一些概念: SQL术 ...
- 轻松搞懂elasticsearch概念
本文主要介绍elasticsearch6.0的一些基本概念,有助于深入理解.研究elasticsearch和elk系统 一图胜千言 elasticsearch与mysql参照来看 添加一条数据 紫 ...
- Android中px, ppi, dpi, dp, dip, sp概念解析
Android中px, ppi, dpi, dp, dip, sp概念解析
- MongoDB学习笔记—概念解析
Mongo基本概念 下表将帮助您更容易理解Mongo中的一些概念: SQL术语/概念 MongoDB术语/概念 解释/说明 database database 数据库 table collection ...
- Photoshop入门教程(一):文本新建与概念解析
写在开头 <Photoshop实用入门>系列教程可能对于一点都没有接触过Photoshop的人来说不太容易接受,因为本教程并没有细致到教你如何使用画笔工具等一系列很基础的东西,有些地方的讲 ...
- RabbitMQ安装、集群搭建、概念解析
RabbitMQ安装.集群搭建.概念解析 基本概念 为什么会产生MQ 1.解耦:采用异步方式实现业务需求达到解耦的目的. 2.缓冲流量,削峰填谷: 问:为什么会有流量冲击? 答:采用"直接调 ...
- 如何在Elasticsearch中解析未分配的分片(unassigned shards)
一.精确定位到有问题的shards 1.查看哪些分片未被分配 curl -XGET localhost:9200/_cat/shards?h=index,shard,prirep,state,unas ...
随机推荐
- 【Jenkins】Linux搭建Jenkins平台
为了配合上一篇的ant+jenkins做持续集成,需要在linux环境下搭建一个jenkins平台.网上有很多安装的例子,我主要记录一下自己遇到的问题,真真的是特别惆怅的,每次我遇到的问题都格外多. ...
- java 注解(转)
第一部分:了解一下java1.5起默认的三个annotation类型: 一个是@Override:只能用在方法之上的,用来告诉别人这一个方法是改写父类的. 一个是@Deprecated:建 ...
- 文件I/O操作(1)
linux系统调用和用户编程接口(api) 系统调用是指在操作系统提供给用户程序调用的一组“特殊”的接口,用户程序可以通过这组特殊的接口来获取操作系统内核提供的服务,例如用户可以通过进程控制相关的系统 ...
- 【译】 AWK教程指南 6在AWK程序中使用Shell命令
awk程序中允许调用Shell指令,并提供管道解决awk与系统间数据传递的问题.所以awk很容易使用系统资源,读者可利用这个特点来编写某些适用的系统工具. 范例:写一个awk程序来打印出线上人数. 将 ...
- KNN算法java实现代码注释
K近邻算法思想非常简单,总结起来就是根据某种距离度量检测未知数据与已知数据的距离,统计其中距离最近的k个已知数据的类别,以多数投票的形式确定未知数据的类别. 一直想自己实现knn的java实现,但限于 ...
- C++默认参数不能是一个引用
引用做参数时不能传一个定值(如数字或者const等~~~) somefunc(int& a = 4) -> default argument for ‘int& a’ has t ...
- 有关按位DP
这是一道正式比赛的题目 数据范围是 10^999 ~ 10^1000 的两个整数以及一个k我记得好像是不超过100,计算两个数中间有多少个每一位相乘最后和k取摸等于0的数.这道题对于不会按位dp的人是 ...
- 【poj2891】Strange Way to Express Integers
题意: 给出n个模方程x=a(mod r) 求x的最小解 题解: 这就是个线性模方程组的模版题- - 但是有一些要注意的地方 extgcd算出来的解x可能负数 要让x=(x%mo+mo)%mo 而且 ...
- SQL2008-字符转数字CAST和CONVERT
语法 使用CAST: CAST(expression AS data_type) 使用CONVERT: CONVERT(data_type[(length)],expression,[style])例 ...
- hdoj 2045 不容易系列之(3)—— LELE的RPG难题
不容易系列之(3)—— LELE的RPG难题 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/O ...