Elaticsearch倒排索引

Sierra、 2024-08-30 22:07:01 原文

ES倒排索引基本原理

索引（index）可以分为正序索引（Forward Indexes）和倒排索引（Inverted Index）两种。在关系型数据库中使用索引可以避免数据检索走全表扫描，将检索的时间复杂度从O(n)降到了O(logn)。例如，一本字典在开篇几页记录了每个字和所在页码的映射关系，当我们需要查阅某个字的时候不需要从每一页开始搜索，通过这个映射关系就能快速找到需要搜索的词项。假设现在有三个文档：doc1, doc2, doc3

doc1: Welcome to Hotel California

doc2: Welcome to the heaven

doc3: the dog is very cute

在关系型数据库中存储这三个文档并且建立索引，文档在数据库中的存储结构大概如下所示

Doc ID	Doc Content
1	Welcome to Hotel California
2	Welcome to the heaven
3	the dog is very cute

通过建立这种文档id与文档内容的映射关系，在关系型数据库中可以快速查找到文档的具体位置，但是如果需要对文档中某些词项进行检索，则需要进行全表扫描，这个时候正序索引就失效了。

倒排索引的思想是建立文档中每个词项与文档的的映射关系，如下所示

Term	Doc Id
welcome	Doc1， Doc2
to	Doc1，Doc2
the	Doc2，Doc3
dog	Doc3
heaven	Doc2
....	...

可以看出通过倒排索引，搜索任意一个词项都能快速定位到所在位置。通过上述例子可以看出顺序索引是文档ID与文档内容和单词的关联，倒排索引是单词到文档ID的映射关系。

倒排索引核心组成

倒排索引主要包括两部分：单词词典和倒排列表。

单词词典：记录所有文档的单词，记录单词和倒排列表的关联关系
倒排列表：记录单词与对应文档集合，由倒排索引项组成
- 倒排索引项：主要由文档ID，词频TF（单词在文档中出现的次数，用于相关性评分），位置(Position，单词在文档中分词的位置，用于语句搜索) ，偏移（Offset，记录单词的开始结束位置，用于实现高亮显示）

Elaticsearch的JSON文档中每个字段都有自己的倒排索引，可以对文档中不需要搜索的字段不做索引，这样可以节省存储空间

Elaticsearch倒排索引的更多相关文章

Hadoop之倒排索引
前言: 从IT跨度到DT,如今的数据每天都在海量的增长.面对如此巨大的数据,如何能让搜索引擎更好的工作呢?本文作为Hadoop系列的第二篇,将介绍分布式情况下搜索引擎的基础实现,即“倒排索引”. 1. ...
MapReduce实现倒排索引（类似协同过滤）
一.问题背景倒排索引其实就是出现次数越多,那么权重越大,不过我国有凤巢....zf为啥不管,总局回应推广是不是广告有争议... eclipse里ctrl+t找接口或者抽象类的实现类,看看都有啥方法, ...
[Search Engine] 搜索引擎技术之倒排索引
倒排索引是搜索引擎中最为核心的一项技术之一,可以说是搜索引擎的基石.可以说正是有了倒排索引技术,搜索引擎才能有效率的进行数据库查找.删除等操作. 1. 倒排索引的思想倒排索引源于实际应用中需要根据属 ...
Lucene 工作原理之倒排索引
1.简介倒排索引源于实际应用中需要根据属性的值来查找记录.这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址.由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排 ...
MapReduce实例-倒排索引
环境: Hadoop1.x,CentOS6.5,三台虚拟机搭建的模拟分布式环境数据:任意数量.格式的文本文件(我用的四个.java代码文件) 方案目标: 根据提供的文本文件,提取出每个单词在哪个文件 ...
倒排索引压缩：改进的PForDelta算法
由于倒排索引文件往往占用巨大的磁盘空间,我们自然想到对数据进行压缩.同时,引进压缩算法后,使得磁盘占用减少,操作系统在query processing过程中磁盘读取效率也能提升.另外,压缩算法不仅要考 ...
hadoop学习笔记之倒排索引
开发工具:eclipse 目标:对下面文档phone_numbers进行倒排索引: 13599999999 1008613899999999 12013944444444 13800138000137 ...
【hadoop2.6.0】倒排索引遇到问题了
想实现书上倒排索引的例子,但是我不会java想用C++写,如果用hadoop streaming 那么输入必须是标准输入的形式, 那么我怎么获得每个文件的文件名呢? 查了一下,还有一种方法叫做hado ...
hadoop倒排索引
1.前言学习hadoop的童鞋,倒排索引这个算法还是挺重要的.这是以后展开工作的基础.首先,我们来认识下什么是倒拍索引: 倒排索引简单地就是:根据单词,返回它在哪个文件中出现过,而且频率是多少的结果 ...

随机推荐

Go连接到Linux服务器进行操作-执行shell命令&&上传文件
Go连接到Linux服务器进行操作使用密码连接Linux服务器 package main import ( "fmt" "golang.org/x/crypto/ssh ...
innodb是如何存数据的？yyds
前言如果你使用过mysql数据库,对它的存储引擎:innodb,一定不会感到陌生. 众所周知,在mysql8以前,默认的存储引擎是:myslam.但mysql8之后,默认的存储引擎已经变成了:inn ...
Android 9.0 默认输入法的设置流程分析
Android 输入法设置文章 Android 9.0 默认输入法的设置流程分析 Android 9.0 添加预置第三方输入法/设置默认输入法(软键盘) 前言在上一篇文章 Android 9.0 ...
kivy之TextInput属性实操练习
TextInput属性比较多,常用在页面设计上的属性做了实操练习,便于很直观的了解学习本部件.并将其中一个输入提示的属性在实操源码里单独建立了一个功能进行演示. 主程序文件main.py我就不贴出来了 ...
NOIP 模拟 $38\; \rm b$
题解 \(by\;zj\varphi\) 考虑转化问题,将计算最大公约数换为枚举最大公约数. 设 \(sum_i\) 为最大公约数为 \(i\) 的方案数,可以容斥求解,\(sum_i=f_i-\su ...
备战秋招之十大排序——O(n)级排序算法
时间复杂度O(n)级排序算法九.计数排序前文说到,19591959 年 77 月,希尔排序通过交换非相邻元素,打破了 O(n^2)的魔咒,使得排序算法的时间复杂度降到了 O(nlog n) 级,此 ...
【硬件模块】华为NBIOT 使用记录
From: https://liudongdong1.github.io/ 1. background Low power wide area network (LPWAN) has become a ...
rsync基本使用
概念 rsync是linux系统下的数据镜像备份工具.使用快速增量备份工具Remote Sync可以远程同步,支持本地复制,或者与其他SSH.rsync主机同步. 目前,已支持跨平台,可以在Windo ...
C#录音从声卡
原文 http://stackoverflow.com/questions/18812224/c-sharp-recording-audio-from-soundcard 我想从我的声卡(输出)录 ...
mfc HackerTools全局钩子
钩子英文名叫Hook,是一种截获windows系统中某应用程序或者所有进程的消息的一种技术. 如在键盘中按下一键,操作系统将收到键按下消息,把消息放入消息队列,然后消息队列对消息进行派发,发给相应的应 ...