GIN(Generalized Inverted Index, 通用倒排索引) 是一个存储对(key, posting list)集合的索引结构,其中key是一个键值,而posting list 是一组出现过key的位置。如(‘hello', '14:2 23:4')中,表示hello在14:2和23:4这两个元祖出现过,在PG中这些位置实际上就是元组的tid(行号,包括数据块ID(32bit),以及item point(16 bit) )。

对于表中的每一个属性,在建立对应 gin 索引时,都可能会被解析为多个键值,所以同一个元组的tid可能会出现在多个key的posting list中。

一、索引的逻辑结构

GIN索引在逻辑上可以看成一个relation,该relation有两种结构:

1. 只索引基表的一列的情况:

key value
Key1 Posting list( or posting tree)
Key2 Posting list( or posting tree)

2. 索引基表的多列(复合、多列索引):

column_id key value
Column1 num Key1 Posting list( or posting tree)
Column2 num Key1 Posting list( or posting tree)
Column3 num Key1 Posting list( or posting tree)
... ... ...

这种结构,对于基表中不同列的相同的key,在GIN索引中也会当作不同的key来处理。

二、索引的物理结构

GIN索引在物理存储上包含如下内容:
1. Entry:GIN索引中的一个元素,可以认为是一个词位,也可以理解为一个key
2. Entry tree:在Entry上构建的B树
3. posting list:一个Entry出现的物理位置(heap ctid, 堆表行号)的链表
4. posting tree:在一个Entry出现的物理位置链表(heap ctid, 堆表行号)上构建的B树,所以posting tree的KEY是ctid,而entry tree的KEY是被索引的列的值
5. pending list:索引元组的临时存储链表,用于fastupdate模式的插入操作

具体结构如下:

索引实际例子如下:

三、GIN索引使用例子

1、前后模糊查询

创建测试数据:

test=# create extension sys_trgm;
CREATE EXTENSION test=# create table t1_text(doc text);
CREATE TABLE
test=# insert into t1_text select short_desc from pg_settings;
INSERT 0 410 test=# create index ind_t1_text on t1_text using gin(doc gin_trgm_ops);
CREATE INDEX

查看执行计划:

test=# explain select * from t1_text where doc like '%mod%';
QUERY PLAN
---------------------------------------------------------------------------
Bitmap Heap Scan on t1_text (cost=12.06..17.16 rows=8 width=55)
Recheck Cond: (doc ~~ '%mod%'::text)
-> Bitmap Index Scan on ind_t1_text (cost=0.00..12.06 rows=8 width=0)
Index Cond: (doc ~~ '%mod%'::text)
(4 rows)

结论:可以看到,GIN 索引支持前后模糊查询。

注意:要使用gin索引,必须至少要有三个字符,如以上例子 mod 是三个字符。

2、全文检索

GIN 索引实际上更多的用于全文检索的情景。

准备数据:

alter table t1_text add (doc_ts tsvector);
update t1_text set doc_ts=to_tsvector(doc);
create index ind_t1_ts on t1_text using gin(doc_ts);

查看执行结果:

test=# explain select * from t1_text where doc_ts @@ to_tsquery('command');
QUERY PLAN
------------------------------------------------------------------------
Bitmap Heap Scan on t1_text (cost=8.32..25.71 rows=9 width=179)
Recheck Cond: (doc_ts @@ to_tsquery('command'::text))
-> Bitmap Index Scan on ind_t1_ts (cost=0.00..8.32 rows=9 width=0)
Index Cond: (doc_ts @@ to_tsquery('command'::text))
(4 rows) test=# select doc from t1_text where doc_ts @@ to_tsquery('command');
doc
---------------------------------------------------------------------------
Sets the shell command that will be executed at every restart point.
Sets the shell command that will be called to archive a WAL file.
Allows archiving of WAL files using archive_command.
Logs each replication command.
Sets the shell command that will be executed once at the end of recovery.
Sets the shell command that will retrieve an archived WAL file.
Command to obtain passphrases for SSL.
Also use ssl_passphrase_command during server reload.
Updates the process title to show the active SQL command.
(9 rows) test=# select doc from t1_text where doc_ts @@ to_tsquery('comman');
doc
-----
(0 rows)

四、gin 索引可用于超长的字段

test=# create table tab1(id1 text,id2 text );
CREATE TABLE test=# alter table tab1 alter column id2 set storage external;
ALTER TABLE

test=# insert into tab1 select *,repeat(id1,10000) from generate_series(1,10000) id1;
INSERT 0 10000

test=# create index ind_tab1 on tab1(id2);
ERROR: index row requires 10016 bytes, maximum size is 8191

test=# create index ind_tab1 on tab1 using gin(id2 gin_trgm_ops);
CREATE INDEX

gin 索引之所以支持超长数据,这是因为gin 索引的 key 是关键词位,而非整条记录。

GIN 索引的更多相关文章

  1. 浅谈postgresql的GIN索引(通用倒排索引)

    1.倒排索引原理 倒排索引来源于搜索引擎的技术,可以说是搜索引擎的基石.正是有了倒排索引技术,搜索引擎才能有效率的进行数据库查找.删除等操作.在详细说明倒排索引之前,我们说一下与之相关的正排索引并与之 ...

  2. postgresql 创建gin索引

    1.创建gin类型的索引 postgresql 创建gin索引遇到的问题:1.ERROR: operator class "gin_trgm_ops" does not exist ...

  3. gin索引优化实例1

    GIN(Generalized Inverted Index, 通用倒排索引) 是一个存储对(key, posting list)集合的索引结构,其中key是一个键值,而posting list 是一 ...

  4. postgresql gin索引使用

    由于属于老项目,postgresql使用版本9.6,主要解决‘%name%"查询无法使用索引问题.pg_trgm模块提供函数和操作符测定字母,数字,文本基于三元模型匹配的相似性, 还有支持快 ...

  5. GIN and RUM 索引性能比较

    gin索引字段entry构造的TREE,在末端posting tree|list 里面存储的是entry对应的行号. 别无其他信息.rum索引,与GIN类似,但是在posting list|tree的 ...

  6. psql-09表:视图和索引

    视图 由查询语句定义的虚拟表;从视图中看到的数据可能来自数据库中的一张或多张表,也可能来自外部; 使用视图的原因一般有: 使复制的查询易于理解和使用; 安全原因; 表一些函数返回的结果映射成视图; 一 ...

  7. PostgreSQL自学笔记:9 索引

    9 索引 9.1 索引简介 索引是对数据库表中一列或多列值进行排序的一种结构,使用 索引可提高数据库中特定数据的查询速度 9.1.1 索引的含义和特点 索引是一种单独的.存储在磁盘上的数据库结构,他们 ...

  8. PostgreSQL索引介绍

    h1, h2, h3, h4, h5, h6, p, blockquote { margin: 5px; padding: 5; } body { font-family: "Helveti ...

  9. postgres 索引

    索引是一种特殊的查询表,可以使用搜索引擎的数据库以加快数据检索.简单地说,索引是表中的数据的一个指针,在一个数据库中的索引是非常相似,如:一本书的目录. 例如,如果想在一本书中引用的所有页面讨论某个话 ...

随机推荐

  1. .Net Core 中使用工厂模式

    什么是工厂模式 工厂模式是最常用的设计模式之一,属于创建型模式. 有点: 解耦,可以把对象的创建和过程分开 减少代码量,易于维护 什么时候用? 当一个抽象类有多个实现的时候,需要多次实例化的时候,就要 ...

  2. UiPath循环活动While的介绍和使用

    一.While循环的介绍 先判断条件是否满足, 如果满足, 再执行循环体, 直到判断条件不满足,则跳出循环 二.While循环在UiPath中的使用 1. 打开设计器,在设计库中新建一个Flowcha ...

  3. MySQL十种锁,一篇文章带你全解析

    MySQL有两个核心的知识点,索引和锁.前几篇文章已经详细讲解了MySQL索引实现机制,今天再一起学习一下MySQL的锁. 1 为什么要加锁? 当多个事务并发操作同一批数据的时候,如果不加锁,就无法保 ...

  4. FS2K人脸素描属性识别

    人脸素描属性识别 代码:https://github.com/linkcao/FS2K_extract 问题分析 需要根据FS2K数据集进行训练和测试,实现输入一张图片,输出该图片的属性特征信息,提取 ...

  5. Python实现简繁体转换,真的玩得花

    大家好鸭, 我是小熊猫 直接开搞!!! 1.opencc-python 首先介绍opencc中的Python实现库,它具有安装简单,翻译准确,使用方便等优点.对于我们日常的需求完全能够胜任. 1.1安 ...

  6. List集合_介绍&常用方法和ArrayList集合

    List集合 我们掌握了Collection接口的使用后,再来看看Collection接口中的子类,他们都具备那些特性呢? 接下来,我们一起学习Collection中的常用几个子类(java.util ...

  7. 集合-Collection工具类

    一.概念 二.常用方法 1.Collection和Collections的区别 Collection:是创建集合的接口,Collections是一个操作Collection工具类 2.常用方法 点击查 ...

  8. 用VS Code搞Qt6:编译源代码与基本配置

    先说明一下,本水文老周仅讨论新版的 Qt 6,旧版的 Qt 不讨论. 尽管 Qt 有自己的开发环境,但老周必须说句不装逼的话:真的不好用.说起写代码,当然了,用记事本也能写.但是,有个高逼格的工具,写 ...

  9. java后端分片上传接口

    文件上传工具--FileUtil package com.youmejava.chun.util; import lombok.Data; import org.apache.tomcat.util. ...

  10. 日夕如是寒暑不间,基于Python3+Tornado6+APScheduler/Celery打造并发异步动态定时任务轮询服务

    原文转载自「刘悦的技术博客」https://v3u.cn/a_id_220 定时任务的典型落地场景在各行业中都很普遍,比如支付系统中,支付过程中因为网络或者其他因素导致出现掉单.卡单的情况,账单变成了 ...