通过ftutilx 插件实现流版式文件全文检索

Oracle 支持流版式文件的全文检索，而原生的PostgreSQL是不支持流版式文件全文检索的。KingbaseES 通过ftutilx 插件将流版式文件转换成文本文件，从而支持流版式文件全文检索。

一、准备数据

1、创建TXT和docx文件

分别创建文本文件和word文件，内容如下：

  oid  |  cfgname   | cfgnamespace | cfgowner | cfgparser

-------+------------+--------------+----------+-----------

  3748 | simple     |           11 |       10 |      3722

 13288 | arabic     |           11 |       10 |      3722

 13290 | danish     |           11 |       10 |      3722

 13292 | dutch      |           11 |       10 |      3722

 13294 | english    |           11 |       10 |      3722

 13296 | finnish    |           11 |       10 |      3722

 13298 | french     |           11 |       10 |      3722

 13300 | german     |           11 |       10 |      3722

2、将两个文件存入blob和clob

create table ts_test(txt_clob clob,txt_blob blob,doc_clob clob,doc_blob blob);

insert into ts_test values(clob_import('/home/kb21/temp.txt'),blob_import('/home/kb21/temp.txt'),clob_import('/home/kb21/temp.docx'),blob_import('/home/kb21/temp.docx'));
ERROR:  invalid byte sequence for encoding "UTF8": 0x00

注意：这里把docx 用clob 导入时报错。

create table ts_test(txt_clob clob,txt_blob blob,doc_blob blob);

insert into ts_test values(clob_import('/home/kb21/temp.txt','UTF8'),blob_import('/home/kb21/temp.txt'),blob_import('/home/kb21/temp.docx'));

二、文本格式的全文检索

test=# select count(*) from ts_test where to_tsvector(txt_clob) @@ to_tsquery('simple');

 count

-------

     1

(1 row)

test=# select count(*) from ts_test where to_tsvector(txt_blob) @@ to_tsquery('simple');

 count

-------

     1

(1 row)

test=# select count(*) from ts_test where to_tsvector(doc_blob) @@ to_tsquery('simple');

 count

-------

     0

(1 row)

结论：对于文本类型，不管存储数据类型的是clob，还是blob，全文检索都可以搜索到；对于docx类型，由于是流版式格式，全文检索无法使用。

三、流版式格式的全文检索

1、配置参数

shared_preload_libraries = 'ftutilx, ......'

2、设置LD_LIBRARY_PATH

ftutilx 依赖于 jre-1.8.0 运行时环境，部署后需要设置LD_LIBRARY_PATH 系统环境变量包含jre-1.8.0的libjvm.so 路径。

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/etc/alternatives/jre_1.8.0/lib/amd64/server

3、测试流版式文件检索

test=# create extension ftutilx;

CREATE EXTENSION

test=# \dx+ ftutilx

Objects in extension "ftutilx"

Object description

----------------------------

function extracttext(blob)

(1 row)

test=# select extracttext(doc_blob) from ts_test;

                        extracttext

------------------------------------------------------------

   oid  |  cfgname   | cfgnamespace | cfgowner | cfgparser +

 -------+------------+--------------+----------+-----------+

   3748 | simple     |           11 |       10 |      3722 +

  13288 | arabic     |           11 |       10 |      3722 +

  13290 | danish     |           11 |       10 |      3722 +

  13292 | dutch      |           11 |       10 |      3722 +

  13294 | english    |           11 |       10 |      3722 +

  13296 | finnish    |           11 |       10 |      3722 +

  13298 | french     |           11 |       10 |      3722 +

test=# select to_tsvector(extracttext(doc_blob)) from ts_test;

                                                              to_tsvector

--------------------------------------------------------------------------------------------------------------------------------------------------------------- '10':9,14,19,24,29,34,39 '11':8,13,18,23,28,33,38 '13288':11 '13290':16 '13292':21 '13294':26 '13296':31 '13298':36 '3722':10,15,20,25,30,35,40 '3748':6 'arab

ic':12 'cfgname':2 'cfgnamespace':3 'cfgowner':4 'cfgparser':5 'danish':17 'dutch':22 'english':27 'finnish':32 'french':37 'oid':1 'simple':7

(1 row)

可以看到， extracttext 的作用是将流版式的数据抽取成文本格式，然后再通过to_tsvector 进行分词。

四、注意事项

ftutilx 也可以针对中文的流版式文件转换成文本格式，因此，配合 to_tsvector 也可以支持中文全文检索
ftutilx 需要依赖于jre-1.8.0 运行时环境，部署后需要设置LD_LIBRARY_PATH 系统环境变量包含jre-1.8.0的libjvm.so 路径。
ftutilx.max_string_length 参数用于配置抽取结果的最大长度，但由于tsvector 目前最大支持(1M-1)，所以extracttext 结合to_tsvector 使用时，分词结果大小不能超过(1M-1)。
ftutilx 需要创建JVM，JVM 会占用较多内存。虽然调整ftutilx.jvm_option_string 的-Xmx 可以限制JVM 的内存占用，但过小的-Xmx 值会导致大文件解析时JVM 发生内存不足异常。
由于通过ftutilx 进行流版式文件转换性能较慢，为提高检索性能，可以在表中添加存储列，用于存储内容抽取结果或者词位列表。如：ALTER TABLE tab ADD COLUMN tab_idx_col tsvector GENERATED ALWAYS AS (to_tsvector('zhparsercfg', extracttext(body))) STORED;

通过ftutilx 插件实现流版式文件全文检索的更多相关文章

koa2基于stream(流)进行文件上传和下载
阅读目录一:上传文件(包括单个文件或多个文件上传) 二:下载文件回到顶部一:上传文件(包括单个文件或多个文件上传) 在之前一篇文章,我们了解到nodejs中的流的概念,也了解到了使用流的优点,具 ...
Java:IO流与文件基础
Java:IO流与文件基础说明: 本章内容将会持续更新,大家可以关注一下并给我提供建议,谢谢啦. 走进流什么是流流:从源到目的地的字节的有序序列. 在Java中,可以从其中读取一个字节序列的对象 ...
C++之流与文件
C++中,输入输出采用流来进行,例如iostream库中的 cin 和 cout .对文件进行读写操作也使用流.可以将文件与流关联起来,然后对文件进行操作.要将流与文件关联起来,必须像声明变量那样声明 ...
java io流对文件夹的操作
java io流对文件夹的操作检查文件夹是否存在显示文件夹下面的文件 ....更多方法参考 http://www.cnblogs.com/phpyangbo/p/5965781.html ,与文 ...
java io流创建文件、写入数据、设置输出位置
java io流创建文件写入数据改变system.out.print的输出位置 //创建文件 //写入数据 //改变system.out.print的输出位置 import java.io.*; ...
java io流（字符流）文件打开、读取文件、关闭文件
java io流(字符流) 文件打开读取文件关闭文件 //打开文件 //读取文件内容 //关闭文件 import java.io.*; public class Index{ public sta ...
C++学习47 文件的概念文件流类与文件流对象文件的打开与关闭
迄今为止,我们讨论的输入输出是以系统指定的标准设备(输入设备为键盘,输出设备为显示器)为对象的.在实际应用中,常以磁盘文件作为对象.即从磁盘文件读取数据,将数据输出到磁盘文件.磁盘是计算机的外部存储器 ...
[Java] 通过文件流拷贝文件
package test.stream; import java.io.FileInputStream; import java.io.FileNotFoundException; import ja ...
QT visual stuido 集成插件不能打开ui文件的解决方法（去掉xml的UTF8标记）
QT visual stuido 集成插件不能打开ui文件的解决方法 visual studio里不能打开这个ui文件,出现warning等解决方法是:于是将<?xml version=&quo ...

随机推荐

Vscode标题栏出现【不受支持】提示的完美解决方案
安装Fix VSCode Checksums code --install-extension lehni.vscode-fix-checksums 打开命令面板,快捷键 Ctrl + Shift + ...
告别单调，Django后台主页改造 - 使用AdminLTE组件
前言之前我做了个Django的项目,为了让管理后台更加美观,我对Django(应该说是SimpleUI的)默认的Admin后台主页进行改造,具体可以看这篇文章:项目完成 - 基于Django3.x版 ...
Git代码提交报错 (Your branch is up to date with 'origin/master)
一.前言今天码云上提交自己本地的一个SpringBoot+Vue的小项目,由于前端代码提交第一次时候提交码云上文件夹下为空,于是自己将本地代码复制到码云拉取下来代码文件夹下,然而git add . ...
sql server2016 数据库日志清空语句
/*1.查询数据库日志文件名称*/--TC_MES_DEV为数据库名--这里的数据库日志名,可以用以下注释的语句进行查询(_log那个)USE [TC_MES_DEV]GOSELECT file_i ...
NC24083 [USACO 2017 Dec P]Greedy Gift Takers
NC24083 [USACO 2017 Dec P]Greedy Gift Takers 题目题目描述 Farmer John's nemesis, Farmer Nhoj, has N cows ...
Tapdata 肖贝贝：实时数据引擎系列(六)-从 PostgreSQL 实时数据集成看增量数据缓存层的必要性
摘要:对于 PostgreSQL 的实时数据采集, 业界经常遇到了包括:对源库性能/存储影响较大, 采集性能受限, 时间回退重新同步不支持, 数据类型较复杂等等问题.Tapdata 在解决 Pos ...
Markdown扩展语法
目录 Markdown 语法补充一.快速生成 HTML 表格代码在线表格编辑器--TablesGenerator 二. 插入视频.音频或GIF 1. 视频 2. 音频方法一方法二方法三 3. ...
基于ABP实现DDD--聚合和聚合根实践
在下面的例子中涉及Repository.Issue.Label.User这4个聚合根,接下来以Issue聚合为例进行分析,其中Issue聚合是由Issue[聚合根].Comment[实体].Iss ...
ACWing95. 费解的开关
题解这道题目有三个状态条件值得考虑: 每一个开关被按0次或者1次才有意义,如果超过1次,那么等同于按0或1次. 最终的结果与按的顺序无关因为2,所以可以人为地规定比较合理的顺序. 现在以每一行为顺 ...
Thread类的常用方法_sleep和创建多线程程序的第二种方式实现Runnable接口
public static void sleep(long millis);//使当前正在执行的线程以指定的毫秒数暂停(暂时停止执行). 毫秒数结束后线程继续执行 package com.yang.T ...