Kernel Memory 入门系列：文档预处理

Embedding为我们提供了问题理解和文档检索的方法，但是面对大量的文档，如果在用于提问的时候再进行文档的Embedding的话，那这个过程是非常耗时的，再加之我们的文档并不会频繁变化，所以我们可以对文档进行预处理，提升检索的效率。

文档的预处理大致分为了几个步骤：

文档的准备

首先需要把我们已有的文档整理出来，起码是需要进行检索的这些文档。文档的格式不会有很大的限制，可以是docx，也可以是pdf或者ppt，当然也可以是txt或者markdown，哪怕是图片、网页或者其他可以提取文本的文档格式都可以。
文本的提取

文本提取的过程，就是将已经整理好的文档中的文字提取出来，根据不同的文档类型匹配相应的提取方法。Kernel Memory中已经默认集成了docx、excel、ppt、pdf、plaintext(markdown、text)、json、image(via OCR)等类型的文本提取方法，如果有其他的文档类型，也可以自行添加。
文本的分片

我们的文档往往比较大，如果直接进行检索使用的话，会导致最终的提示词上下文太长，从而造成Token的浪费。另外提示词太长的话，生成的速度也会变慢，从而费时费钱。

其实另外一个最主要的原因是embedding的接口是有token限制的，所以太长的话要么造成信息丢失，要么引起生成错误。

所以最好的方法就是将文本进行分片处理。Kernel Memory中提供了一个默认的分片方法，根据文本的长度、段落、句子、标点符号等进行分片，当然也可以自行添加。
文档存储

这里其实只是做一个持久化的过程，可以用于管理文档处理的进度。
文本的Embedding

将分片好的文本进行Embedding，得到对应的向量。根据实际的需求，可以选用不同的Embedding模型，但是需要确保，最终和最终检索所使用的Embedding模型保持一致。
存储到向量数据库

将Embedding的结果存储到向量数据库中，这样的话，我们就可以在检索的时候，直接从向量数据库中读取向量，而不需要再进行Embedding，从而提升检索的效率。

一些其他的过程：

整个文档预处理的过程是讲已有的文本最终转化为向量，存储到向量数据库的过程。在这个处理流程中，另外需要消息队列来管理处理的进度。如果需要进行的文档的更新的话，可以使用文档删除的方法，将文档从向量数据库中删除，然后重新进行文档导入处理。

Kernel Memory 入门系列：文档预处理的更多相关文章

老猿学5G扫盲贴：3GPP规范文档命名规则及同系列文档阅读指南
专栏:Python基础教程目录专栏:使用PyQt开发图形界面Python应用专栏:PyQt入门学习老猿Python博文目录老猿学5G博文目录在学习5G规范过程中,有些内容把握不定的时候,有时 ...
AIO系列文档（2）----TIO使用
AIO系列文档(1)----图解ByteBuffer中介绍了ByteBuffer用法,下面通过介绍t-io介绍如何使用: hello world例子简介本例子演示的是一个典型的TCP长连接应用,代码 ...
scala快速入门之文档注释
scala快速入门之文档注释 1.在项目栏的目录树中找到该源码,右击点击Show in Explorer, 即可找到该源码的本地路径,在路径中输入cmd 2.执行scaladoc -d 生成文档注释 ...
Thinking in Java系列文档+代码+简评
声明:本人无意侵犯原作者的版权,这里可下载的文档都属于作者自行开放下载的,统一放置在这里是因为不可预测的原因使得原文档和代码不方便下载,故将我所收集的内容统一在这里,如果这里的内容侵犯了别人,请告知我 ...
Apache Pig入门学习文档（一）
1,Pig的安装 (一)软件要求 (二)下载Pig (三)编译Pig 2,运行Pig (一)Pig的所有执行模式 (二)pig的交互式模式 (三)使用pig脚本 ...
Sharepoint学习笔记—ECM系列—文档列表的Metedata Navigation与Key Filter功能的实现
如果一个文档列表中存放了成百上千的文档,想要快速的找到你想要的还真不是件容易的事,Sharepoint提供了Metedata Navigation与Key Filter功能可以帮助我们快速的过滤和定位 ...
Sharepoint学习笔记—ECM系列--文档集(Document Set)的实现
文档集是 SharePoint Server 2010 中的一项新功能,它使组织能够管理单个可交付文档或工作产品(可包含多个文档或文件).文档集是特殊类型的文件夹,它合并了唯一的文档集属性以及文件夹和 ...
SVG 2D入门8 - 文档结构
前面介绍了很多的基本元素,包括结构相关的组合和重用元素,这里先对SVG的文档结构中剩下的相关元素简单总结一下,然后继续向前领略SVG的其他特性. SVG文档的元素基本可以分为以下几类: 动画元素:an ...
微软官方的.net系列文档
闲下来的时候给自己补充补充基础,微软官方的相关技术文档地址,最新最全最官方:https://docs.microsoft.com/zh-cn/ 其中.NET专区:https://docs.micros ...
一起买Beta版本系列文档
一起买beta版本文档报告汇总 031402401鲍亮 031402402曹鑫杰 031402403常松 031402412林淋 031402418汪培侨 031402426许秋鑫一.Beta版本冲 ...

随机推荐

JAVA-Springboot实践项目-用户注册
Smiling & Weeping ----我本没喜欢的人, 见你的次数多了, 也就有了. 1.创建数据表 1.1.选中数据表: use store 1.2.创建t_user表: 2创建用户实 ...
用OLED屏幕播放视频(2): 为OLED屏幕开发I2C驱动
下面的系列文章记录了如何使用一块linux开发扳和一块OLED屏幕实现视频的播放: 项目介绍为OLED屏幕开发I2C驱动使用cuda编程加速视频处理这是此系列文章的第2篇, 主要总结和记录一个I ...
VMware Work Station使用ubuntu20.04挂载共享文件夹写入文件时出现输入/输出错误
原因是默认的max_write为0x00020000即128k,超过此大小会报错,另外big_writes,umask等选项也要加上, sudo /usr/bin/vmhgfs-fuse .host: ...
ConcurrentHashMap底层源码分析
ConcurrentHashMap源码底层分析 1.ConcurrentHashMap初始化 jdk8之后,ConcurrentHashMap采用了HashMap的底层结构(数据,链表,红黑树),在此 ...
AcWing 第102场周赛题解
第一次ak周赛,写篇题解纪念一下第一题给定两个长度为 n n n 的整数序列 a 1 , a 2 , - , a n a_1,a_2,-,a_n a1,a2,-,an 以及 b 1 , b ...
linux文件、目录权限和所有者
文件.目录权限和所有者简介:用户对一个文件或目录具有访问权限,这些访问权限决定了谁能访问,以及如何范围这些文件和目录.通过设置权限可以限制或允许以下三种用户访问: 文件的用户所有者(属主) 文件的组 ...
StackOverflow 并不只是一个问答网站
首页新文章联系管理订阅 StackOverflow 并不只是一个问答网站今天看到了一个网站的模仿StackOverflow的问答应用,有点儿感慨:是不是设计这个模仿应用的人,真 ...
vue项目打包，解决静态资源无法加载和路由加载无效(404)问题
打包后的项目静态资源无法使用,导致页面空白静态资源无法使用,那就说明项目打包后,图片和其他静态资源文件相对路径不对,此时找到config里面的index.js,在build模块下加入assetsPu ...
UVA10054 The Necklace 题解
好可恶一道题,怎么没人告诉我输出之间有空行( 思路是先抽象成图,然后跑一边dfs记录边的前后顺序. 对于不能成环的情况,只需要再开个数组记录度数判断奇点即可. 若存在奇点则break掉,剩下的跑dfs ...
Substring of Sorted String 题解
Substring of Sorted String 写篇题解纪念一下蒟蒻第一次赛时切出的 F 题. 题目简述对一个字符串进行单点修改,区间判断操作. 修改操作为将一个字符修改为另一个,判断操作为判 ...

Kernel Memory 入门系列：文档预处理

Kernel Memory 入门系列：文档预处理

Kernel Memory 入门系列：文档预处理的更多相关文章

随机推荐

热门专题