从数据洞察到智能决策:合合信息&infiniflow RAG技术的实战案例分享
从数据洞察到智能决策:合合信息&infiniflow RAG技术的实战案例分享
标题取自 LLamaIndex,这个内容最早提出于今年 2 月份 LlamaIndex 官方博客。从 22 年 chatGpt 爆火,23 年大模型尝鲜,到 24 年真正用 AI 落地业务场景,业界普遍都发现了从 MVP 到 PMF 不是那么容易的,具体的原因有非常多,在 RAG 场景下,最主要的表现是企业的数据 “垃圾进,垃圾出”,如何利用好企业数据是提升 RAG 效果的关键

看一下各个公司都是怎么做的
1. 合合信息
一周快速出 Demo,半年产品不好用
RAG 范式从直观上理解起来落地是比较容易的,通过自然语言的语意匹配度找到相关的内容,再让模型进行回答,可是在实际落地过程中发现效果比预期差很多,总结起来会有以下一些问题

1.1 LLM RAG 产品如何快速达到可用、好用,开始增长?
如何解决 RAG 落地过程中遇到问题,提升 RAG 的整体效果,达到线上生产可用的目标,首先落地的关键点在于

再回归本质,影响 RAG 落地效果的最本质问题在于

1.2 提升 RAG 效果核心的优化方向:高质量文档解析 + 高质量检索
- RAG 优化目标一: 快速、稳定、精准解析文档
原始的文档是各种各样的格式,各种各样的模态,如何快速、精确解析出高质量的内容对提升最终检索效果非常重要

- RAG 优化目标二: 高精度、高效率向量检索
从海量的内容中提取出最相关的内容,对提升 LLM 输出效果准确率、相关性非常重要

- TextIn 通用文本解析技术 + Acge 向量化模型
合合信息自研了 TextIn 通用文本解析技术,对丰富的文档格式和内容能快速,精准解析为 MD 格式,另外自研的 acge_text_embedding 向量化模型在检索准确率,精度等方面表现也非常突出

- TextIn 技术的一些介绍和效果展示 (示例,详见附录 PPT)








- acge_text_embedding 向量化模型的效果展示

- 线上产品效果展示

- 总结

2.infiniflow(英飞流)
官网:https://infiniflow.org/
infiniflow 自研了 AI-Native Database Infinity,在 RAG 检索方面表现非常突出

- 下一代 RAG 引擎


同样对于 RAG 效果的提升,英飞流的核心研究方向也是高质量的内容解析 + 高质量的检索
- 内容解析

- 效果展示

- 表格识别模型

- 文档识别模型

- 多模态识别
这里演讲人描述了和月之暗面创始人关于多模态识别的讨论,在大模型厂商看来,目前英飞流做的内容识别的工作都是雕花,因为大模型的上下文会越来越长,但演讲人还是更坚定于解决当前内容识别效果提升的问题,这里没有对错,只是看什么方案更适合

- 混合检索
英飞流提供的 AI Native 数据库是个亮点,由于当前向量化检索的一些限制 (数据量、延迟、精度等),各种数据库在混合检索方面支持的效果参差不齐,英飞流致力于提供高性能、高精度、支持海量数据、支持混合检索的 AI
- Native 数据库
Infinity 支持稠密向量、稀疏向量、张量、全文检索、结构化检索等丰富检索方式,了解 cross-encoder 的同学应该知道,cross-encoder 在检索效果方面比双编码器要好很多,但随着数据量提升,延迟不断升高,通常是不能接受的。随着 colbert 延迟交互的提出,目前业界针对检索效果和检索性能方面有了更让人惊喜的方案,但 colbert 也有一些工程问题,比如上下文限制,无法端到端使用等,Infinity 数据库支持 Tensor 数据类型,原生支持了 colbert 端到端方案,保障效果的前提下并解决海量数据检索延迟的问题,还是非常惊喜的

性能方面的表现非常突出

Intinity 在检索效率和效果上做到了兼顾

- 延迟交互是 RAG 的未来

2.1高级 RAG
另外一个分享的主体是在复杂查询下如何提升检索效果
- Agentic RAG
这里通常的思路都是进行问题预处理,人机协同反馈调优,没什么大的差异


- 知识图谱
知识图谱是一个很优秀的技术,对检索结果效果优化是非常好的补充

小结

3.LlamaIndex
博客:https://www.llamaindex.ai/blog
llamaIndex 提到的优化方向和上边提到方向是一致的,这说明在企业落地 RAG 项目中,重点应该关注的是内容的解析效果和内容检索的效果

关于 llamaIndex 的分享内容这里不详细罗列,感兴趣可以看下附录的 PPT,这里主要看下 llamaIndex 做了哪些工作
3.1 LlamaParse
LlamaIndex 提供了 LlamaParse 可以解析复杂的多格式、多模态的文档,并以 AI Friendly(MD) 的格式输出
这里可以简单说 AI Friendly,其实业界提出 MD 格式是对 AI Friendly 的格式,在我们日常和业务合作过程中,也发现了 MD 的效果是最好的


另外,chunk 一般建议最好一个 chunk 是一篇文档,保障最完整的语意,这给了我们一个组织文档的经验建议

3.2 LlamaExtract
LlamaExtract 在 llamaIndex 分享的 ppt 没有提及,但在官方博客中提了,主要是以结构化的方式提取出文档的信息,有点类似图谱,是对文档检索内容的一个非常好的补充,感兴趣可以看下官方博客

- 参考链接
英飞流对延迟交互的思考:https://www.maas.com.cn/blog/493.html
acge_text_embedding: https://huggingface.co/aspire/acge_text_embedding
英飞流 ragflow:https://github.com/infiniflow/ragflow/blob/main/README_zh.md
从数据洞察到智能决策:合合信息&infiniflow RAG技术的实战案例分享的更多相关文章
- Tidyverse|数据列的分分合合,爱恨情仇
Tidyverse|数据列的分分合合,爱恨情仇 本文首发于“生信补给站”Tidyverse|数据列的分分合合,一分多,多合一 TCGA数据挖掘可做很多分析,前期数据“清洗”费时费力但很需要. 比如基因 ...
- “融而开放、合以创新”T-HIM融合通信技术开发实战
本文来自腾讯云技术沙龙,本次沙龙主题为T-HIM融合通信技术开发实战 2018年,企业的数字化转型大规模兴起,"数字化经济"时代来临.如何利用数字化技术来支持业务的转型.增长与创新 ...
- 【前端优化之拆分CSS】前端三剑客的分分合合
几年前,我们这样写前端代码: <div id="el" style="......" onclick="......">测试&l ...
- 【Python自动化Excel】pandas处理Excel的“分分合合”
话说Excel数据表,分久必合.合久必分.Excel数据表的"分"与"合"是日常办公中常见的操作.手动操作并不困难,但数据量大了之后,重复性操作往往会令人崩溃. ...
- 【Python自动化Excel】pandas操作Excel的“分分合合”
话说Excel数据表,分久必合.合久必分.Excel数据表的"分"与"合"是日常办公中常见的操作.手动操作并不困难,但数据量大了之后,重复性操作往往会令人崩溃. ...
- 【视频合集】极客时间 react实战进阶45讲 【更新中】
https://up2.v.sharedaka.com/video/ochvq0AVfpa71A24bmugS5EewhFM1553702519936.mp4 01 React出现的历史背景及特性介绍 ...
- Agora 教程丨一个典型案例,教你如何使用水晶球“数据洞察”
7 月初,声网Agora 水晶球的"数据洞察"功能正式版上线."数据洞察"可显示两种数据,一种是用量,另一种是质量. "数据洞察"的&quo ...
- GPRS GPRS(General Packet Radio Service)是通用分组无线服务技术的简称,它是GSM移动电话用户可用的一种移动数据业务,属于第二代移动通信中的数据传输技术
GPRS 锁定 本词条由“科普中国”百科科学词条编写与应用工作项目 审核 . GPRS(General Packet Radio Service)是通用分组无线服务技术的简称,它是GSM移动电话用户可 ...
- 总结2015搭建日志,监控,ci,前端路由,数据平台,画的图与界面 - hugo - ITeye技术网站
总结2015搭建日志,监控,ci,前端路由,数据平台,画的图与界面 - hugo - ITeye技术网站 极分享:高质分享+专业互助=没有难做的软件+没有不得已的加班 极分享:高质分享+专业互助=没有 ...
- 【Python】动手分析天猫内衣售卖数据,得到你想知道的信息
大家好,希望各位能怀着正直.严谨.专业的心态观看这篇文章.ヾ(๑╹◡╹)ノ" 接下来我们尝试用 Python 抓取天猫内衣销售数据,并分析得到中国女性普遍的罩杯数据.最受欢迎的内衣颜色是什么 ...
随机推荐
- Mac 版本10.15.4 安装 telnel工具
下载脚本 mac新版本安装telnel发生的变化,进入下面的链接,右键另存为,保存到桌面 https://raw.githubusercontent.com/Homebrew/install/mast ...
- CvT:微软提出结合CNN的ViT架构 | 2021 arxiv
CvT将Transformer与CNN在图像识别任务中的优势相结合,从CNN中借鉴了多阶段的层级结构设计,同时引入了Convolutional Token Embedding和Convolutiona ...
- 在IDEA中找不到Mapper报错
前言 相信大多数互联网公司的持久层框架都是使用 Mybatis 框架,而大家在 Service 层引入自己编写的 Mapper 接口时应该会遇到下面的情况: 我们可以看到,上面的红色警告在提示我们,找 ...
- Day 11 - 模拟考
WTP 的大洗牌 题目描述 \(\text{input1}\) 3 1 1 1 1 2 3 \(\text{output1}\) 10 0 数据范围 shuffle.zip 第一题 题目描述 输入格式 ...
- AT_arc154_b 题解
洛谷链接&Atcoder 链接 本篇题解为此题较简单做法及较少码量,并且码风优良,请放心阅读. 题目简述 给定两个长度为 \(n\) 的字符串 \(S,T\),定义一次操作可取出 \(S\) ...
- mybatis关于大于小于:元素内容必须由格式正确的字符数据或标记组成。
首先是原因: mybatis中< >这两个符号会被识别为标签的开始和结束,用了就会报解析的错误 会报错类似下面这些 1.元素内容必须由格式正确的字符数据或标记组成. 2.Error cre ...
- 使用MySQL实现分布式锁
分布式锁开发中经常使用,在项目多节点部署或者微服务项目中,JAVA提供的线程锁已经不能满足安全的需求,需要使用全局的分布式锁来保证安全:分布式锁的实现的方式有很多种,最常见的有zookeeper,Re ...
- 【Linux】真机安装CentOS8
先制作启动U盘 https://www.cnblogs.com/mindzone/p/12961506.html 插入电脑,开机[这里我是把电脑硬盘格式化了,不会在电脑磁盘上找到任何系统,直接跳到启动 ...
- 【Java】Maven模块化工程SSM整合
创建数据库一个演示表User CREATE TABLE `user` ( `id` int NOT NULL AUTO_INCREMENT, `name` varchar(64) DEFAULT NU ...
- 设计和实现AI算法算法时有没有必要在代码中加注释,没有用必要在实现之前弄个UML图???
问题如题: 设计和实现AI算法算法时有没有必要在代码中加注释,没有用必要在实现之前弄个UML图??? 今天看到一个博文: https://www.cnblogs.com/siyuanwai/p/154 ...