LangChain 核心模块：Data Conneciton - Document Transformers

一旦加载了文档，通常会希望对其进行转换以更好地适应您的应用程序。

最简单的例子是，您可能希望将长文档拆分为较小的块，以适应模型的上下文窗口。LangChain具有许多内置的文档转换器，可以轻松地拆分、合并、过滤和其他操作文档。

Text Splitters 文本分割器

当你想处理长篇文本时，有必要将文本分成块。听起来很简单，但这里存在着潜在的复杂性。理想情况下，你希望将语义相关的文本片段放在一起。

从高层次上看，文本分割器的工作原理如下：

将文本分成小而有意义的块（通常是句子）。
开始将这些小块组合成较大的块，直到达到某个大小（通过某个函数进行测量）。
一旦达到该大小，使该块成为自己独立的一部分，并开始创建一个具有一定重叠（以保持上下文关系）的新文本块。

这意味着您可以沿两个不同轴向定制您的文本分割器：

1. 如何拆分文字

2. 如何测量块大小

使用 `RecursiveCharacterTextSplitter` 文本分割器

该文本分割器接受一个字符列表作为参数，根据第一个字符进行切块，但如果任何切块太大，则会继续移动到下一个字符，并以此类推。默认情况下，它尝试进行切割的字符包括 ["\n\n", "\n", " ", ""]

除了控制可以进行切割的字符外，您还可以控制其他一些内容：

length_function：用于计算切块长度的方法。默认只计算字符数，但通常在这里传递一个令牌计数器。
chunk_size：您的切块的最大大小（由长度函数测量）。
chunk_overlap：切块之间的最大重叠部分。保持一定程度的重叠可以使得各个切块之间保持连贯性（例如滑动窗口）。
add_start_index：是否在元数据中包含每个切块在原始文档中的起始位置。

LangChain 核心模块：Data Conneciton - Text Embedding Models

Embeddings类是一个专门用于与文本嵌入模型进行交互的类。有许多嵌入模型提供者（OpenAI、Cohere、Hugging Face等）-这个类旨在为所有这些提供者提供一个标准接口。

嵌入将一段文本创建成向量表示。这非常有用，因为它意味着我们可以在向量空间中思考文本，并且可以执行语义搜索等操作，在向量空间中寻找最相似的文本片段。

LangChain中基础的Embeddings类公开了两种方法：一种用于对文档进行嵌入，另一种用于对查询进行嵌入。前者输入多个文本，而后者输入单个文本。之所以将它们作为两个独立的方法，是因为某些嵌入提供者针对要搜索的文件和查询（搜索查询本身）具有不同的嵌入方法。

使用 OpenAIEmbeddings 调用 OpenAI 嵌入模型

使用 embed_documents 方法嵌入文本列表

from langchain_openai import OpenAIEmbeddings

embeddings_model = OpenAIEmbeddings()

embeddings = embeddings_model.embed_documents(

    [

        "Hi there!",

        "Oh, hello!",

        "What's your name?",

        "My friends call me World",

        "Hello World!"

    ]

)

使用 embed_query 方法嵌入问题

嵌入一段文本，以便与其他嵌入进行比较:

embedded_query = embeddings_model.embed_query("What was the name mentioned in the conversation?")

LangChain 核心模块：Data Conneciton - Vector Stores

存储和搜索非结构化数据最常见的方法之一是将其嵌入并存储生成的嵌入向量，然后在查询时将非结构化查询进行嵌入，并检索与嵌入查询“最相似”的嵌入向量。

向量存储库负责为您存储已经过嵌入处理的数据并执行向量搜索。

下面以 Chroma 为例展示功能和用法

## 使用 Chroma 作为向量数据库，实现语义搜索

from langchain.document_loaders import TextLoader

from langchain_openai import OpenAIEmbeddings

from langchain.text_splitter import CharacterTextSplitter

from langchain.vectorstores import Chroma

# 加载长文本

raw_documents = TextLoader('../tests/state_of_the_union.txt',encoding='utf-8').load()

# 实例化文本分割器

text_splitter = CharacterTextSplitter(chunk_size=200, chunk_overlap=0)

# 分割文本

documents = text_splitter.split_documents(raw_documents)

embeddings_model = OpenAIEmbeddings()

# 将分割后的文本，使用 OpenAI 嵌入模型获取嵌入向量，并存储在 Chroma 中

db = Chroma.from_documents(documents, embeddings_model)

使用文本进行语义相似度搜索

query = "What did the president say about Ketanji Brown Jackson"

docs = db.similarity_search(query)

print(docs[0].page_content)

使用嵌入向量进行语义相似度搜索

embedding_vector = embeddings_model.embed_query(query)

docs = db.similarity_search_by_vector(embedding_vector)

print(docs[0].page_content)

LangChain基础篇 (05)的更多相关文章

iOS系列基础篇 05 视图鼻祖 - UIView
iOS系列基础篇 05 视图鼻祖 - UIView 目录: UIView“家族” 应用界面的构建层次视图分类最后在Cocoa和Cocoa Touch框架中,“根”类时NSObject类.同样, ...
Java多线程系列--“基础篇”05之线程等待与唤醒
概要本章,会对线程等待/唤醒方法进行介绍.涉及到的内容包括:1. wait(), notify(), notifyAll()等方法介绍2. wait()和notify()3. wait(long t ...
MySQL基础篇(05)：逻辑架构图解和InnoDB存储引擎详解
本文源码:GitHub·点这里 || GitEE·点这里一.MySQL逻辑架构 1.逻辑架构图基于下面的逻辑架构图,可以大致熟悉MySQL各个架构组件之间的协同工作关系. 很经典的C/S架构风格, ...
python基础篇 05字典
本节主要内容:1. 字典的简单介绍2. 字典增删改查和其他操作3. 字典的嵌套一. 字典的简单介绍:字典(dict)是python中唯一的一个映射类型.他是以{ }括起来的键值对组成. 在dict中 ...
Java多线程系列基础篇05 synchronized关键字
1. synchronized原理在java中,每一个对象有且仅有一个同步锁,所以同步锁是依赖于对象而存在.当我们调用某对象的synchronized方法时,就获取了该对象的同步锁.例如,synch ...
Scala基础篇-05求值策略
Scala的求值策略有2种: call by value call by name 如何区分? 例子: def bar(x:Int,y: => Int) = def loop(): Int=lo ...
mysql学习之基础篇05
mysql中的统计函数: 1. 查询商品价格中最高的价格: select max(shop_price) from goods; 2. 查询商品价格中最低的价格: select min(shop_pr ...
[ASP.NET Core开发实战]基础篇05 服务器
什么是服务器服务器指ASP.NET Core应用运行在操作系统上的载体,也叫Web服务器. Web服务器实现侦听HTTP请求,并以构建HttpContext的对象发送给ASP.NET Core应用. ...
Java多线程系列--“基础篇”11之生产消费者问题
概要本章,会对“生产/消费者问题”进行讨论.涉及到的内容包括:1. 生产/消费者模型2. 生产/消费者实现转载请注明出处:http://www.cnblogs.com/skywang12345/p ...
Java多线程系列--“基础篇”06之线程让步
概要本章,会对Thread中的线程让步方法yield()进行介绍.涉及到的内容包括:1. yield()介绍2. yield()示例3. yield() 与 wait()的比较转载请注明出处:ht ...

随机推荐

Sublime之快捷操作
列举常用的Sublime操作,涉及操作 1.每行默认需要统一添加逗号 1)全选 ctrl + a 2) 组合键 ctrl + shift + l 即可进行操作 (这里是L哦) 之后也可以使用HOME键 ...
Mongodb4.4安装与使用
MongoDB是一个高性能,开源,无模式的文档型数据库,是当前NoSql数据库中比较热门的一种.MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数 ...
体验 DORIS 安装
1.概述 doris 是百度提供一个MPP架构的分析性数据库. 下面介绍一下如何安装doris . 2.下载我用的是centos 7.5 的虚拟器. https://doris.apache.or ...
Javascript 异步处理
1.传统异步处理 ES6之前使用回调进行处理,示例代码: //创建一个异步返回双倍数值的函数 function asyncDouble(num,cb){ // 创建标识,表示该异步处理是否完成 v ...
前端每日一知之web攻击方式
脑图在线链接本文内容依据[js每日一题]公众号精彩文章总结而来
Flutter 收起键盘
Flutter收起键盘在根Widget中嵌套GestureDetector return GestureDetector( // 触摸收起键盘 behavior: HitTestBehavior.t ...
Mac idea 打不开
从官网上刚下载的idea,安装完成之后,双击打开,只见一闪而过,软件没有打开. 打开访达->应用程序->IntelliJ IDEA ->显示包内容 : image.png 显示 ...
解决phpmyadmin导入MYSQL数据库限制大小为50M的问题
有时候想导入的数据库太大.但是遭到的限制解决phpmyadmin导入MYSQL数据库限制大小为50M的问题转载于:https://www.cnblogs.com/wesky/p/10609340. ...
Qt/C++音视频开发74-合并标签图形/生成yolo运算结果图形/文字和图形合并成一个/水印滤镜
一.前言在使用yolo做人工智能运算后,运算结果除了一个方框,还可能需要增加文字显示在对应方框上,以便标记是何种物体,比如显示是人还是动物,或者还有可能追踪人员,显示该人员的姓名.这种应用场景非常普 ...
Qt音视频开发44-实时人脸框
一.前言在人脸识别到以后,需要在实时视频上将所有人脸框绘制出来,一把来说识别人脸会有多种选择,一个是识别最大人脸,这种场景主要用于刷脸门禁,还有一种是识别所有人脸,这种场景主要用于人脸识别摄像机,就 ...

LangChain基础篇 (05)