在自然语言处理领域,有一个常见且重要的任务就是文本相似度搜索。文本相似度搜索是指根据用户输入的一段文本,从数据库中找出与之最相似或最相关的一段或多段文本。它可以应用在很多场景中,例如问答系统、推荐系统、搜索引擎等。

比如,当用户在知乎上提出一个问题时,系统就可以从知乎上已有的回答中找出与该问题最匹配或最有价值的回答,并展示给用户。

要实现类似高效的搜索,我们需要使用一些特殊的数据结构和算法。其中,向量相似度搜索是一种在大规模数据搜索中表现优秀的算法。而Redis作为一种高性能的键值数据库,也可以帮助我们实现向量相似度搜索。今天我们就来体验一把,还请帮忙点个关注

猿惑豁

在开始学习如何使用Redis实现向量相似度搜索之前,需要了解向量及向量相似度搜索的基本知识和原理,以便更好地理解后面的内容。

什么是向量?

向量是数学、物理学和工程科学等多个自然科学中的基本概念,它是一个具有方向和长度的量,用于描述问题,如空间几何、力学、信号处理等。在计算机科学中,向量被用于表示数据,如文本、图像或音频。此外,向量还代表AI模型对文本、图像、音频、视频等非结构化数据的印象。

向量相似度搜索的基本原理

向量相似度搜索的基本原理是通过将数据集中的每个元素映射为向量,并使用特定相似度计算算法,如基于余弦相似度的、基于欧氏相似度或基于Jaccard相似度等算法,找到与查询向量最相似的向量。

Redis实现向量相似度搜索

了解原理后,我们开始来实现如何使用Redis实现向量相似度搜索。Redis允许我们在FT.SEARCH命令中使用向量相似度查询。使我们可以加载、索引和查询作为Redis哈希或JSON文档中字段存储的向量。

//相关文档地址

https://redis.io/docs/interact/search-and-query/search/vectors

1、Redis Search安装

关于Redis Search的安装和使用,此处不再赘述,如果您对此不熟悉,可以参考上一篇文章:

C#+Redis Search:如何用Redis实现高性能全文搜索

2、创建向量索引库

这里我们使用NRedisStack和StackExchange.Redis两个库来与Redis进行交互操作。

//创建一个Redis连接
static ConnectionMultiplexer mux = ConnectionMultiplexer.Connect("localhost");
//获取一个Redis数据库
static IDatabase db = mux.GetDatabase();
//创建一个RediSearch客户端
static SearchCommands ft = new SearchCommands(db, null);

在进行向量搜索之前,首先需要定义并创建索引,并指定相似性算法。

public static async Task CreateIndexAsync()
{
await ft.CreateAsync(indexName,
new FTCreateParams()
.On(IndexDataType.HASH)
.Prefix(prefix),
new Schema()
.AddTagField("tag")
.AddTextField("content")
.AddVectorField("vector",
VectorField.VectorAlgo.HNSW,
new Dictionary<string, object>()
{
["TYPE"] = "FLOAT32",
["DIM"] = 2,
["DISTANCE_METRIC"] = "COSINE"
}));
}

这段代码的意思是:

  • 使用了一个异步方法 ft.CreateAsync 来创建索引。它接受三个参数:索引名称 indexName,一个 FTCreateParams 对象和一个 Schema 对象;
  • FTCreateParams 类提供了一些参数选项,用于指定索引的参数。这里使用 .On(IndexDataType.HASH)  方法来指定索引数据类型为哈希,并使用 .Prefix(prefix)  方法来指定索引数据的前缀;
  • Schema 类用于定义索引中的字段和字段类型。这里定义了一个标签字段(tag field)用于区分过虑数据。定义了一个文本字段(text field)用于存储原始数据,以及一个向量字段(vector field)用于存储经原始数据转化后的向量数据;
  • 使用了 VectorField.VectorAlgo.HNSW 来指定向量算法为 HNSW(Hierarchical Navigable Small World)。还传递了一个字典对象,用于设置向量字段的参数。其中,键为字符串类型,值为对象类型。

目前Redis支持两种相似度算法:

HNSW分层导航小世界算法,使用小世界网络构建索引,具有快速查询速度和小内存占用,时间复杂度为O(logn),适用于大规模索引。

FLAT暴力算法,它对所有的键值对进行扫描,然后根据键值对的距离计算出最短路径,时间复杂度为O(n),其中n是键值对的数量。这种算法时间复杂度非常高,只适用于小规模的索引。

3、添加向量到索引库

索引创建后,我们将数据添加到索引中。

public async Task SetAsync(string docId, string prefix, string tag, string content, float[] vector)
{
await db.HashSetAsync($"{prefix}{docId}", new HashEntry[] {
new HashEntry ("tag", tag),
new HashEntry ("content", content),
new HashEntry ("vector", vector.SelectMany(BitConverter.GetBytes).ToArray())
});
}

SetAsync方法用于将一个具有指定文档ID、前缀、标签、内容及内容的向量存储到索引库中。并使用SelectMany()方法和BitConverter.GetBytes()方法将向量转换为一个字节数组。

4、向量搜索

Redis 支持两种类型的向量查询:KNN查询和Range查询,也可以将两种查询混合使用。

KNN 查询

KNN 查询用于在给定查询向量的情况下查找前 N 个最相似的向量。

public async IAsyncEnumerable<(string Content, double Score)> SearchAsync(float[] vector, int limit)
{
var query = new Query($"*=>[KNN {limit} @vector $vector AS score]")
.AddParam("vector", vector.SelectMany(BitConverter.GetBytes).ToArray())
.SetSortBy("score")
.ReturnFields("content", "score")
.Limit(0, limit)
.Dialect(2); var result = await ft.SearchAsync(indexName, query).ConfigureAwait(false);
foreach (var document in result.Documents)
{
yield return (document["content"],Convert.ToDouble(document["score"]));
}
}

这段代码的意思是:

  • 创建一个查询对象 query,并设置查询条件。查询条件包括:
    1. "*=>[KNN {limit} @vector $vector AS score]":使用KNN算法进行向量相似度搜索,限制结果数量为limit,使用给定的向量vector作为查询向量,将查询结果按照相似度得分进行排序;
    2. AddParam("vector", vector.SelectMany(BitConverter.GetBytes).ToArray()):将浮点数数组转换为字节数组,并将其作为查询参数传递给查询;
    3. SetSortBy("score"):按照相似度得分对结果进行排序;
    4. ReturnFields("content", "score"):将content和score两个字段从结果集中返回;
    5. Limit(0, limit):限制结果集的起始位置为0,结果数量为limit;
    6. Dialect(2):设置查询方言为2,即Redis默认的查询语言Redis Protocol;
  • 调用异步搜索方法 ft.SearchAsync(indexName, query),并等待搜索结果;
  • 遍历搜索结果集 result.Documents,将每个文档转换为 (string Content, double Score) 元组,并通过 yield 语句进行迭代返回。

Range 查询:

Range查询提供了一种根据 Redis 中的向量字段与基于某些预定义阈值(半径)的查询向量之间的距离来过滤结果的方法。类似于 NUMERIC 和 GEO 子句,可以在查询中多次出现,特别是可以和 KNN 进行混合搜索。

public static async IAsyncEnumerable<(string Tag, string Content, double Score)> SearchAsync(string tag, float[] vector, int limit)
{
var query = new Query($"(@tag:{tag})=>[KNN {limit} @vector $vector AS score]")
.AddParam("vector", vector.SelectMany(BitConverter.GetBytes).ToArray())
.SetSortBy("score")
.ReturnFields("tag", "content", "score")
.Limit(0, limit)
.Dialect(2); var result = await ft.SearchAsync(indexName, query).ConfigureAwait(false);
foreach (var document in result.Documents)
{
yield return (document["tag"], document["content"], Convert.ToDouble(document["score"]));
}
}

这段代码使用了KNN和Range混合查询,与上一段代码相比,新增了@tag参数,将限制结果仅包含给定标签的内容。这样做可以增加查询的准确性,提高查询效率。

5、从索引库中删除向量

public async Task DeleteAsync(string docId, string prefix)
{
await db.KeyDeleteAsync($"{prefix}{docId}");
}

这个方法通过删除与指定向量相关联的哈希缓存键,来实现从索引库中删除指定向量数据。

6、删除向量索引库

public async Task DropIndexAsync()
{
await ft.DropIndexAsync(indexName, true);
}

这个方法 await ft.DropIndexAsync接受两个参数: indexName 和 true 。indexName 表示索引库的名称, true 表示在删除索引时是否删除索引文件。

7、查询索引库信息

public async Task<InfoResult> InfoAsync()
{
return await ft.InfoAsync(indexName);
}

通过 await ft.InfoAsync(indexName) 方法,我们可以获取到指定索引库的大小,文档数量等相关索引库信息。

完整 Demo 如下:

using NRedisStack;
using NRedisStack.Search;
using NRedisStack.Search.DataTypes;
using NRedisStack.Search.Literals.Enums;
using StackExchange.Redis;
using static NRedisStack.Search.Schema; namespace RedisVectorExample
{
class Program
{
//创建一个Redis连接
static ConnectionMultiplexer mux = ConnectionMultiplexer.Connect("localhost");
//获取一个Redis数据库
static IDatabase db = mux.GetDatabase();
//创建一个RediSearch客户端
static SearchCommands ft = new SearchCommands(db, null);
//索引名称
static string indexName = "test:index";
//索引前缀
static string prefix = "test:data";
static async Task Main(string[] args)
{
//创建一个向量的索引
await CreateIndexAsync(); //添加一些向量到索引中
await SetAsync("1", "A", "测试数据A1", new float[] { 0.1f, 0.2f });
await SetAsync("2", "A", "测试数据A2", new float[] { 0.3f, 0.4f });
await SetAsync("3", "B", "测试数据B1", new float[] { 0.5f, 0.6f });
await SetAsync("4", "C", "测试数据C1", new float[] { 0.7f, 0.8f }); //删除一个向量
await DeleteAsync("4"); //KUN搜索
await foreach (var (Content, Score) in SearchAsync(new float[] { 0.1f, 0.2f }, 2))
{
Console.WriteLine($"内容:{Content},相似度得分:{Score}");
} //混合
await foreach (var (Tag, Content, Score) in SearchAsync("A", new float[] { 0.1f, 0.2f }, 2))
{
Console.WriteLine($"标签:{Tag},内容:{Content},相似度得分:{Score}");
} //检查索引是否存在
var info = await InfoAsync();
if (info != null)
await DropIndexAsync(); //存在则删除索引
} public static async Task CreateIndexAsync()
{
await ft.CreateAsync(indexName,
new FTCreateParams()
.On(IndexDataType.HASH)
.Prefix(prefix),
new Schema()
.AddTagField("tag")
.AddTextField("content")
.AddVectorField("vector",
VectorField.VectorAlgo.HNSW,
new Dictionary<string, object>()
{
["TYPE"] = "FLOAT32",
["DIM"] = 2,
["DISTANCE_METRIC"] = "COSINE"
}));
} public static async Task SetAsync(string docId, string tag, string content, float[] vector)
{
await db.HashSetAsync($"{prefix}{docId}", new HashEntry[] {
new HashEntry ("tag", tag),
new HashEntry ("content", content),
new HashEntry ("vector", vector.SelectMany(BitConverter.GetBytes).ToArray())
});
} public static async Task DeleteAsync(string docId)
{
await db.KeyDeleteAsync($"{prefix}{docId}");
} public static async Task DropIndexAsync()
{
await ft.DropIndexAsync(indexName, true);
} public static async Task<InfoResult> InfoAsync()
{
return await ft.InfoAsync(indexName);
} public static async IAsyncEnumerable<(string Content, double Score)> SearchAsync(float[] vector, int limit)
{
var query = new Query($"*=>[KNN {limit} @vector $vector AS score]")
.AddParam("vector", vector.SelectMany(BitConverter.GetBytes).ToArray())
.SetSortBy("score")
.ReturnFields("content", "score")
.Limit(0, limit)
.Dialect(2); var result = await ft.SearchAsync(indexName, query).ConfigureAwait(false);
foreach (var document in result.Documents)
{
yield return (document["content"], Convert.ToDouble(document["score"]));
}
} public static async IAsyncEnumerable<(string Tag, string Content, double Score)> SearchAsync(string tag, float[] vector, int limit)
{
var query = new Query($"(@tag:{tag})=>[KNN {limit} @vector $vector AS score]")
.AddParam("vector", vector.SelectMany(BitConverter.GetBytes).ToArray())
.SetSortBy("score")
.ReturnFields("tag", "content", "score")
.Limit(0, limit)
.Dialect(2); var result = await ft.SearchAsync(indexName, query).ConfigureAwait(false);
foreach (var document in result.Documents)
{
yield return (document["tag"], document["content"], Convert.ToDouble(document["score"]));
}
}
}
}

篇幅原因先到这里,下一篇我们接着探讨如何利用ChatGPT Embeddings技术提取文本向量,并基于Redis实现文本相似度匹配。相比传统方法,这种方式能够更好地保留文本的语义和情感信息,从而更准确地反映文本的实质性内容。

感谢阅读,点赞+分享+收藏+关注
文章出自猿惑豁微信公众号

利用Redis实现向量相似度搜索:解决文本、图像和音频之间的相似度匹配问题的更多相关文章

  1. 利用redis完成自动补全搜索功能(三)

    前面已经完成了分词和自动提示功能,最后把搜索结合在一起,来个完成的案例.当然最好还是用搜索分词解决,这个只是一个临时解决方案. 其实加上搜索很简单,要做的就是3件事 1. 分词的时候,把有用词的id存 ...

  2. 利用redis完成自动补全搜索功能(二)

    前面介绍了自动完成的大致思路,现在把搜索次数的功能也结合上去.我采用的是hash表来做的,当然也可以在生成分词的时候,另外一个有序集合来维护排序, 然后2个有序集合取交集即可.这里介绍hash的方式来 ...

  3. 利用redis完成自动补全搜索功能(一)

    最近要做一个搜索自动补全的功能(目前只要求做最前匹配),自动补全就是自动提示,类似于搜索引擎,再上面输入一个字符,下面会提示多个关键词供参考,比如你输入 nb 2字符, 会自动提示nba,nba录像, ...

  4. 高并发场景系列(一) 利用redis实现分布式事务锁,解决高并发环境下减库存

    原文:http://blog.csdn.net/heyewu4107/article/details/71009712 高并发场景系列(一) 利用redis实现分布式事务锁,解决高并发环境下减库存 问 ...

  5. 利用redis实现分布式事务锁,解决高并发环境下库存扣减

    利用redis实现分布式事务锁,解决高并发环境下库存扣减   问题描述: 某电商平台,首发一款新品手机,每人限购2台,预计会有10W的并发,在该情况下,如果扣减库存,保证不会超卖 解决方案一 利用数据 ...

  6. 利用Redis解决Url过长的问题

    做网站,接手别人的代码,发现url有时候会过长导致页面直接翻掉. 后来想了一下可以利用redis将太长的地方暂存,加载页面时获取即可. 存Redis: /// <summary> /// ...

  7. 利用Redis锁解决高并发问题

    这里我们主要利用Redis的setnx的命令来处理高并发. setnx 有两个参数.第一个参数表示键.第二个参数表示值.如果当前键不存在,那么会插入当前键,将第二个参数做为值.返回 1.如果当前键存在 ...

  8. 利用 Redis 锁解决高并发问题

    这里我们主要利用 Redis 的 setnx 的命令来处理高并发. setnx 有两个参数.第一个参数表示键.第二个参数表示值.如果当前键不存在,那么会插入当前键,将第二个参数做为值.返回 1.如果当 ...

  9. nginx负载均衡中利用redis解决session一致性问题

    关于session一致性的现象及原因不是本小作文的重点,可以另行找杜丽娘O(∩_∩)O哈哈~重点是利用redis集中存储共享session的实际操作. 一.业务场景:nginx/tomcat/redi ...

  10. 利用Redis cache优化app查询速度实践

    注意:本篇文章译自speeding up existing app with a redis cache,如需要转载请注明出处. 发现问题 在应用解决方法之前,我们需要对我们面对的问题有一个清晰的认识 ...

随机推荐

  1. Gradio入门到进阶全网最详细教程[二]:快速搭建AI算法可视化部署演示(侧重参数详解和案例实践)

    Gradio入门到进阶全网最详细教程[二]:快速搭建AI算法可视化部署演示(侧重参数详解和案例实践) 相关文章:Gradio入门到进阶全网最详细教程[一]:快速搭建AI算法可视化部署演示(侧重项目搭建 ...

  2. [OpenCV-Python] 22 直方图

    文章目录 OpenCV-Python:IV OpenCV中的图像处理 22 直方图 22.1 直方图的计算,绘制与分析 22.1.1 统计直方图 22.1.2 绘制直方图 22.1.3 使用掩模 22 ...

  3. vite不能选配方案?vite-creater强势来袭!

    我正在参加「掘金·启航计划」 项目背景 vite出现之后,迅速带走了一大波webpack的使用者,即使是对打包工具不熟悉的小白,也能很快感受到两者的区别--vite快的多! vite官方文档第一句也是 ...

  4. Flutter(十) 音频+视频播放

    在Flutter中,我们有各种插件可供使用,从而实现音频和视频的播放功能. 例如,可以使用"text_to_speech"插件来将文字转换为语音,使用内置的"video_ ...

  5. 2023-04-09:使用 Golang 重写的 ffmpeg 示例encode_video.c,实现视频编码并将编码后的数据封装为容器格式,最终写入输出文件。

    2023-04-09:使用 Golang 重写的 ffmpeg 示例encode_video.c,实现视频编码并将编码后的数据封装为容器格式,最终写入输出文件. 答案2023-04-09: 本文介绍的 ...

  6. 2020-08-13:Hadoop生态圈的了解?

    福哥答案2020-08-13: 该项目包括以下模块:1.Common(公共工具)支持其他Hadoop模块的公共工具. 2.HDFS(Hadoop分布式文件系统)提供对应用程序数据的高吞吐量访问的分布式 ...

  7. 2021-07-12:缺失的第一个正数。给你一个未排序的整数数组 nums ,请你找出其中没有出现的最小的正整数。请你实现时间复杂度为 O(n) 并且只使用常数级别额外空间的解决方案。比如[3,4,5

    2021-07-12:缺失的第一个正数.给你一个未排序的整数数组 nums ,请你找出其中没有出现的最小的正整数.请你实现时间复杂度为 O(n) 并且只使用常数级别额外空间的解决方案.比如[3,4,5 ...

  8. 2021-09-26:搜索旋转排序数组。整数数组 nums 按升序排列,数组中的值 互不相同 。在传递给函数之前,nums 在预先未知的某个下标 k(0 <= k < nums.length)上进行了

    2021-09-26:搜索旋转排序数组.整数数组 nums 按升序排列,数组中的值 互不相同 .在传递给函数之前,nums 在预先未知的某个下标 k(0 <= k < nums.lengt ...

  9. js 关于 replace 取值、替换第几个匹配项

    〇.前言 在日常开发中,经常遇到针对字符串的替换.截取,知识点比较碎容易混淆,特此总结一下,仅供参考. 一.替换第一个匹配项 字符串替换 let strtest = "0123测试repla ...

  10. linux 系统安全和应用

    目录 一.系统安全 二.账号安全 三.修改密码生效时间 四.强制下次登录成功时修改密码 五.历史命令 六.终端自动注销 七.wheel组 八.grub菜单密码 一.系统安全 原因:1.系统数据想要保护 ...