简介

Lancedb是一个用于人工智能的开源矢量数据库，旨在存储、管理、查询和检索大规模多模式数据的嵌入。Lancedb的核心是用Rust编写的，并构建在Lance之上，专为高性能 ML 工作负载和快速随机访问而设计。

快速开始

安装

pip install lancedb

目前0.6.8需要pyarrow-12.0.0及以上，亲测15.0会报错。

创建客户端

import lancedb

import pandas as pd

import pyarrow as pa

uri = "data/sample-lancedb"

db = lancedb.connect(uri)

# 异步客户端

#async_db = await lancedb.connect_async(uri)

与Chroma不同，lancedb没有服务端-客户端模式。支持同步和异步客户端，看起来异步客户端更新较快，从官方文档来看没发现使用上的区别。

创建一张表

data = [

    {"vector": [3.1, 4.1], "item": "foo", "price": 10.0},

    {"vector": [5.9, 26.5], "item": "bar", "price": 20.0},

]

tbl = db.create_table("my_table", data=data)

如果表名已经存在，则会报错。如果希望覆盖已经创建的同名表，可以添加mode='overwrite'参数。

tbl = db.create_table("my_table", data=data, mode='overwrite')

如果不希望覆盖已经创建的同名表，而直接打开的话，可以添加exist_ok=True参数。

tbl = db.create_table("my_table", data=data, exist_ok=True)

创建一张空表

schema = pa.schema([pa.field("vector", pa.list_(pa.float32(), list_size=2))])

tbl = db.create_table("empty_table", schema=schema)

类似SQL语法，先创建一张空表，插入数据可以放到后面进行。

添加数据

# 直接添加数据

data = [

    {"vector": [1.3, 1.4], "item": "fizz", "price": 100.0},

    {"vector": [9.5, 56.2], "item": "buzz", "price": 200.0},

]

tbl.add(data)

# 添加df数据帧

df = pd.DataFrame(data)

tbl.add(data)

查找数据

# Synchronous client

tbl.search([100, 100]).limit(2).to_pandas()

通过向量来查找相似的向量。默认情况下没有对向量创建索引，因此是全表暴力检索。官方推荐数据量超过50万以上才需要创建索引，否则全表暴力检索的延迟也在可以接受的范围之内。（明明就是没实现，还说的冠冕堂皇。。）

删除数据

tbl.delete('item = "fizz"')

类似SQL语法中的WHERE声明，需要指定字段和对应的值。

修改数据

table.update(where='item = "fizz"', values={"vector": [10, 10]})

类似SQL语法中的UPDATE声明，需要指定字段和对应的值。

删除表

db.drop_table("my_table")

查看所有表

print(db.table_names())

tbl = db.open_table("my_table")

table_names可以返回该数据库中已经创建的所有表，使用open_table可以打开对应的表。

高级用法

数据类型

多种数据类型

除了直接添加数据和添加df数据帧之外，lancedb还支持用pyarrow创建schema和添加数据。

import pyarrow as pa

schema = pa.schema(

    [

        pa.field("vector", pa.list_(pa.float16(), 2)),

        pa.field("text", pa.string())

    ]

)

lancedb直接float16数据类型，这就比chromadb有存储优势了。

自定义数据类型

from lancedb.pydantic import Vector, LanceModel

class Content(LanceModel):

    movie_id: int

    vector: Vector(128)

    genres: str

    title: str

    imdb_id: int

    @property

    def imdb_url(self) -> str:

        return f"https://www.imdb.com/title/tt{self.imdb_id}"

LanceModel是pydantic.BaseModel的子类，主要就是实现了Vector数据类型的定义，避免手动创建schema中vector的定义，只需要指定维度即可。

复合数据类型

class Document(BaseModel):

    content: str

    source: str

class NestedSchema(LanceModel):

    id: str

    vector: Vector(1536)

    document: Document

tbl = db.create_table("nested_table", schema=NestedSchema, mode="overwrite")

索引

创建IVF_PQ索引

tbl.create_index(num_partitions=256, num_sub_vectors=96)

lancedb支持创建倒排索引的乘积量化。num_partitions是索引中的分区数，默认值是行数的平方根。num_sub_vectors是子向量的数量，默认值是向量的维度除以16。

使用GPU创建

accelerator="cuda"

# accelerator="mps"

支持CUDA的GPU或者Apple的MPS加速

使用索引加速近似查找

tbl.search(np.random.random((1536))) \

.limit(2) \

.nprobes(20) \

.refine_factor(10) \

.to_pandas()

nprobes是探针数量，默认为20，增加探针数量则会提高查找的精度并相应增加计算耗时。refine_factor是一个粗召的数量，用于读取额外元素并重新排列，以此来提高召回。

向量化模型

内置向量模型

import lancedb

from lancedb.pydantic import LanceModel, Vector

from lancedb.embeddings import get_registry

model = get_registry().get("sentence-transformers").create(name="BAAI/bge-small-en-v1.5", device="cpu")

class Words(LanceModel):

    text: str = model.SourceField() # 指定这个字段为需要模型进行向量化的字段

    vector: Vector(model.ndims()) = model.VectorField() # 指定这个字段为模型向量化的结果

table = db.create_table("words", schema=Words)

table.add(

    [

        {"text": "hello world"},

        {"text": "goodbye world"}

    ]

)

query = "greetings"

actual = table.search(query).limit(1).to_pydantic(Words)[0]

print(actual.text)

官方支持了多种sentence-transformers的向量化模型。用上述方法调用内置模型需要指定模型的SourceField和VectorField。

自定义向量模型

from lancedb.embeddings import register

from lancedb.util import attempt_import_or_raise

@register("sentence-transformers")

class SentenceTransformerEmbeddings(TextEmbeddingFunction):

    name: str = "all-MiniLM-L6-v2"

    # set more default instance vars like device, etc.

    def __init__(self, **kwargs):

        super().__init__(**kwargs)

        self._ndims = None

    def generate_embeddings(self, texts):

        return self._embedding_model().encode(list(texts), ...).tolist()

    def ndims(self):

        if self._ndims is None:

            self._ndims = len(self.generate_embeddings("foo")[0])

        return self._ndims

    @cached(cache={})

    def _embedding_model(self):

        return sentence_transformers.SentenceTransformer(name)

from lancedb.pydantic import LanceModel, Vector

registry = EmbeddingFunctionRegistry.get_instance()

stransformer = registry.get("sentence-transformers").create()

class TextModelSchema(LanceModel):

    vector: Vector(stransformer.ndims) = stransformer.VectorField()

    text: str = stransformer.SourceField()

tbl = db.create_table("table", schema=TextModelSchema)

tbl.add(pd.DataFrame({"text": ["halo", "world"]}))

result = tbl.search("world").limit(5)

官方提供了模板用于自定义模型，但是我觉得直接调用模型进行向量化表示更直接吧，这样感觉有点追求格式化的统一了。

总结

与Chromadb对比，没有服务端模式，全部在客户端完成，虽然官方声称有云原生的版本，但感觉大部分场景下可能都不需要放在云上，感觉这一款产品会更加轻量化。

此外，创建表的时候没有默认的向量化模型，感觉对开发者可能更加灵活一些，相比之下Chromadb默认会从HuggingFace下载模型，对于内网环境不太友好。

向量数据库之Lancedb学习记录的更多相关文章

Quartz 学习记录1
原因公司有一些批量定时任务可能需要在夜间执行,用的是quartz和spring batch两个框架.quartz是个定时任务框架,spring batch是个批处理框架. 虽然我自己的小玩意儿平时不 ...
UWP学习记录7-设计和UI之控件和模式4
UWP学习记录7-设计和UI之控件和模式4 1.翻转视图使用翻转视图浏览集合中的图像或其他项目(例如相册中的照片或产品详细信息页中的项目),一次显示一个项目. 对于触摸设备,轻扫某个项将在整个集合中 ...
[Django]模型学习记录篇--基础
模型学习记录篇,仅仅自己学习时做的记录!!! 实现模型变更的三个步骤: 修改你的模型(在models.py文件中). 运行python manage.py makemigrations ,为这些修改创 ...
在Ubuntu Server下搭建LAMP环境学习记录
更新于2015/6/16日,因图片地址失效,请在此地址查看:http://note.youdao.com/share/?id=1c249ae6dc6150cbf692adec67b23a33& ...
[ZHUAN]Flask学习记录之Flask-SQLAlchemy
From: http://www.cnblogs.com/agmcs/p/4445583.html 各种查询方式:http://www.360doc.com/content/12/0608/11/93 ...
我的hibernate学习记录（二）
通过上一篇文章我的hibernate学习记录(一)基本上的入门了hibernate,但是,里面还有还多东西是通过迷迷糊糊的记忆,或者说copy直接弄进去的,所以这篇文章就需要对上篇的一些文件.对象进行 ...
我的Spring学习记录（二）
本篇就简单的说一下Bean的装配和AOP 本篇的项目是在上一篇我的Spring学习记录(一) 中项目的基础上进行开发的 1. 使用setter方法和构造方法装配Bean 1.1 前期准备使用sett ...
我的Spring学习记录（四）
虽然Spring管理这我们的Bean很方便,但是,我们需要使用xml配置大量的Bean信息,告诉Spring我们要干嘛,这还是挺烦的,毕竟当我们的Bean随之增多的话,xml的各种配置会让人很头疼. ...
我的Spring学习记录（五）
在我的Spring学习记录(四)中使用了注解的方式对前面三篇做了总结.而这次,使用了用户登录及注册来对于本人前面四篇做一个应用案例,希望通过这个来对于我们的Spring的使用有一定的了解. 1. 程序 ...
mondb 常用命令学习记录
mondb 常用命令学习记录一.MongoDB 下载安装 MongoDB官网提供了可用于 32 位和 64 位系统的预编译二进制包,你可以从MongoDB官网下载安装,MongoDB 预编译二进制 ...

随机推荐

Oracle中表字段有使用Oracle关键字的一定要趁早改！！！
一.问题由来现在进行项目改造,数据库需要迁移,由原来的使用GBase数据库改为使用Oracle数据库,今天测试人员在测试时后台报了一个异常. 把SQL语句单独复制出来进行查询,还是报错,仔细分析原因 ...
简单实用算法——二分查找法（BinarySearch）
目录算法概述适用情况算法原理算法实现(C#) 实际应用:用二分查找法找寻边界值参考文章算法概述二分查找(英语:binary search),也叫折半查找(英语:half-interval ...
关于Jitpack发布aar，会丢失内置依赖库问题
原文:关于Jitpack发布aar,会丢失内置依赖库问题 | Stars-One的杂货小窝关于发布aar出现的一个大坑排查,折腾了两天,终于是找到了解决方案问题描述有这样的一个情况,我新建了个A ...
三维模型OBJ格式轻量化顶点压缩主要技术方法分析
三维模型OBJ格式轻量化顶点压缩主要技术方法分析三维模型的OBJ格式轻量化中,顶点压缩是一项重要的技术方法,用于减小模型文件的大小.以下是关于三维模型OBJ格式轻量化顶点压缩的主要技术方法的分析: ...
postgresql关于array类型有交集（包含查询数据任意元素，有重叠&&）的一些查询方法以及sqlalchemy语句实现
表接结构如下 class MachineFixDoc(Base): """ 设备报修单,代理或用户向公司申请报修 """ __tablena ...
Word文档最后一页空白页中换行符无法删除
Word文档最后一页空白页中换行符无法删除问题如题: 尝试了delete.backspace.backspace+delete都不行. 找到了这个方法: 选中最后一页的换行符,然后段落--间距--行 ...
《Effective Java》笔记
2. 创建和销毁对象 1. 静态工厂方法替代构造器优点: 名称清晰每次调用不必new对象可以返回原返回类型任意子类型对象返回的对象可以随着调用而发生改变返回的对象所属的类,在编写该静态工厂方 ...
【环境配置】vscode配置C C++开发和调试环境
按照本教程配置好之后,不再需要写任何tasks.json和launch.json文件,减轻记忆负担,即使是调试程序,也不用再写这些文件了,跟着做就能得到一个很好的集成开发环境目录 msys2的安装与 ...
Unicode编码解码的全面介绍
1. Unicode的起源和发展 Unicode是一个国际标准,旨在统一世界上所有文字的表示方式.它最初由Unicode协会创立,解决了不同字符集之间的兼容性问题.Unicode的发展经历了多个版本, ...
#期望dp#洛谷 6835 [Cnoi2020]线形生物
题目分析设\(f[i]\)表示由点\(i\)走到点\(i+1\)的期望步数, \(dp[i]\)表示由点1走到点\(i+1\)的期望步数, 那么\(dp\)为\(f\)的前缀和,最后答案为\(dp ...

向量数据库之Lancedb学习记录

简介