Faiss教程：基础

Faiss对一些基础算法提供了非常高效的实现：k-means、PCA、PQ编解码。

聚类

假设2维tensor x：

ncentroids = 1024

niter = 20

verbose = True

d = x.shape[1]

kmeans = faiss.Kmeans(d, ncentroids, niter, verbose)

kmeans.train(x)

中心点放在kmeans.centroids中，目标函数的值放在kmeans.obj中。返回查询数据最近的中心点：

D, I = kmeans.index.search(x, 1)

返回某个测试数据集中离各个中心点最近的15个点。

index = faiss.IndexFlatL2 (d)

index.add (x)

D, I = index.search (kmeans.centroids, 15)

通过调整索引可以放到GPU上运行。

PCA降维

从40维降低到10维度

# random training data

mt = np.random.rand(1000, 40).astype('float32')

mat = faiss.PCAMatrix (40, 10)

mat.train(mt)

assert mat.is_trained

tr = mat.apply_py(mt)

# print this to show that the magnitude of tr's columns is decreasing

print (tr ** 2).sum(0)

ProductQuantizer(PQ)

d = 32  # data dimension

cs = 4  # code size (bytes)

# train set

nt = 10000

xt = np.random.rand(nt, d).astype('float32')

# dataset to encode (could be same as train)

n = 20000

x = np.random.rand(n, d).astype('float32')

pq = faiss.ProductQuantizer(d, cs, 8)

pq.train(xt)

# encode

codes = pq.compute_codes(x)

# decode

x2 = pq.decode(codes)

# compute reconstruction error

avg_relative_error = ((x - x2)**2).sum() / (x ** 2).sum()

标量量化器（每一维度量化）

d = 32  # data dimension

# train set

nt = 10000

xt = np.random.rand(nt, d).astype('float32')

# dataset to encode (could be same as train)

n = 20000

x = np.random.rand(n, d).astype('float32')

# QT_8bit allocates 8 bits per dimension (QT_4bit also works)

sq = faiss.ScalarQuantizer(d, faiss.ScalarQuantizer.QT_8bit)

sq.train(xt)

# encode

codes = sq.compute_codes(x)

# decode

x2 = sq.decode(codes)

# compute reconstruction error

avg_relative_error = ((x - x2)**2).sum() / (x ** 2).sum()

选择索引的策略

推荐使用index_factory，通过参数创建索引。

Flat

提供数据集的基准结果，不压缩向量，也不支持添加id；如果需要 add_with_ids，使用“IDMap,Flat”参数。

无需训练，支持GPU.

Faiss的索引都是放在RAM中的，所以也就要考虑到内存的占用。

HNSWx

足够的内存，小的数据集。每个向量的links数目x范围[4,64]，通过efSearch参数折中速度和精度，每个向量的内存占用为d4+x2*4个字节。

不支持add_with_ids（如需要添加IDMap），无需训练，不支持从索引中移除向量，不支持GPU
xxx,Flat

xxx表示提前为数据做了聚类，如IVFFlat，通过nprobe这种速度和精度，支持GPU（聚类方法也支持的情况下）。
PCARx,...,SQ8

存储整改向量占用资源太多，可以PCA降到x维度；SQ每项用一个字节表示。这样每个向量只占用x个字节的存储空间。不支持GPU。
OPQx_y,...,PQx

PQx中x是字节数，通常<=64，如果更大采用SQ更为高效。OPQ是对数据做了线性变换更利于数据压缩，y表示：x的倍数、y<=d且y<4*x（推荐）。x表示OPQ中的分割参数，y才是最终切分结果。支持GPU。

从数据集大小的角度（数据量、训练数据大小）：

少于1百万，使用...,IVFx,...

数据集大小为N，x为[4sqrt(N),16sqrt(N)]。使用K-menas进行聚类，我们需要[30x,256x]个向量进行训练（当然越多越好）。支持GPU。
1百万 < N < 1千万，使用...,IMI2x10,...

IMI在训练数据集中通过kmeans得到2^{10个中心点。但它是对向量的前后两半分别进行的聚类，也就是得到的2}10²⁼²20个中心描述。我们需要64*2^10个训练样本。不支持GPU。
1千万 < N < 1个亿，使用...,IMI2x12,...

同上，只是增加了聚类数。
1亿 < N < 10亿，使用...,IMI2x14,...

同上。

Faiss教程：基础的更多相关文章

iOS10 UI教程基础窗口的内容与设置起始窗口
iOS10 UI教程基础窗口的内容与设置起始窗口 iOS10 UI教程基础窗口的内容与设置起始窗口,本章我们从iOS10开发中UI的基础知识开始讲解,其中包括了窗口.视图以及UI层次结构和Views的 ...
SQLAlchemy 教程 —— 基础入门篇
SQLAlchemy 教程 -- 基础入门篇一.课程简介 1.1 实验内容本课程带领大家使用 SQLAlchemy 连接 MySQL 数据库,创建一个博客应用所需要的数据表,并介绍了使用 SQLA ...
2.高并发教程-基础篇-之nginx+mysql实现负载均衡和读写分离
技巧提示:mysql读写分离搭建好之后,配合nginx的负载均衡,可以高效的mysql的集群性能,同时免去麻烦的query分流.比如,sever1收到的请求就专门链接slave1从mysql读取数据, ...
3.高并发教程-基础篇-之分布式全文搜索引擎elasticsearch的搭建
高并发教程-基础篇-之分布式全文搜索引擎elasticsearch的搭建如果大家看了我的上一篇<2.高并发教程-基础篇-之nginx+mysql实现负载均衡和读写分离>文章,如果能很好的 ...
GitKraken使用教程-基础部分(4)
6. 打开现有的Git仓库点击左上角 File ==> open repo ,出现如图 6‑1的界面: 图 6‑1 打开本地仓库点击图中的按钮就会出现一个对话框,如图 6‑2,以 G:\ ...
GitKraken使用教程-基础部分(3)
5. 克隆服务器上的项目首先,返回主界面,点击File => Clone Repo,选择 Clone with URL,如下图: 图 5‑1 SSH方式克隆仓库界面 1) SSH 方式连接仓库 ...
GitKraken使用教程-基础部分(2)
3. 修改用户名为了方便项目中代码的管理,需要重新编辑用户名. 点击右上角的图像即可看到如下图 3‑1所示的下拉菜单,鼠标悬于Profile上,会出现一个Edit按钮. 图 3‑1 编辑个人信息点 ...
GitKraken使用教程-基础部分(1)
1. 首次打开程序第一次打开GitKraken程序时, GitKraken会提示需要登陆,可以用github.com的账号登陆,或者用邮箱创建账号登陆(如图 1‑1). 图 1‑1登陆帐户界面登陆 ...
Xamarin XAML语言教程基础语法篇大学霸
Xamarin XAML语言教程基础语法篇大学霸前言 Xamarin是一个跨平台开发框架.它可以用来开发iOS.Android.Windows Phone和Mac的应用程序.使用Xamarin框 ...
深度学习入门者的Python快速教程 - 基础篇
5.1 Python简介本章将介绍Python的最基本语法,以及一些和深度学习还有计算机视觉最相关的基本使用. 5.1.1 Python简史 Python是一门解释型的高级编程语言,特点是简单明 ...

随机推荐

java 发送post请求参数中含有+会转化为空格的问题
如题原因分析:参数在传递过程中经历的几次编码和解码标准不同,导致加号.空格等字符的错误. 解决方案:将post请求的参数中 ,含有+号的,统统采用%2B 去替换,这是URL的协议问题.
C# Deldegate的使用
Delegate类简介 ------------------------ 命名空间:System 程序集:mscorlib(在 mscorlib.dll 中) 委托(Delegate)类是一种数据结构 ...
开源的PaaS平台
原文地址:https://blog.csdn.net/mypods/article/details/9366465 1.Stackato Stackato 是一个应用平台,用来创建私有.安全和灵活的企 ...
【C语言】为什么指明数组的列数？
首先,我们拿二维数组为例.二维数组称为矩阵.二维数组在概念上是二维的,但实际的硬件存储器却是连续编址的,也就是说存储器单元是按一维线性排列的.如果将二维数组作为参数传递给函数,那么在函数的参数声明中必 ...
MongoDB学习笔记（7）--- 条件操作符
描述条件操作符用于比较两个表达式并从mongoDB集合中获取数据. 在本章节中,我们将讨论如何在MongoDB中使用条件操作符. MongoDB中条件操作符有: (>) 大于 - $gt (& ...
MongoDB----逻辑与物理存储结构
基本的操作一.常用的命令和基础知识 1.进入MongoDB shell 首先我们进入到MongoDB所在目录执行 cd /work/app/mongodb/bin/ #启动 ./mongo 为了方便 ...
JQuery EasyUI Combobox的onChange事件
html中的select 的change事件 <select id="consult_province" name="consult_province" ...
【转】IT业给世界带来的危机
IT业给世界带来的危机昨天写了文章之后,回忆起这几年在湾区的经历,觉得自己是一个很不幸的人.然而就在今天,我的自怜奇妙的转换成了另一种感情,因为我看到了更不幸的人…… 正在女朋友 Cinny 的父母 ...
Android 数据分析系列一：sharedPreferences
Android数据存储方式,包括下面四种: 1. Shared Preferences:用来存储"key-value"paires格式的数据,它是一个轻量级的键值存储机制,只可以存 ...
python dict 和 json 互转
在Python语言中,json数据与dict字典以及对象之间的转化,是必不可少的操作. 在Python中自带json库.通过import json导入. import json 在json模块有2个方 ...