需求:有800万的中文词向量,要查询其中任意一个词向量对应的k个与其最邻近的向量。通常情况下如果向量集比较小的话,几十万个向量(几个G这种),我们都可以用gensim的word2vec来查找,但是880万词向量有16个G,加到内存中就爆炸了,而且gensim中的查找属于暴力搜索,即全都遍历比较余弦相似度来进行查找,因此几百万量级的词向量查找起来就很慢了。这里我需要用更快速的工具来进行查找,找到了两个工具,一个是facebook的faiss包另一个是annoy包。Faiss只能部署在linux,而且看着好复杂,各种索引类型啥的,估计够我研究一阵,索性使用了annoy包;

关于annoy包的使用方法参考这两个网址足够:

1、https://github.com/spotify/annoy

2、https://markroxor.github.io/gensim/static/notebooks/annoytutorial.html

1是官方文档,写的非常简单,但是我刚开始没有认真看,所以走了很多弯路;2是一个notebook实践案例,基于gensim的,我就是被这个版本给坑了。。。这里面有很多说道,首先我先说一下代码逻辑,其实很简单,首先是读取你的带 word和vec的txt向量文件作为model:

 model = gensim.models.KeyedVectors.load_word2vec_format('D:\\describe\\dic\\synonyms_vector.txt',binary=False,unicode_errors='ignore')
annoy_index = AnnoyIndexer(model, 100)      # 生成索引
fname = 'synonyms_txt_index'
annoy_index.save(fname)               # 将索引文件保存到硬盘

代码说明

这四行代码目的是

1、加载model

2、对model进行聚类计算

3、建立一个二叉树集合的索引(树的数量为100),

4、将索引保存到硬盘

接下来我们就可以根据建立的这个索引来查找近似向量了:

 annoy_index2 = AnnoyIndexer()    # 初始化索引
annoy_index2.load(fname)
annoy_index2.model = model

这三行就是来加载索引,值得注意的是这里的model就是之前最开始加载的txt文件对应的model

接下来问题来了,执行

 word = ‘人民’
vector1 = model[word]
approximate_neighbors = model.most_similar([vector1], topn=30, indexer=annoy_index2)

这里想要查询“人民”对应的前30个相近词,通过加载索引来查询,可是最终的查询速度跟我没建立索引之前的暴力搜索(即word2vec自带搜索)是一样的,但是如果我在这个加载索引之前先进行一个词的暴力搜索,然后再对其他的词进行加载索引搜索,速度就会快出很多倍,这让我百思不得其解,最后没办法我就先用暴力搜索先搜索一个词,然后剩下的词都用annoy搜索,这样速度还是很快的;

但是我还是想弄明白到底怎么回事,于是我去官网问作者,作者就说了一句,你需要进行整数映射,(而且应该是非负整数),靠!!!其实官网写的明明白白:

a.add_item(i, v) adds item i (any nonnegative integer) with vector v. Note that it will allocate memory for max(i)+1 items.

也就是说我的txt文件格式需要如下这种格式:

1 vecor
2 vecor

而不是开头是汉语单词以及对应的vector,最后再做一个integer到word的映射字典即可;

接下来我对作者给出的github上的版本进行了验证,代码如下:

from annoy import AnnoyIndex
import random
f = 100    # 需要加载的向量的维度  
t = AnnoyIndex(f)# 初始化一个索引
dict = {}
with open('C:\\Users\Administrator\Desktop\synonyms\\synonyms_vector.txt','r',encoding='utf-8') as f:
count = 0
for line in f:
result = line.split()
if len(result)>10:
count+=1
word = result[0]
dict[count] = word
vector = list(map(eval, result[1:])) # 需要将txt中的str格式vec转化为float格式
t.add_item(count, vector)
t.build(10)# 建立基于二叉树的近似查找索引文件
t.save('C:\\Users\Administrator\Desktop\synonyms\\test.ann')
u = AnnoyIndex(100)
u.load('C:\\Users\Administrator\Desktop\synonyms\\test.ann')
simi_id = u.get_nns_by_item(880, 20,include_distances=True)# 这里需要说明 880是vec.txt文件中第880个词,即 投资 这个词对应的序号,20代表查找和“投资”最近20个近义词
id = simi_id[0]
score = simi_id[1]
# print(simi_id)
# for i,j in zip(id,score):
# print(dict[i])
# print(0.5*(abs(1-j))+0.5)
result =[(dict[i],0.5*(abs(1-j))+0.5) for i,j in zip(id,score)]# 将结果转化一下,得到如下结果
输出结果(result):
[('投资', 1.0), ('融资', 0.6934992074966431), ('投资者', 0.6180032193660736), ('投资额', 0.6166684031486511), ('房地产', 0.6127455532550812), ('外资', 0.6104367673397064)]

这里面需要指出几点需要注意的地方:

1、需要将txt中的str格式vec转化为float格式,否则会报错;

2、我建立了一个字典映射,这样能够最后从查询到的近似向量对应的id值查询到映射的词;

3、最后那个0.5*(abs(1-j))+0.5是余弦相似度归一化的计算公式,作者程序中建立的距离索引以及最后查找返回值都是默认angular模式(即j的值),也即是余弦相似度,即angular=1-cosin,且其值域为[0,2](因为cosin值域为[-1,1])。但是我们通常只需要求取cosin的绝对值,即其值域应该位于[0,1]。所以我先用1-angular 获取cosin 然后再求取绝对值,最后再进行归一化((1+余弦相似度)/2)即可。

4、对于上面代码求取结果我与word2vec的most_similar方法结果进行对比,近似度基本一致,前三位精度完全一致,说明最后的余弦相似度求取向量相似度就是按照我上面说的方法来进行的;

最后附上余弦相似度计算方法参考网址:余弦相似度python实现

PS:关于annoy加载索引还需要注意一点,索引文件路径必须是英文路径,否则程序就会提示查找不到文件,望注意!!!

annoy超平面多维近似向量查找工具的更多相关文章

  1. 小程序入口构造工具&二维码测试工具

    小程序入口构造工具&二维码测试工具 本文将介绍我们小程序中隐藏的两个工具页面.原理虽不复杂,收益却实实在在,或许也能给诸君带来启发. 入口构造工具 痛点 PM&运营 投放链接 PM&a ...

  2. vue项目条形码和二维码生成工具试用

    项目开发需要,优惠券分不同类型,简单的使用id生成条形码供店铺使用,麻烦点的需要多个字段的就需要使用二维码来展示了,对应的效果如下 条形码(一维码)使用工具code128 需引入code128.js ...

  3. ZBar 是款桌面电脑用条形码/二维码扫描工具

    ZBar 是款桌面电脑用条形码/二维码扫描工具 windows平台python 2.7环境编译安装zbar   最近一个项目需要识别二维码,找来找去找到了zbar和zxing,中间越过无数坑,总算基本 ...

  4. 二维码生成工具类java版

    注意:这里我不提供所需jar包的路径,我会把所有引用的jar包显示出来,大家自行Google package com.net.util; import java.awt.BasicStroke; im ...

  5. Java 二维码生成工具类

    /** * 二维码 工具 * * @author Rubekid * */ public class QRcodeUtils { /** * 默认version */ public static fi ...

  6. Ansible 运维自动化 ( 配置管理工具 )

    背景 出差背景,要搞项目的自动化部署.因为只直接对接生产分发,机器又非常多,这样以往使用的bat只能作为应急方案了,还是得考虑使用专业化的工具来做这个事情! 当下有许多的运维自动化工具( 配置管理 ) ...

  7. 谷歌zxing 二维码生成工具

    一.加入maven依赖 <!-- 谷歌zxing 二维码 --> <dependency> <groupId>com.google.zxing</groupI ...

  8. 【Win】Clso QR Tool 二维码小工具

    一个可以生成并识别二维码的windows小工具,纯绿色.不含糖. 可以通过输入文本生成二维码,或者加载本地图片.剪贴板内的图片,直接解析出二维码内容. 支持自定义LOGO. 下载文件 (当前版本:1. ...

  9. 开发ASP.NET MVC 开发名片二维码生成工具 (原创)

    在网上找了很多,都只能生成网址,不能生成名片二维码,于是自己动手. 第一步,写视图界面,主要代码如下: <script type="text/javascript"> ...

随机推荐

  1. ORBSLAM2的资源

    ORBSLAM2代码总结 https://blog.csdn.net/hzwwpgmwy/article/details/82462988 ORBSLAM2局部地图更新实现 https://blog. ...

  2. typescript--介绍ts

    TypeScript 介绍 TypeScript 是什么 TypeScript 是 JavaScript 的强类型版本.然后在编译期去掉类型和特有语法,生成纯粹的 JavaScript 代码.由于最终 ...

  3. Python 生成requirements文件以及使用requirements.txt部署项目

    生成requirements.txt 当你的项目不再你的本地时,为了方便在新环境中配置好环境变量,你的项目需要一个记录其所有依赖包以及它们版本号的文件夹requirements.txt 文件. pip ...

  4. 2.windows-oracle实战第二课 -用户管理

    创建用户:在oracle中创建一个用户有create user语句,一般是具有dba(数据库管理员)的权限才能使用.用户创建在所在的实例数据库中. 给用户修改密码:passw 给别人修改密码需要dba ...

  5. Codeforces 1288B - Yet Another Meme Problem

    题目大意: 令conc(a,b)函数得出的结果为将ab拼接得到的数字. 例如:conc(12,23)=1223 a和b不会包括前导0! 接下来,你已知A和B,问有多少对的(a,b)满足 1≤a≤A , ...

  6. java gc 总结

    垃圾查找 1.基于计数器 对象有引用计数,计数为0的,可以被收集 2.基于有向图 从gc root(栈.静态变量.JNI 变量)遍历,能访问的对象,不用被收集,其他的,可以被收集 因为计数器不能解决 ...

  7. Cesium 生成terrain地形数据----CTB方式及步骤

    背景:项目前端使用Cesium,地形服务一直使用外网的,常常因为翻墙访问的问题,导致地形数据取不到,进而导致地球不能加载,故决定搭建自己的地形服务,彻底解决这个问题.博文包含以下几个过程: 下载原始地 ...

  8. FactoryBean 和 BeanFactory

    大佬勿喷,如果有什么地方理解错了欢迎吐槽 一 .BeanFacory 首先来看看下边的代码 package com.lhf.beanfactory; public class SingleBean { ...

  9. spring 方法注入、方法替换

    spring 提供了很多的注入方式,set注入.构造注入.p命名空间.c命名空间.字段注入等等,这些没啥可说的了. 方法注入 因为开发时我需要spring管理一个实例,但是这个实例并非单例,应该每一次 ...

  10. 论文翻译——Character-level Convolutional Networks for Text Classification

    论文地址 Abstract Open-text semantic parsers are designed to interpret any statement in natural language ...