需求:有800万的中文词向量,要查询其中任意一个词向量对应的k个与其最邻近的向量.通常情况下如果向量集比较小的话,几十万个向量(几个G这种),我们都可以用gensim的word2vec来查找,但是880万词向量有16个G,加到内存中就爆炸了,而且gensim中的查找属于暴力搜索,即全都遍历比较余弦相似度来进行查找,因此几百万量级的词向量查找起来就很慢了.这里我需要用更快速的工具来进行查找,找到了两个工具,一个是facebook的faiss包另一个是annoy包.Faiss只能部署在linux,而…