Simhash算法: Simhash算法由Google的Charikar提出,是将一篇文档转化为n位的签名,通过比较签名的相似度来计算原文档的相似度.签名越相近,则文档越相近.因此,整个过程就不会涉及到原文档文本内容的两两比较,就不需要存储这些海量文档的内容. simhash算法的输入是一个向量,输出是一个 f 位的签名值.为了陈述方便,假设输入的是一个文档的特征集合,每个特征有一定的权重.比如特征可以是文档中的词,其权重可以是这个词出现的次数. simhash 算法如下:1,将一个 f 维的向…