SimHash是什么 SimHash是Google在2007年发表的论文<Detecting Near-Duplicates for Web Crawling >中提到的一种指纹生成算法或者叫指纹提取算法,被Google广泛应用在亿级的网页去重的Job中,作为locality sensitive hash(局部敏感哈希)的一种,其主要思想是降维,什么是降维? 举个通俗点的例子,一篇若干数量的文本内容,经过simhash降维后,可能仅仅得到一个长度为32或64位的二进制由01组成的字符串,这一点…
Simhash算法: Simhash算法由Google的Charikar提出,是将一篇文档转化为n位的签名,通过比较签名的相似度来计算原文档的相似度.签名越相近,则文档越相近.因此,整个过程就不会涉及到原文档文本内容的两两比较,就不需要存储这些海量文档的内容. simhash算法的输入是一个向量,输出是一个 f 位的签名值.为了陈述方便,假设输入的是一个文档的特征集合,每个特征有一定的权重.比如特征可以是文档中的词,其权重可以是这个词出现的次数. simhash 算法如下:1,将一个 f 维的向…