simhash

1，SimHash

https://yanyiwu.com/work/2014/01/30/simhash-shi-xian-xiang-jie.html

64位Hash为什么海明距离选3？

http://static.googleusercontent.com/media/research.google.com/en//pubs/archive/33026.pdf

上链接右上precision-recall 曲线图，3是最平衡点，即不会错判太多重复，也不会漏掉很多。

SimHash第一步需抽关键词（feature），并有权重（weight，这个一般是基于统计的？没有词库的默认就用1了）

Feature算法，选 slide windows方法，golang代码如下：

func (t *OverlappingStringTokeniser) Tokenise(input string) []string {

  var chunks []string

  inputLen := len(input)

  for position := 0; position < inputLen-int(t.chunkSize); position += int(t.chunkSize - t.overlapSize) {

    chunks = append(chunks, input[position:position+int(t.chunkSize)])

  }

  return chunks

}

1）简单

2）不比其实算法效果差

计算海明距离：

// Compare calculates the Hamming distance between two 64-bit integers

//

// Currently, this is calculated using the Kernighan method [1]. Other methods

// exist which may be more efficient and are worth exploring at some point

//

// [1] http://graphics.stanford.edu/~seander/bithacks.html#CountBitsSetKernighan

func Compare(a uint64, b uint64) uint8 {

	v := a ^ b

	var c uint8

	for c = 0; v != 0; c++ {

		v &= v - 1

	}

	return c

}

simhash的更多相关文章

[Algorithm] 使用SimHash进行海量文本去重
在之前的两篇博文分别介绍了常用的hash方法([Data Structure & Algorithm] Hash那点事儿)以及局部敏感hash算法([Algorithm] 局部敏感哈希算法(L ...
c#-SimHash匹配相似-算法
使用场景:Google 的 simhash 算法 //通过大量测试,simhash用于比较大文本,比如500字以上效果都还蛮好,距离小于3的基本都是相似,误判率也比较低. //从我的经验,如果我们假定 ...
[SimHash] find the percentage of similarity between two given data
SimHash algorithm, introduced by Charikarand is patented by Google. Simhash 5 steps: Tokenize, Hash, ...
海量数据相似度计算之simhash短文本查找
在前一篇文章 <海量数据相似度计算之simhash和海明距离> 介绍了simhash的原理,大家应该感觉到了算法的魅力.但是随着业务的增长 simhash的数据也会暴增,如果一天100w, ...
海量数据相似度计算之simhash和海明距离
通过采集系统我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析.分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?常见的有余弦夹角算法.欧式距离.Jaccard相 ...
字符串匹配算法之SimHash算法
SimHash算法由于实验室和互联网基本没啥关系,也就从来没有关注过数据挖掘相关的东西.在实际工作中,第一次接触到匹配和聚类等工作,虽然用一些简单的匹配算法可以做小数据的聚类,但数据量达到一定的时候 ...
转simhash与重复信息识别
simhash与重复信息识别在工作学习中,我往往感叹数学奇迹般的解决一些貌似不可能完成的任务,并且十分希望将这种喜悦分享给大家,就好比说:“老婆,出来看上帝”…… 随着信息爆炸时代的来临,互联网上充 ...
基于SimHash的微博去重
一.需求:对微博数据进行去重,数据量比较小,几十万条左右. 二.解决方案 1.采用SimHash的指纹信息去重方法. 三.实现方案 1.对每一条微博使用tf-idf与特征词 2.使用每条微博的特征词, ...
MLlearning（2）——simHash算法
这篇文章主要讲simHash算法.这是一种LSH(Locality-Sensitive Hashing,局部敏感哈希)的简单实现.它是广泛用于数据去重的算法,可以用于相似网站.图片的检索.而且当两个样 ...
彻底弄懂LSH之simHash算法
马克·吐温曾经说过,所谓经典小说,就是指很多人希望读过,但很少人真正花时间去读的小说.这种说法同样适用于“经典”的计算机书籍. 最近一直在看LSH,不过由于matlab基础比较差,一直没搞懂.最近看的 ...

随机推荐

Cassandra的commitLog、memtable、 SStable
和关系数据库一样,Cassandra在写数据之前,也需要先记录日志,称之为commitlog,然后数据才会写入到Column Family对应的Memtable中,并且Memtable中的内容是按照k ...
CSS3透明背景+渐变样式
CSS3透明背景+渐变样式转载自博文:<CSS3透明背景+渐变样式> http://blog.csdn.net/netbug_nb/article/details/44343809 效果 ...
Java中关键字this、super的含义及使用
Java语言中this的含义及作用: 关键字this用来指向当前实例对象(内存里正在运行的哪个实例对象),它的另一作用是用来区分对象的成员变量与方法的形参. 关键字super指的是当前对象里边的父对象 ...
daal utils printNumericTable
#=============================================================================== # Copyright 2014-20 ...
weblogic CVE-2017-10271修复教程
1.简介 CVE-2017-10271是weblogic wls-wsat组件的一个xml反序列化漏洞,可造成远程命令执行.更详细分析可见参考链接,本文强调在进行参考链接修复中的一些细节. 2.影响版 ...
MySQL修改root密码教程
1.记得密码但想要更新密码 mysql -uroot -p #使用当前密码登录mysql update MySQL.user set password=PASSWORD('新密码') where Us ...
NLTK 3.2.2 安装经验
NLTK 3.2.2 安装经验 Nltk 3.2.2要求Python版本是Python2.7 或者Python3.4+. Nltk 3.2.3 如果是从网站上直接下载程序进行安装可能会报错:Pytho ...
python运算符号
运算符比较运算赋值运算逻辑运算成员运算
js MDN 查看
Kafka.net使用编程入门(三)
这个世界既不是有钱人的世界,也不是有权人的世界,它是有心人的世界. 一些有用的命令 1.列出主题:kafka-topics.bat --list --zookeeper localhost:2181 ...

simhash

simhash的更多相关文章

随机推荐

热门专题