simhash算法：海量千万级的数据去重

simhash算法及原理参考：

简单易懂讲解simhash算法 hash 哈希：https://blog.csdn.net/le_le_name/article/details/51615931

simhash算法及原理简介：https://blog.csdn.net/lengye7/article/details/79789206

使用SimHash进行海量文本去重：https://www.cnblogs.com/maybe2030/p/5203186.html#_label3

python实现：

python使用simhash实现文本相似性对比（全代码展示）：https://blog.csdn.net/weixin_43750200/article/details/84789361

simhash的py实现：https://blog.csdn.net/gzt940726/article/details/80460419

python库simhash使用

详情请查看：https://leons.im/posts/a-python-implementation-of-simhash-algorithm/

（1）查看simhash值

>>> from simhash import Simhash

>>> print '%x' % Simhash(u'I am very happy'.split()).value

9f8fd7efdb1ded7f

Simhash()接收一个token序列，或者叫特征序列。

（2）计算两个simhash值距离

>>> hash1 = Simhash(u'I am very happy'.split())

>>> hash2 = Simhash(u'I am very sad'.split())

>>> print hash1.distance(hash2)

（3）建立索引

simhash被用来去重。如果两两分别计算simhash值，数据量较大的情况下肯定hold不住。有专门的数据结构，参考：http://www.cnblogs.com/maybe2030/p/5203186.html#_label4

from simhash import Simhash, SimhashIndex

# 建立索引

data = {

u'': u'How are you I Am fine . blar blar blar blar blar Thanks .'.lower().split(),

u'': u'How are you i am fine .'.lower().split(),

u'': u'This is simhash test .'.lower().split(),

}

objs = [(id, Simhash(sent)) for id, sent in data.items()]

index = SimhashIndex(objs, k=10) # k是容忍度；k越大，检索出的相似文本就越多

# 检索

s1 = Simhash(u'How are you . blar blar blar blar blar Thanks'.lower().split())

print index.get_near_dups(s1)

# 增加新索引

index.add(u'', s1)

simhash算法：海量千万级的数据去重的更多相关文章

提高mysql千万级大数据SQL查询优化30条经验（Mysql索引优化注意）
转自http://blog.163.com/zhangjie_0303/blog/static/9908270620146951355834/ 1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 w ...
(转)提高mysql千万级大数据SQL查询优化30条经验（Mysql索引优化注意）
1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索 ...
(转载)提高mysql千万级大数据SQL查询优化30条经验（Mysql索引优化注意）
1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索 ...
mysql千万级大数据SQL查询优化
1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索 ...
mysql千万级大数据SQL查询优化30条经验
转自http://blog.163.com/zhangjie_0303/blog/static/9908270620146951355834/ 1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 w ...
Mysql千万级大数据量查询优化
来源于:https://blog.csdn.net/A350204530/article/details/79040277 1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 ord ...
30个mysql千万级大数据SQL查询优化技巧详解
1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索 ...
Sql server 千万级大数据SQL查询优化的几点建议
1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索 ...
千万级大数据的Mysql数据库SQL语句优化
1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索 ...

随机推荐

python--nolocal
Compare this, without using nonlocal: x = 0def outer(): x = 1 def inner(): x = 2 print("inner:& ...
ServletRequest与ServletResponse
http://lavasoft.blog.51cto.com/62575/275586/ 请求和相应是Web交互最基本的模式,在Servlet中,分别用HttpServletRequest与HttpS ...
python爬虫前提技术
1.BeautifulSoup 解析html如何使用转自:http://blog.csdn.net/u013372487/article/details/51734047 #!/usr/bin/py ...
ubuntu中配置jdk1.8
方法/步骤 1 首先,百度搜索jdk,选择第一个,网站是Oracle Jdk.点击进去步骤阅读 2 点击Download,到官网下载linux版本的jdk.选择自己对应的操作系统及32或64位版 ...
Linux C/C++基础——内存分区
1.内存分区在生活中,为了提高办事效率,某个单位经常会分成N个部门,每个部门职责不同,同样,为了提高效率,我们的内存也会被分成N个区.这里我们将内存分为五个区.也有四区模型. 首先看一下一个二进制 ...
【Python开发】python集成开发环境IDE搭建
http://blog.csdn.net/pipisorry/article/details/39854707 使用的系统及软件 Ubuntu / windows Python 2.7 / pytho ...
linux下常见的性能分析工具
转载于:http://bian5399.blog.51cto.com/3848702/834715 性能调优的主要目的是使系统能够有效的利用各种资源,最大的发挥应用程序和系统之间的性能融合,使应用高效 ...
PLSQL中查到的数据和程序中查询到的不一样
1.首先看下你的修改或者新增的SQL是否提交.
SpringDataRedis配置
1.父pom.xml配置依赖包 <dependencyManagement> <dependencies> <dependency> <groupId> ...
在.Net中使用RedLock实现分布式锁
⒈简介 RedLock 分布式锁算法由 Redis 的作者提出,大部分语言都有对应的实现,查看,RedLock.net 是 RedLock 分布式锁算法的 .NET 版实现,用来解决分布式下的并发问题 ...

simhash算法：海量千万级的数据去重

simhash算法：海量千万级的数据去重

simhash算法及原理参考：

python实现：

python库simhash使用

simhash算法：海量千万级的数据去重的更多相关文章

随机推荐

热门专题