simhash算法：海量千万级的数据去重

simhash算法及原理参考：

简单易懂讲解simhash算法 hash 哈希：https://blog.csdn.net/le_le_name/article/details/51615931

simhash算法及原理简介：https://blog.csdn.net/lengye7/article/details/79789206

使用SimHash进行海量文本去重：https://www.cnblogs.com/maybe2030/p/5203186.html#_label3

python实现：

python使用simhash实现文本相似性对比（全代码展示）：https://blog.csdn.net/weixin_43750200/article/details/84789361

simhash的py实现：https://blog.csdn.net/gzt940726/article/details/80460419

python库simhash使用

详情请查看：https://leons.im/posts/a-python-implementation-of-simhash-algorithm/

（1）查看simhash值

>>> from simhash import Simhash

>>> print '%x' % Simhash(u'I am very happy'.split()).value

9f8fd7efdb1ded7f

Simhash()接收一个token序列，或者叫特征序列。

（2）计算两个simhash值距离

>>> hash1 = Simhash(u'I am very happy'.split())

>>> hash2 = Simhash(u'I am very sad'.split())

>>> print hash1.distance(hash2)

（3）建立索引

simhash被用来去重。如果两两分别计算simhash值，数据量较大的情况下肯定hold不住。有专门的数据结构，参考：http://www.cnblogs.com/maybe2030/p/5203186.html#_label4

from simhash import Simhash, SimhashIndex

# 建立索引

data = {

u'': u'How are you I Am fine . blar blar blar blar blar Thanks .'.lower().split(),

u'': u'How are you i am fine .'.lower().split(),

u'': u'This is simhash test .'.lower().split(),

}

objs = [(id, Simhash(sent)) for id, sent in data.items()]

index = SimhashIndex(objs, k=10) # k是容忍度；k越大，检索出的相似文本就越多

# 检索

s1 = Simhash(u'How are you . blar blar blar blar blar Thanks'.lower().split())

print index.get_near_dups(s1)

# 增加新索引

index.add(u'', s1)

simhash算法：海量千万级的数据去重的更多相关文章

提高mysql千万级大数据SQL查询优化30条经验（Mysql索引优化注意）
转自http://blog.163.com/zhangjie_0303/blog/static/9908270620146951355834/ 1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 w ...
(转)提高mysql千万级大数据SQL查询优化30条经验（Mysql索引优化注意）
1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索 ...
(转载)提高mysql千万级大数据SQL查询优化30条经验（Mysql索引优化注意）
1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索 ...
mysql千万级大数据SQL查询优化
1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索 ...
mysql千万级大数据SQL查询优化30条经验
转自http://blog.163.com/zhangjie_0303/blog/static/9908270620146951355834/ 1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 w ...
Mysql千万级大数据量查询优化
来源于:https://blog.csdn.net/A350204530/article/details/79040277 1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 ord ...
30个mysql千万级大数据SQL查询优化技巧详解
1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索 ...
Sql server 千万级大数据SQL查询优化的几点建议
1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索 ...
千万级大数据的Mysql数据库SQL语句优化
1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索 ...

随机推荐

Workflow-产品：泛微工作流引擎
ylbtech-Workflow-产品:泛微工作流引擎 1.返回顶部 1. 工作流引擎平台技术架构 TECHNOLOGY FRAMEWORK 高度协同系统各应用模块泛微工作流引擎平台是整个协同办公平 ...
flask 学习 (五)
之前照着书去做的时候经常出现一些小问题,由于对于flask核心内容还不甚了解,我觉定先从更简单的做起,再根据别的需要对搭建的网站进行扩展. 上网找了一下,发现这位http://zhanghonglun ...
linux 基础配置静态IP
1.查看本机windows默认网关.DNS 2.配置linux 3.查询网络配置 4.xshell 登录一查看本机windows默认网关.DNS 二配置linux(注意:默认网关.dns,必须跟 ...
gimp怎么移动选取中的图像并创建图层
gimp怎么移动选取中的图像并创建图层 https://jingyan.baidu.com/article/414eccf6bf4d6e6b431f0a3b.html 听语音原创 | 浏览:1148 ...
JPA 或者Hibernate 实体类说明
这里简单介绍Hibernate的Annotation注解一.声明实体 @Entity对实体注释.任何Hibernate映射对象都要有这个注释@Table声明此对象映射到数据库的数据表,通过它可以为实 ...
Control的Invoke和BeginInvoke
转载:https://www.cnblogs.com/c2303191/articles/826571.html 近日,被Control的Invoke和BeginInvoke搞的头大,就查了些相关的资 ...
spring-boot集成4：集成mybatis，druid和tk.mybatis
Why mybatis? mybatis提供了ORM功能,相比于其他ORM框架,其需要编写更多的sql,也给了我们编写特殊/复杂sql和进行sql优化的机会. Why druid? Druid是阿里巴 ...
teach-es6
ES6: ECMAScript6 js: 组成部分: ECMA DOM BOM ECMA是“European Computer Manufactures Association”的缩写,中文称欧洲计算 ...
@Transient注解的使用（不被序列化和作为临时变量存储）
转自:https://blog.csdn.net/sinat_29581293/article/details/51810805 java 的transient关键字的作用是需要实现Serilizab ...
[转帖]IntelliJ IDEA 2018.3.3破解方法
IntelliJ IDEA 2018.3.3破解方法 https://blog.csdn.net/qq_42862882/article/details/86477495 验证了下也可以激活. ...

simhash算法：海量千万级的数据去重

simhash算法：海量千万级的数据去重

simhash算法及原理参考：

python实现：

python库simhash使用

simhash算法：海量千万级的数据去重的更多相关文章

随机推荐

热门专题