高效网页去重算法-SimHash】的更多相关文章

记得以前有人问过我,网页去重算法有哪些,我不假思索的说出了余弦向量相似度匹配,但如果是数十亿级别的网页去重呢?这下糟糕了,因为每两个网页都需要计算一次向量内积,查重效率太低了!我当时就想:论查找效率肯定是要考虑hash算法,相同字符串的hashcode肯定相同,不同字符串的hashcode却是大不相同,这也不符合要求啊,会不会存在一种算法能够使相似字符串的code值也相同或相似呢,于是就找到了Google的网页去重算法-SimHash.我们在使用SimHash算法前需要根据文档量级选择SimHa…
摘  要  在搜索引擎的检索结果页面中,用户经常会得到内容相似的重复页面,它们中大多是由于网站之间转载造成的.为提高检索效率和用户满意度,提出一种基于特征向量的大规模中文近似网页检测算法DDW(Detect near-Duplicate WebPages ).试验证明,比起其他网页去重算法(I-Match),DDW具有很好的抵抗噪声的能力及近似线性的时间和空间复杂度,在大规模实验中获得良好测试结果. 关键词  网页去重算法   特征向量   近似网页   支持向量机 第一部分介绍现有去重算法:第…
Simhash算法是Google应用在网页去重中的一个常用算法,在开始讲解Simhash之前,先了解——什么是网页去重?为什么要进行网页去重?如何进行网页去重,其基本框架是什么?   网页去重,顾名思义,就是过滤掉重复的网页.统计结果表明,近似重复网页的数量占网页总数量的比例较高,即互联网上有很多的页面内容是完全一样的或是相近的(这个不难理解,比如对于某一事件的新闻报道,很多是大同小异的).基于这一实际情况,所以要进行网页去重.   那么如何进行网页去重呢?这就用到了Simhash算法. 去重算…
SimHash是什么 SimHash是Google在2007年发表的论文<Detecting Near-Duplicates for Web Crawling >中提到的一种指纹生成算法或者叫指纹提取算法,被Google广泛应用在亿级的网页去重的Job中,作为locality sensitive hash(局部敏感哈希)的一种,其主要思想是降维,什么是降维? 举个通俗点的例子,一篇若干数量的文本内容,经过simhash降维后,可能仅仅得到一个长度为32或64位的二进制由01组成的字符串,这一点…
文本去重之SimHash算法 - pathenon的个人页面 - 开源中国社区 文本去重之SimHash算法…
本人较懒,直接将链接附上: JavaScript下去重算法优化:http://www.linuxde.net/2013/02/12062.html…
本文将介绍谷歌的网页排序算法(PageRank Algorithm),以及它如何从250亿份网页中捞到与你的搜索条件匹配的结果.它的匹配效果如此之好,以至于“谷歌”(google)今天已经成为一个被广泛使用的动词了. 如何辨别谁重要 如果你曾建立过一个网页,你应该会列入一些你感兴趣的链接,它们很容易使你点击到其它含有重要.可靠信息的网页.这样就相当于你肯定了你所链接页面的重要性.谷歌的网页排序算法每月在所有网页中进行一次受欢迎程度的评估,以确定哪些网页最重要.网页排序算法的提出者,谢尔盖•布林(…
1.bloom filter算法 传说中,larbin使用bloom filter算法来进行url去重.那我们就先来了解下bloom filter算法好了. [以下转自:http://hi.baidu.com/fengfengchang/item/050b11390ff61fbd633affac] 先解释一下什么是哈希函数.哈希函数简单来说就是一种映射,它可取值的范围(定义域)通常很大,但值域相对较小.哈希函数所作的工作就是将一个很大定义域内的值映射到一个相对较小的值域内. 传统的哈希存储 假设…
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>javascript数组去重算法-----3</title> </head> <body> <script> var arr = [1,1,2,2,3,2,2,3,3,1,1,4,4,5,6]; function uniq…
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>javascript数组去重算法-----2</title> </head> <body> <script> var arr = [1,1,2,2,3,2,2,3,3,1,1,4,4,5,6]; function uniq…
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>javascript数组去重算法-----1</title> </head> <body> <script> var arr = [1,1,2,2,3,2,2,3,3,1,1,4,4,5,6]; function uniq…
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>javascript数组去重算法-----3</title> </head> <body> <script> var arr = [1,1,2,2,3,2,2,3,3,1,1,4,4,5,6]; function uniq…
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>javascript数组去重算法-----3</title> </head> <body> <script> var arr = [1,1,2,2,3,2,2,3,3,1,1,4,4,5,6]; function uniq…
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>javascript数组去重算法-----3</title> </head> <body> <script> var arr = [1,1,2,2,3,2,2,3,3,1,1,4,4,5,6]; function uniq…
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>javascript数组去重算法-----3</title> </head> <body> <script> var arr = [1,1,2,2,3,2,2,3,3,1,1,4,4,5,6]; function uniq…
基于视觉信息的网页分块算法(VIPS) - yysdsyl的专栏 - 博客频道 - CSDN.NET 于视觉信息的网页分块算法(VIPS) 2012-07-29 15:22 1233人阅读 评论(1) 收藏 举报 算法webhtml VIPS: a Vision-based Page Segmentation Algorithm.pdf下载            这篇论文的主要思想:            从人类的角度来看,当一个用户观察web页面的时候,它总是会自然而然的把一个语义块作为一个单…
在网上看到一篇博客讲解Levenshtein的计算,大部分内容都挺好的,只是在一些细节上不够好,看了很长时间才明白.我对其中的算法描述做了一个简单的修改.原文的链接是:一个快速.高效的Levenshtein算法实现. 我修改的内容如下: Levenshtein算法步骤 步骤 说明 1 设置n为字符串s的长度.(“GUMBO”) 设置m为字符串t的长度.(“GAMBOL”) 如果n等于0,返回m并退出. 如果m等于0,返回n并退出. 构造两个向量v0[m+1] 和v1[m+1] 2 初始化 v0,…
网页排名算法PageRank PageRank,网页排名,又叫做网页级别.是一种利用网页之间的超链接数据进行计算的方法.它是由Google的两位创始人提出的. 对于用户而言,网页排名一般是比较主观的,但也存在一些方法可以给出较为客观的排名,PageRank就是其中一种.它衡量的是网页之间的相对重要性,把每一个网页当成一个图结点,网页之间的超链接当成是结点之间的边,根据结点之间的链接关系来进行计算的,核心思想是一个网页被链接的次数越多,那么它就越受关注. 1.简单PR模型 假设有这样几个网页的图,…
前几天去吃葫芦头的路上,大飞哥给详细的讲解了他在比较文本相似度实验时对Google的simhash方法高效的惊叹,回来特意去找了原文去拜读. Simhash 传统IR领域内文本相似度比较所采用的经典方法是文本相似度的向量夹角余弦,其主要思想是根据一个文章中出现词的词频构成一个向量,然后计算两篇文章对应向量的向量夹角.但由于有可能一个文章的特征向量词特别多导致整个向量维度很高,使得计算的代价太大,对于Google这种处理万亿级别的网页的搜索引擎而言是不可接受的,simhash算法的主要思想是降维,…
首先感谢作者yanyiwu贡献的开源项目https://github.com/yanyiwu/simhash.在做项 目过程中,翻了一遍<这就是搜索引擎  核心技术详解>这本书的查重算法,在众多的算法中,我选择了simhash.这个算法的魅力在于, 它把文本内容的相似性,转换为哈希值的相似性,很好理 解,效率也高,再说,谷歌也用着.关于本算法的一些介绍,在yanyiwu大神的博客 http://yanyiwu.com/work/2014/01/30/simhash-shi-xian-xiang…
1.介绍 爬虫采集了大量的文本数据,如何进行去重?可以使用文本计算MD5,然后与已经抓取下来的MD5集合进行比较,但这种做法有个问题,文本稍有不同MD5值都会大相径庭, 无法处理文本相似问题.另一种方式是本文要介绍的SimHash,这是谷歌提出的一种局部敏感哈希算法,在吴军老师的<数学之美>里也有介绍,这种算法可以将文本降维成一个 数字,极大地减少了去重操作的计算量.SimHash算法主要分为以下几个步骤: 1.分词,并为每个词加上权重,代表这个词在这句话中的重要程度(可以考虑使用TF-IDF…
引入 随着信息爆炸时代的来临,互联网上充斥着着大量的近重复信息,有效地识别它们是一个很有意义的课题. 例如,对于搜索引擎的爬虫系统来说,收录重复的网页是毫无意义的,只会造成存储和计算资源的浪费: 同时,展示重复的信息对于用户来说也并不是最好的体验.造成网页近重复的可能原因主要包括: 镜像网站 内容复制 嵌入广告 计数改变 少量修改 一个简化的爬虫系统架构如下图所示: 事实上,传统比较两个文本相似性的方法,大多是将文本分词之后,转化为特征向量距离的度量,比如常见的欧氏距离.海明距离或者余弦角度等等…
最近公司在做一个项目,需要对爬取到的数据进行去重,方法就是根据数据的id,去除掉id重复的数据. 下面是这个方法的演化过程. // 去重 $arr_id = array(); $LeTVFeedList = array(); for ($i = 0; $i < count($arrFeedList); $i++){ if(!in_array($arrFeedList[i]['id'], $arr_id)){ $LeTVFeedList[] = $arrFeedList[i]; $arr_id[]…
转自:http://www.cnblogs.com/ymind/archive/2012/03/27/fast-memory-efficient-Levenshtein-algorithm.html Levenshtein算法,用于计算两个字符串之间的Levenshtein距离.而Levenshtein距离又称为编辑距离,是指两个字符串之间,由一个转换成另一个所需的最少编辑操作次数.许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符. 概述 Levenshtein距离用来描…
近来有些朋友在做蜘蛛算法,或者在网页上面做深度的数据挖掘.但是遇到复杂而繁琐的html页面大家都望而却步.因为很难获取到相应的数据. 最古老的办法的是尝试用正则表达式,估计那么繁琐的东西得不偿失,浪费我们宝贵的时间. 第二个办法用开源组织htmlparser的包,这个是一个比较老的项目,但是效果估计不是很好,好像不可以深入分析html,只能分析5级的结构: 我这里有个htmlparser的源代码,可以获取所有的超链接的 /* * To change this template, choose T…
前面我们了解了一些常用的排序算法,那么这篇文章我们来看看搜索算法的一些简单实现,我们先来介绍一个我们在实际工作中一定用到过的搜索算法--顺序搜索. 1.顺序搜索 其实顺序搜索十分简单,我们还是以第一篇文章写好的架子作为基础,在其中加入顺序搜索的方法: //顺序搜索 this.sequentialSearch = function(item) { for(var i = 0; i < array.length; i++) { if(item === array[i]) { return i; };…
前面我们了解了一些常用的排序算法,那么这篇文章我们来看看搜索算法的一些简单实现,我们先来介绍一个我们在实际工作中一定用到过的搜索算法——顺序搜索. 1.顺序搜索 其实顺序搜索十分简单,我们还是以第一篇文章写好的架子作为基础,在其中加入顺序搜索的方法: //顺序搜索 this.sequentialSearch = function(item) { for(var i = 0; i < array.length; i++) { if(item === array[i]) { return i; };…
在此把这个算法称作B* 寻路算法(Branch Star 分支寻路算法,且与A*对应),本算法适用于游戏中怪物的自动寻路,其效率远远超过A*算法,经过测试,效率是普通A*算法的几十上百倍. 通过引入该算法,一定程度上解决了游戏服务器端无法进行常规寻路的效率问题,除非服务器端有独立的AI处理线程,否则在服务器端无法允许可能消耗大量时间的寻路搜索,即使是业界普遍公认的最佳的A*,所以普遍的折中做法是服务器端只做近距离的寻路,或通过导航站点缩短A*的范围. 算法原理  本算法启发于自然界中真实动物的寻…
外部排序算法相关:主要用到归并排序,堆排序,桶排序,重点是先分成不同的块,然后从每个块中找到最小值写入磁盘,分析过程可以看看http://blog.csdn.net/jeason29/article/details/50474772 hash值算法 1.题目描述 给定a.b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a.b文件共同的url? 2.思考过程 (1)首先我们最常想到的方法是读取文件a,建立哈希表(为什么要建立hash表?因为方便后面的查找),然后再…
Remove Repeat 一.去重原理 1.进行排序 2.判断是否满足 '两个字符串相同' 的条件,相同则累加重复次数,并使用continue继续下一次循环 3.当条件不满足时,将该字符串和累计数加入数组中,并重置累计值. 二.源码 1.很久之前写的,我就不多说了. import java.util.ArrayList; import java.util.List; //一个去重的算法,写的有点复杂,没有优化过 public class RemoveRepeat { public static…