使用simhash库来进行网页去重

首先感谢作者yanyiwu贡献的开源项目https://github.com/yanyiwu/simhash。在做项目过程中，翻了一遍《这就是搜索引擎核心技术详解》这本书的查重算法,在众多的算法中，我选择了simhash。这个算法的魅力在于，

它把文本内容的相似性，转换为哈希值的相似性，很好理解，效率也高，再说，谷歌也用着。关于本算法的一些介绍，在yanyiwu大神的博客

http://yanyiwu.com/work/2014 /01/30/simhash-shi-xian-xiang-jie.html中也有介绍。对这个算法的实现逻辑之后，开始来对这个算

法的使用。既然大神已经贡献出了源码，那我们首先要去学会如何使用这个宝贵的东西。因此，我对大神yanyiwu封装的Simhasher类的成员

函数的功能及其参数阐述自己的理解，学会如何使用这些接口。关于这些接口的实现，

请参见github上的源码 /simhash/src/Simhasher.hpp.

以下是函数使用说明：

 #ifndef SIMHASH_SIMHASHER_HPP

 #define SIMHASH_SIMHASHER_HPP  

 #include "CppJieba/KeywordExtractor.hpp"        //使用结巴分词库下的"关键字提取头文件"

 #include "hashes/jenkins.h"             //使用jenkins.h进行特征到哈希值的转换  

 namespace Simhash

 {

     using namespace CppJieba;

     class Simhasher: public NonCopyable

     {

         private:

             enum{BITS_LENGTH = };

             jenkins _hasher;                //对象成员，用于获取哈希值，组合关系

             KeywordExtractor _extractor;        //jieba分词库中的类作为Simhash的类成员，组合关系

         public:

             /****************构造函数*****************/

             /*  传入：

              *      1)词典路径

              *      2)模式路径

              *      3)idf路径

              *      4)停用词路径

              */  

             //赋值 _extractor 的构造与析构

             Simhasher(const string& dictPath, const string& modelPath, const string& idfPath, const string& stopWords)

                 : _extractor(dictPath, modelPath, idfPath, stopWords)

             {}  

             //析构函数

             ~Simhasher(){};  

             /********以下是Simhash的类成员函数*********/

         public:

             /* 1 */ bool extract(const string& text, vector<pair<string,double> > & res, size_t topN) const;

                     /*  功能：

                      *      抽取关键字，内部调用了_extractor.extract();

                      *  参数：

                      *      (1)text 是传入的将要进行抽取关键字的字符串

                      *      (2)res  装“关键字/权重”的数组

                      *      (3)topN 词频最高的前N个单词

                      */  

             /* 2 */bool make(const string& text, size_t topN, vector<pair<uint64_t, double> >& res) const;

                     /*  功能：

                      *      返回能代表text这篇文章内容的topN个关键字的<二进制hash值，权重>对的数组。

                      *  参数：

                      *      (1)text 是传入的将要进行抽取关键字的字符串

                      *      (2)topN 词频最高的前N个单词

                      *      (3)res  topN个关键字对应的64bit hash值组成的数组

                      */  

             /* 3 */bool make(const string& text, size_t topN, uint64_t& v64) const

                     /*  功能：

                      *      返回能代表text这篇文章内容的topN个关键字映射成的simhash值

                      *  参数：

                      *      (1)text 是传入的将要进行抽取关键字的字符串

                      *      (2)topN 词频最高的前N个单词

                      *      (3)v64  topN个关键字对应的64bit simhash值

                      */  

             /* 4 */static bool isEqual(uint64_t lhs, uint64_t rhs, unsigned short n = );

                     /*  功能：

                      *      计算并判断 lhs 与 rhs 的海明距离是否小于n(默认为3)

                      *  参数：

                      *      (1) lhs ,rhs    左右(不分左右)的64bit simhash值

                      *      (2) n   海明距离的上限值

                      */  

             /* 5 */static void toBinaryString(uint64_t req, string& res);

                     /*  功能：

                      *      将uint64_t的hash值转变成64bit二进制，便于进行海明距离计算

                      *  参数：

                      *      (1) req uint64_t型的哈希值

                      *      (2) res 二进制字符串

                      */  

             /* 6 */static uint64_t binaryStringToUint64(const string& bin);

                     /*  功能：

                      *      将64bit二进制转变成uint64_t的hash值

                      *  参数：

                      *      (1) bin 二进制字符串

                      */

     };

 }

使用simhash库来进行网页去重的更多相关文章

simhash与Google的网页去重
前几天去吃葫芦头的路上,大飞哥给详细的讲解了他在比较文本相似度实验时对Google的simhash方法高效的惊叹,回来特意去找了原文去拜读. Simhash 传统IR领域内文本相似度比较所采用的经典方 ...
高效网页去重算法-SimHash
记得以前有人问过我,网页去重算法有哪些,我不假思索的说出了余弦向量相似度匹配,但如果是数十亿级别的网页去重呢?这下糟糕了,因为每两个网页都需要计算一次向量内积,查重效率太低了!我当时就想:论查找效率肯 ...
网页去重之Simhash算法
Simhash算法是Google应用在网页去重中的一个常用算法,在开始讲解Simhash之前,先了解——什么是网页去重?为什么要进行网页去重?如何进行网页去重,其基本框架是什么? 网页去重,顾名思 ...
simhash进行文本查重 Simhash算法原理和网页查重应用
simhash进行文本查重http://blog.csdn.net/lgnlgn/article/details/6008498 Simhash算法原理和网页查重应用http://blog.jobbo ...
一个基于特征向量的近似网页去重算法——term用SVM人工提取训练，基于term的特征向量，倒排索引查询相似文档，同时利用cos计算相似度
摘要在搜索引擎的检索结果页面中,用户经常会得到内容相似的重复页面,它们中大多是由于网站之间转载造成的.为提高检索效率和用户满意度,提出一种基于特征向量的大规模中文近似网页检测算法DDW(Det ...
C语言调用curl库抓取网页图片
思路是先用curl抓取网页源码,然后以关键字寻找出图片网址. #include <stdio.h> #include <stdlib.h> #include <str ...
C语言调用curl库抓取网页图片(转)
思路是先用curl抓取网页源码,然后以关键字寻找出图片网址. 范例: #include <stdio.h> #include <stdlib.h> #include < ...
使用python标准库urllib2访问网页
#访问不需要登录的网页import urllib2target_page_url='http://10.224.110.118/myweb/view.jsp' f = urllib2.urlopen( ...
python requests库爬取网页小实例：爬取网页图片
爬取网页图片: #网络图片爬取 import requests import os root="C://Users//Lenovo//Desktop//" #以原文件名作为保存的文 ...

随机推荐

浅谈GlusterFS
GlusterFS 标签(linux): 分布式文件系统笔者Q:972581034 交流群:605799367.有任何疑问可与笔者或加群交流图片来自于官网:http://gluster.readt ...
Docker+Jenkins持续集成环境(5): android构建与apk发布
项目组除了常规的java项目,还有不少android项目,如何使用jenkins来实现自动构建呢?本文会介绍安卓项目通过jenkins构建的方法,并设计开发一个类似蒲公英的app托管平台. andro ...
ajax实现异步校验
1.ajax介绍见过百度的搜索框吗?当你输入一个关键词,下面立马会出现一些相关的热词,这就是用ajax做到的. 2.环境设想: 有一个注册页面.jsp <span id="mess& ...
二维数组int[3][2]在内存中的分布方式
Numpy基础学习
Numpy(Numerical Python的简称)是高性能科学计算和数据分析的基础包. 主要的功能: 1.ndarray,一个具有矢量运算和复杂广播工能的快速且节省空间的多维数组 2.用于对整组数据 ...
HDU 4315 Climbing the Hill [阶梯Nim]
传送门题意: 和上题基本一样:山顶可以有多人,谁先把king放到山顶谁就胜并不太明白 #include <iostream> #include <cstdio> #incl ...
从细菌GFF文件提取CDS序列并转换为氨基酸序列
最近在上生物信息学原理,打算记录一些课上的作业.第一次作业:如题. 基本思路: 1.从GFF中读取CDS的起始终止位置以及正负链信息.GFF格式见http://blog.sina.com.cn/s/b ...
Laravel5.5核心架构理解
1.依赖注入方法传入组件名,框架会自动实例化,方法内可直接使用例如最常用的requert对象 2.服务容器其实,Laravel 的核心就是一个 IoC 容器,Laravel 的核心本身十分轻量, ...
【模板小程序】循环方阵构造（仿《剑指offer》循环矩阵打印）
/* 本程序说明: 输入:方阵大小n,输出:n*n的旋转方阵举例: 当n=2时,输出: 1 2 4 3 当n=4时,输出: 1 2 3 4 12 13 14 5 11 16 15 6 10 9 8 ...
PHP数组基本排序算法和查找算法
关于PHP中的基础算法,小结一下,也算是本博客的第一篇文章1.2种排序算法冒泡排序:例子:个人见解 5 6 2 3 7 9 第一趟 5 6 2 3 7 9 5 2 6 3 7 9 5 2 3 6 7 ...

使用simhash库来进行网页去重

使用simhash库来进行网页去重的更多相关文章

随机推荐

热门专题