使用bloomfilter

package bloom;

/**

 * 项目名：SpiderCrawler

 * 文件名：BloomFilterTest.java

 * 作者：zhouyh

 * 时间：2014-8-29 下午02:54:56

 * 描述：TODO(用一句话描述该文件做什么)

 */

import java.io.BufferedReader;

import java.io.File;

import java.io.FileInputStream;

import java.io.IOException;

import java.io.InputStream;

import java.io.InputStreamReader;

import java.util.BitSet;

import java.util.Scanner;

/**

* 描述： 布隆过滤器，传统的布隆过滤器不支持从集合中删除成员

*/

public class BloomFilterTest {

	//DEFAULT_SIZE为2的29次方，即此处的左移28位

	private static final int DEFAULT_SIZE = 2<<28;

	/*

	 * 不同哈希函数的种子，一般取质数

	 * seeds数组共有8个值，则代表采用8种不同的哈希函数

	 */

	private int[] seeds = new int[]{3, 5, 7, 11, 13, 31, 37, 61};

	/*

	 * 初始化一个给定大小的位集

	 * BitSet实际是由“二进制位”构成的一个Vector。

	 * 假如希望高效率地保存大量“开－关”信息，就应使用BitSet.

	 */

	private BitSet bitSets = new BitSet(DEFAULT_SIZE);

	//构建hash函数对象

	private SimpleHash[] hashFuns = new SimpleHash[seeds.length];

	//布隆过滤器配置文件存放路径

	private String path = "";

	public BloomFilterTest(String path){

		/**

		 *  给出所有的hash值，共计seeds.length个hash值。共8位。

		 *  通过调用SimpleHash.hash(),可以得到根据8种hash函数计算得出hash值。

		 *  传入DEFAULT_SIZE(最终字符串的长度），seeds[i](一个指定的质数)即可得到需要的那个hash值的位置。

		 */

		for(int i=0; i<seeds.length; i++){

			hashFuns[i] = new SimpleHash(DEFAULT_SIZE, seeds[i]);

		}

		//配置文件路径地址

		this.path = path;

	}

	/**

	 * 描述：将给定的字符串标记到bitSets中，即设置字符串的8个函数值的位置为1

	 */

	public synchronized void add(String value){

		for(SimpleHash hashFun : hashFuns){

			bitSets.set(hashFun.hash(value), true);

		}

	}

	/**

	 * 描述：判断给定的字符串是否已经存在在bloofilter中，如果存在返回true，不存在返回false

	 */

	public synchronized boolean isExit(String value){

		//判断传入的值是否为null

		if(null == value){

			return false;

		}

		for(SimpleHash hashFun : hashFuns){

			if(!bitSets.get(hashFun.hash(value))){

				//如果判断8个hash函数值中有一个位置不存在即可判断为不存在Bloofilter中

				return false;

			}

		}

		return true;

	}

	/**

	 * 描述：读取配置文件

	 */

	public void init(){

		File file = new File(path);

		FileInputStream in = null;

		try {

			in = new FileInputStream(file);

			long lt = System.currentTimeMillis();

			read(in);

			System.out.println(System.currentTimeMillis()-lt);

			System.out.println(Runtime.getRuntime().totalMemory());

		}catch(Exception e){

			e.printStackTrace();

		}finally{

			try {

				if(in!=null){

					in.close();

					in = null;

				}

			} catch (IOException e) {

				// TODO Auto-generated catch block

				e.printStackTrace();

			}

		}

	}

	/**

	 * 描述：根据传入的流，初始化bloomfilter

	 */

	private void read(InputStream in){

		if(null == in){	//如果in为null，则返回

			return;

		}

		int i = 0;

		InputStreamReader reader = null;

		try {

			//创建输入流

			reader = new InputStreamReader(in, "UTF-8");

			BufferedReader buffReader = new BufferedReader(reader, 512);

			String theWord = null;

			do {

				i++;

				theWord = buffReader.readLine();

				//如果theWord不为null和空，则加入Bloomfilter中

				if(theWord!=null && !theWord.trim().equals("")){

					add(theWord.split("	")[1]);

//					System.out.println(theWord.split("	")[1]);

				}

				if(i%10000 == 0){

//					System.out.println(i);

//					System.out.println(theWord.split("	")[1]);

				}

				if(i%1000000 == 0){

					System.out.println(i);

					break;

				}

			} while (theWord != null);

		} catch (IOException e){

			e.printStackTrace();

		} finally{

			//关闭流

			try {

				if(reader != null){

					reader.close();

					reader = null;

				}

				if(in != null){

					in.close();

					in = null;

				}

			} catch (IOException e) {

				// TODO: handle exception

				e.printStackTrace();

			}

		}

	}

	/**

	 * 描述：TODO(这里用一句话描述这个方法的作用)

	 */

	public static void main(String[] args) {

		// TODO Auto-generated method stub

		BloomFilterTest bloomFilterTest = new BloomFilterTest("D:\\学习\\实验室项目\\ImageNet图片爬取\\fall11_urls.txt");

		bloomFilterTest.init();

		Scanner sc = new Scanner(System.in);   

		while(true){

			System.out.println("输入网址：");

			String s = sc.nextLine();

			System.out.println(bloomFilterTest.isExit(s));

		}

//		test();

//		System.out.println(Integer.toBinaryString(DEFAULT_SIZE-1));

	}

	public static void test(){

		int tt1 = 2<<28;

		int tt2 = 2<<29;

		int tt3 = 2<<30;

		int tt4 = 2<<1;

		System.out.println(Integer.toBinaryString(tt1)+" "+Integer.toBinaryString(tt1).length());

		System.out.println(Integer.toBinaryString(tt2)+" "+Integer.toBinaryString(tt2).length());

		System.out.println(Integer.toBinaryString(tt3-1)+" "+Integer.toBinaryString(tt3).length());

		System.out.println(Integer.toBinaryString(tt4)+" "+Integer.toBinaryString(tt4).length());

		BitSet b = new BitSet(tt3);

	}

	public static class SimpleHash {

		/*

		 * cap为DEFAULT_SIZE，即用于结果的最大字符串的值

		 * seed为计算hash值的一个key值，具体对应上文中的seeds数组

		 */

		private int cap;

		private int seed;

		/**

		 * 构造函数

		 */

		public SimpleHash(int cap, int seed){

			this.cap = cap;

			this.seed = seed;

		}

		/**

		 * 描述：计算hash的函数，用户可以选择其他更好的hash函数

		 */

		public int hash(String value){

			int result = 0;

			int length = value.length();

			for(int i=0; i<length; i++){

				result = seed*result + value.charAt(i);

			}

			//011..11共32位，故&运算以后可以取后31位

			return (cap-1) & result;

		}

	}

}

此处应该注意Bitset最多只有32位

根据别人的数据适当选择大小

使用bloomfilter的更多相关文章

BloomFilter 与 Cuckoo Filter
BloomFilter 与 CuckooFilter Bloom Filter 原理 Bloom Filter是一种空间效率很高的随机数据结构,它的原理是,当一个元素被加入集合时,通过K个相互独立的H ...
Hbase中的BloomFilter（布隆过滤器）
(1) Bloomfilter在hbase中的作用 Hbase利用bloomfilter来提高随机读(get)的性能,对于顺序读(scan)而言,设置Bloomfilter是没有作用的(0.9 ...
[转]BloomFilter——大规模数据处理利器
Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法.通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合. 一. 实例为了说明Bl ...
基于Redis的BloomFilter算法去重
BloomFilter算法及其适用场景 BloomFilter是利用类似位图或者位集合数据结构来存储数据,利用位数组来简洁的表示一个集合,并且能够快速的判断一个元素是不是已经存在于这个集合.因为基于H ...
BloomFilter–大规模数据处理利器(转)
BloomFilter–大规模数据处理利器 Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法.通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求1 ...
BloomFilter——读数学之美札记
之前接触过bitmap,读吴军先生的数学之美,看到了一个更强大的数据结构,布隆过滤器(Bloomfilter),赶紧记下来吧,忘了怪可惜的. bitmap的使用是很有局限性的,往往只能用于海量数值型数 ...
BloomFilter算法
Bloom filter 是由 Howard Bloom 在 1970 年提出的二进制向量数据结构,它具有很好的空间和时间效率,被用来检测一个元素是不是集合中的一个成员.如果检测结果为是,该元素不一定 ...
关于在Python下安装布隆过滤器（bloomfilter）的方法
由于在爬虫代码中需要实现信息的去重功能,所以需借助bloomfilter,在看完各种博客后发现没有安装,这就尴尬了,不会连门都找不到吧.那就安装呗,各种错误,查看官方文档:http://axiak.g ...
布隆过滤器(BloomFilter)持久化
摘要 Bloomfilter运行在一台机器的内存上,不方便持久化(机器down掉就什么都没啦),也不方便分布式程序的统一去重.我们可以将数据进行持久化,这样就克服了down机的问题,常见的持久化方法包 ...
BloomFilter(布隆过滤器)
原文链接:http://blog.csdn.net/qq_38646470/article/details/79431659 1.概念: 如果想判断一个元素是不是在一个集合里,一般想到的是将所有元素保 ...

随机推荐

tar.xz压缩工具使用（转）
XZ压缩最新压缩率之王 xz这个压缩可能很多都很陌生,不过您可知道xz是绝大数linux默认就带的一个压缩工具. 我是在下载phpmyadmin的时候看到这种压缩格式的,phpmyadmin压缩包xz ...
python将str类型的数据变成datetime时间类型数据
如下: import datetime date_str = '2019_05_09' date_date = datetime.date(*map(int, date_str.split('_')) ...
标准C语言(12)
一个存储区的地址应该是它自身大小的整数倍(双精度浮点类型存储区的地址只需要是4的整数倍),这个规则叫数据对齐,结构体内部的存储区通常也需要遵守数据对齐的规则,数据对齐有可能导致结构体相邻子存储区之间有 ...
MyEclipse 2016 反编译插件安装
下载插件,分享一下下载插件的地址,百度网盘:链接:http://pan.baidu.com/s/1nturiAH 密码:yk73 1.把net.sf.jadclipse_3.3.0.jar拷到D:\P ...
微信小程序点击事件传递参数
wxml: data-参数名="值" bindtap="函数名" <view class="buy-button {{cap_select == ...
CH5104 I-country[线性DP+分类讨论]
http://contest-hunter.org:83/contest/0x50%E3%80%8C%E5%8A%A8%E6%80%81%E8%A7%84%E5%88%92%E3%80%8D%E4%B ...
thinkphp5.11 关于数据库连接的配置
config.php <?php// +----------------------------------------------------------------------// | Th ...
vs 2019 调试web项目浏览器
Visual Stdio C++ 编译器、链接器常用命令
概览: cmd常用命令配合使用: del 删除指定文件同erase cls 清屏 rd 删除空目录文件夹 dir 显示目录 cd 在当前盘符跳转指定目录(不同盘符跳转用盘符号)(分别表示根目录上一 ...
[JZOJ6244]【NOI2019模拟2019.7.1】islands【计数】【图论】
Description n<=1e9,M,K<=100 Solution 显然任选m个港口的答案是一样的,乘个组合数即可. 考虑枚举m个港口的度数之和D 可以DP计算记\(F_{m,D} ...

使用bloomfilter

使用bloomfilter的更多相关文章

随机推荐

热门专题