[原创]大数据:布隆过滤器C#版简单实现。

    public class BloomFilter

    {

        public BitArray _BloomArray;

        public Int64 BloomArryLength { get; }

        public Int64 DataArrayLeng { get; }

        public Int64 BitIndexCount { get; }

        /// <summary>

        /// 初始化

        /// </summary>

        /// <param name="BloomArryLength">布隆数组的大小</param>

        /// <param name="DataArrayLeng">数据的长度</param>

        /// <param name="bitIndexCount">hash数</param>

        public BloomFilter(int BloomArryLength,int DataArrayLeng,int bitIndexCount)

        {

            _BloomArray = new BitArray(BloomArryLength);

            this.BloomArryLength = BloomArryLength;

            this.DataArrayLeng = DataArrayLeng;

            this.BitIndexCount = bitIndexCount;

        }

        public void Add(string str)

        {

            var hashCode = GetHashCode(str);

            Random random = new Random(hashCode);

            for (int i = ; i < BitIndexCount; i++)

            {

                var c = random.Next((int)(this.BloomArryLength - ));

                _BloomArray[c] = true;

            }

        }

        public bool isExist(string str)

        {

            var hashCode = GetHashCode(str);

            Random random = new Random(hashCode);

            for (int i = ; i < BitIndexCount; i++)

            {

                if(!_BloomArray[random.Next((int)(this.BloomArryLength - ))])

                {

                    return false;

                }

            }

            return true;

        }

        public int GetHashCode(object value)

        {

            return value.GetHashCode();

        }

        public double getFalsePositiveProbability()

        {

            // (1 - e^(-k * n / m)) ^ k

            return Math.Pow(( - Math.Exp(-BitIndexCount * (double)DataArrayLeng / BloomArryLength)),

                    BitIndexCount);

        }

    }

        static void Main(string[] args)

        {

            Bloom_Filter.BloomFilter bloom = new Bloom_Filter.BloomFilter(, , );//五千万条数据

            for (int i = ; i < bloom.DataArrayLeng; i++)//五千万条数据

            {

                bloom.Add(i.ToString());

            }

            do

            {

                var c = Console.ReadLine();

                if (c == "e")

                    break;

                Stopwatch sw = new Stopwatch();

                sw.Start();

                var temp=bloom.isExist(c);

                sw.Stop();

                Console.WriteLine($"查找:{c}\n结果:{temp}\n总耗时:{sw.ElapsedTicks}\n错误概率:{bloom.getFalsePositiveProbability()}");

            } while (true);

        }

结果：使用内存27MB，查找结果一般在100毫秒以内。

[原创]大数据:布隆过滤器C#版简单实现。的更多相关文章

【Todo】【读书笔记】大数据Spark企业级实战版 & Scala学习
下了这本<大数据Spark企业级实战版>, 另外还有一本<Spark大数据处理:技术.应用与性能优化(全)> 先看前一篇. 根据书里的前言里面,对于阅读顺序的建议.先看最后的S ...
入门大数据---Hbase 过滤器详解
一.HBase过滤器简介 Hbase 提供了种类丰富的过滤器(filter)来提高数据处理的效率,用户可以通过内置或自定义的过滤器来对数据进行过滤,所有的过滤器都在服务端生效,即谓词下推(predic ...
C#将dataGridView中显示的数据导出到Excel（大数据量超有用版）
开发中非常多情况下须要将dataGridView控件中显示的数据结果以Excel或者Word的形式导出来,本例就来实现这个功能. 因为从数据库中查找出某些数据列可能不是必需显示出来,在dataGrid ...
CDH大数据平台搭建终极版
经过无数次的失败,终于将CDH安装到两台普通的笔记本电脑上,主要失败原因有以下几点: 不熟悉安装过程,官方给出的安装方法有三种,所以都尝试了一遍,浪费了大量时间,所以有时候方法多不见得是一件好事. 安 ...
zw版足彩大数据&报价
zw版足彩大数据&报价 ::zw增强版足彩大数据,文件名后缀是'.dat' ::文件格式是标准文本格式,逗号分隔 ::zw增强版,在标准版赔率基础上,增加了倒数.比率两组归一化数据 ::zw版 ...
布隆过滤器（Bloom Filters）的原理及代码实现（Python + Java）
本文介绍了布隆过滤器的概念及变体,这种描述非常适合代码模拟实现.重点在于标准布隆过滤器和计算布隆过滤器,其他的大都在此基础上优化.文末附上了标准布隆过滤器和计算布隆过滤器的代码实现(Java版和Pyt ...
Redis布隆过滤器与布谷鸟过滤器
大家都知道,在计算机中,IO一直是一个瓶颈,很多框架以及技术甚至硬件都是为了降低IO操作而生,今天聊一聊过滤器,先说一个场景: 我们业务后端涉及数据库,当请求消息查询某些信息时,可能先检查缓存中是否有 ...
布隆过滤器的概述及Python实现
布隆过滤器布隆过滤器是一种概率空间高效的数据结构.它与hashmap非常相似,用于检索一个元素是否在一个集合中.它在检索元素是否存在时,能很好地取舍空间使用率与误报比例.正是由于这个特性,它被称作概 ...
浅析布隆过滤器及实现demo
布隆过滤器布隆过滤器(Bloom Filter)是一种概率空间高效的数据结构.它与hashmap非常相似,用于检索一个元素是否在一个集合中.它在检索元素是否存在时,能很好地取舍空间使用率与误报比例. ...

随机推荐

anacodna/python 安装 tensorflow
study from : https://www.cnblogs.com/HongjianChen/p/8385547.html 执行1-6 7 安装jupyter 每次使用tensorflow,都要 ...
Java如何计算一个程序的运行时间
话不多说直接看代码 package com.mowcode; /** * * @ClassName: Code_01_ProjectTime * @Description: 拿到程序运行时间 * @ ...
js重点--原型链
通过将一个构造函数的原型对象指向父类的实例,就可以调用父类中的实例属性及父类的原型对象属性,实现继承. function animals(){ this.type = "animals&qu ...
mysql之binlog
binlog 基本认识 MySQL的二进制日志可以说是MySQL最重要的日志了,它记录了所有的DDL和DML(除了数据查询语句)语句,以事件形式记录,还包含语句所执行的消耗的时间,MySQL的二进制日 ...
HTTP高并发调优小记
tomcat服务层 1.修改server.xml <Connector port="8088" protocol="HTTP/1.1" maxThread ...
mysql并发控制之数据库锁
1.mysql和redis的区别 mysql是一种关系型数据库,数据会最终存储在磁盘上.而redis是一种非关系型的nosql数据库,以key-value的形式存储数据,将数据存储在内存.从性能上来说 ...
Python 面试总结
公司面试: 1,说说项目都用到了什么技术? 2,mysql索引的种类? 3,索引建多有什么不好? 4,mysql的引擎有什么? 5,redis是单线程还是多线程的? 6, redis的持久化机制? 7 ...
mac charles手机抓包详细教程
1.官方下载charles 2.查看电脑IP地址 3.Proxy>Proxy Settings>勾选 Enable transparent HTTP proxying (记住端口号 88 ...
npx命令介绍
什么是npx 第一次看到npx命令是在 babel 的文档里 Note: If you do not have a package.json, create one before installing ...
2018-2019-2 网络对抗技术 20165237 Exp6 信息搜集与漏洞扫描
2018-2019-2 网络对抗技术 20165237 Exp6 信息搜集与漏洞扫描实验目标 1 各种搜索技巧的应用: 2 DNS IP注册信息的查询: 3 基本的扫描技术: 主机发现.端口扫描.O ...

[原创]大数据:布隆过滤器C#版简单实现。

[原创]大数据:布隆过滤器C#版简单实现。的更多相关文章

随机推荐

热门专题