大数据学习之BigData常用算法和数据结构

1.Bloom Filter


由一个很长的二进制向量和一系列hash函数组成


优点：可以减少IO操作，省空间


缺点：不支持删除，有误判

    如果要支持删除操作：
改成计数布隆过滤器

2.SkipList（跳表）

核心思路：
由多层组成，每层都是一个有序链表，最底层包含所有元素，元素数逐层递减。每个节点包含两个指针，一个->,一个向下。

并行编程情况下可以用锁或者CAS操作。

CAS:

compare and
swap，解决多线程并行情况下使用锁造成性能损耗的一种机制，CAS操作包含三个操作数——内存位置（V）、预期原值（A）和新值（B）。如果内存位置
的值与预期原值相匹配，那么处理器会自动将该位置值更新为新值。否则，处理器不做任何操作。无论哪种情况，它都会在CAS指令之前返回该位置的值。CAS
有效地说明了“我认为位置V应该包含值A；如果包含该值，则将B放到这个位置；否则，不要更改该位置，只告诉我这个位置现在的值即可。

用CAS实现的插入：

    void
insert（Node *prev, Node *node） { while （true）
{   node->next =
prev->next;   if
（__sync_compare_and_swap（&prev->next,
node->next, node））
{
return;   } }
}


3.LSM树（Log-Structured Merge-Tree）

    与B
树相比，牺牲部分读性能，大幅提高写性能。


宗旨：把大量随机写改为批量序列写。


在内存中维护多个小的有序结构，在查找时要二分遍历这些结构，不断把小树合并为大树，进行批量插入。


为了优化查找，可以使用Bloom Filter。（判断小结构中有没有目标数据）

   4.HashTree

用于快速定位海量数据中少量变化的内容

对每一项数据进行Hash，多项组合之后再Hash，再Hash，最后到Top Hash。

5.Cuckoo哈希

使用两个哈希函数H1（X）和H2（X），插入X时，同时计算H1（X）和H2（X），如果任意一个桶为空，将X插入相应位置，如果都满了，选一个桶把y踢掉，放入X,对y执行上述过程。设定最大替换次数，达到次数时增大桶的数量或者重选Hash函数。

大数据学习之BigData常用算法和数据结构的更多相关文章

大数据学习——mapreduce案例join算法
需求: 用mapreduce实现select order.orderid,order.pdtid,pdts.pdt_name,oder.amount from orderjoin pdtson ord ...
大数据学习——Linux上常用软件安装
4.1 Linux系统软件安装方式 Linux上的软件安装有以下几种常见方式: 1.二进制发布包软件已经针对具体平台编译打包发布,只要解压,修改配置即可 2.RPM发布包软件已经按照redhat的 ...
大数据学习笔记——Java篇之集合框架(ArrayList)
Java集合框架学习笔记 1. Java集合框架中各接口或子类的继承以及实现关系图: 2. 数组和集合类的区别整理: 数组: 1. 长度是固定的 2. 既可以存放基本数据类型又可以存放引用数据类型 3 ...
大数据学习day31------spark11-------1. Redis的安装和启动，2 redis客户端 3.Redis的数据类型 4. kafka（安装和常用命令）5.kafka java客户端
1. Redis Redis是目前一个非常优秀的key-value存储系统(内存的NoSQL数据库).和Memcached类似,它支持存储的value类型相对更多,包括string(字符串).list ...
大数据学习路线，来qun里分享干货，
一.Linux lucene: 全文检索引擎的架构 solr: 基于lucene的全文搜索服务器,实现了可配置.可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面. 推荐一个大数据学习群 ...
大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机)
引言在大数据学习系列之一 ----- Hadoop环境搭建(单机) 成功的搭建了Hadoop的环境,在大数据学习系列之二 ----- HBase环境搭建(单机)成功搭建了HBase的环境以及相关使用 ...
大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建图文详解
引言在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...
大数据学习之Linux进阶02
大数据学习之Linux进阶 1-> 配置IP 1)修改配置文件 vi /sysconfig/network-scripts/ifcfg-eno16777736 2)注释掉dhcp #BOOTPR ...
大数据学习之Linux基础01
大数据学习之Linux基础 01:Linux简介 linux是一种自由和开放源代码的类UNIX操作系统.该操作系统的内核由林纳斯·托瓦兹在1991年10月5日首次发布.,在加上用户空间的应用程序之后 ...

随机推荐

用 Flask 来写个轻博客 (33) — 使用 Flask-RESTful 来构建 RESTful API 之二
Blog 项目源码:https://github.com/JmilkFan/JmilkFan-s-Blog 目录目录前文列表扩展阅读构建 RESTful Flask API 定义资源路由格式 ...
md5加密和拉钩网的登录
#使用requests模块 #1.登录lagou #2.登录人人,保存个人首页 import requests from urllib import parse #hashlib是MD5加密的一个py ...
PHPStorm remoteHost链接FTP成功，但不显示文件目录
============================================== 勾上前两个选项就可以了
初识Flink广播变量broadcast
Broadcast 广播变量:可以理解为是一个公共的共享变量,我们可以把一个dataset 或者不变的缓存对象(例如map list集合对象等)数据集广播出去,然后不同的任务在节点上都能够获取到,并在 ...
c# Winform dev控件之ChartControl
1.改变颜色字体颜色背景颜色 XYDiagram dia = chartControl1.Diagram as XYDiagram; dia.AxisX.Label.TextColor = Col ...
使用VS 2019发布.net core程序并部署到IIS的最新教程
不管你是使用.net core开发的是web api还是网站类的程序,如果你是部署到IIS,那么下面的内容都适合于你,不会将.net core程序部署到IIS的朋友,可以看看这篇手把手教你部署.net ...
Java 编写过滤手机号码或者固定电话的工具类
以下是分享自己编写的用于过滤手机号码.固定电话.黑名单的工具类TelCheckUtils, import java.util.HashSet; import java.util.Set; import ...
top查看进程的参数
top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器. top显示系统当前的进程和其他状况,是一个动态显示过程,即可以通过用户按键来不 ...
三、spring的AOP
AOP的基本认识 Aspect Oriented Programming,面向切面编程,通过预编译方式和运行期动态代理实现程序功能的统一维护的一种技术利用AOP可以对业务逻辑的各个部分进行隔离,从而 ...
js对象的深度拷贝
//判断对象的类型 Array Object Function String Number ..... function getObjType(obj){ return Object.prototyp ...

大数据学习之BigData常用算法和数据结构

大数据学习之BigData常用算法和数据结构的更多相关文章

随机推荐

热门专题