Cardinality Estimation算法学习（二）（Linear Counting算法、最大似然估计(MLE)）

　　在上篇，我了解了基数的基本概念，现在进入Linear Counting算法的学习。理解颇浅，还请大神指点！

　　http://blog.codinglabs.org/articles/algorithms-for-cardinality-estimation-part-ii.html

　　它的基本处理方法和上篇中用bitmap统计的方法类似，但是最后要用到一个公式：

　　说明：m为bitmap总位数，u为0的个数，最后的结果为n的一个估计，且为最大似然估计（MLE）。

　　那么问题来了，最大似然估计是什么东东？好像在学概率论的时候听说过，于是又去搜索了一下MLE的信息。

MLE：（此处不使用概率论中的各种符号及表示方法，按我自己的理解写）

　　以下内容参考链接：http://blog.csdn.net/yanqingan/article/details/6125812

　　假设进行一个实验，实验次数定为10次，每次实验成功率为0.2，那么不成功的概率为0.8，用n来表示成功的次数。

　　事件之间是相互独立的，于是可以得到成功次数的概率：

成功次数	0	1	2	3	4	5	6	7	8	9	10
概率	0.107374	0.268435	0.301990	0.201327	0.088080	0.026424	0.005505	0.000786	0.000074	0.000004	0.000000

　　以上数据由下述程序计算：

 #include <stdio.h>

 #define N 10

 #define G 0.2

 int factorial(int n)

 {

     int i;

     int ret = ;

     for(i = ; i <= n; ++i)

     {

         ret *= i;

     }

     return ret;

 }

 double exponent(double m, int n)

 {

     int i;

     double ret = ;

     for(i = ; i < n; ++i)

     {

         ret *= m;

     }

     return ret;

 }

 double fun(int n)

 {

     return ((double)factorial(N) / factorial(n) / factorial(N - n) * exponent(G, n) * exponent( - G, N - n));

 }

 int main()

 {

     int i;

     for(i = ; i <= N; ++i)

     {

         printf("%f\t", fun(i));

     }

     printf("\n");

 }

　　用excel做出它的图表

　　而所谓概率密度，就是这一个个柱子的面积。公式如下：

　　所谓的最大似然估计，就是在已知成功次数n的情况下，求出每次实验成功率的最可能的值。

　　假设现已知成功次数为n=7，那么每次的成功概率ω可能是多少呢？

　　可以代入式子：

　　于是它成了P和ω的方程。

　　既然成功次数为7，那么假设n=7时，P有极大值，即求上述方程极大值。借助excel，画出它的方程曲线图：

　　即先求导，然后取导数的0点，即为最大可能概率：

　　但是这样做又不方便，又容易出错，于是可以借助对数来进行处理：

　　这样继续求解是不是方便多了呢？

　　现在回到Linear Counting算法（具体一开始头上带^的n是怎么推导的可以查看一下开关的链接，或者“A linear-time probabilistic counting algorithm for database applications”）

　　Linear Counting算法中，m是比n小的。我并不知道应该如何描述它，于是按个人的理解举个例子：

　　假设一个网站一天有n个不同的人访问，现设一m位的bitmap，将“不同的人”传入哈希函数，传出的结果填入bitmap（可能重复），最后用bitmap中的分布情况来估计n的值。

　　引用链接中的一个图：

　　每个圈代表一个人，然后用bitmap中的分布情况估计出圈的个数。

　　这样的估计是有误差的，所以应该对m的选择考虑一番。

结论：Linear Counting算法比直接用bitmap节约了常系数极的空间

Cardinality Estimation算法学习（二）（Linear Counting算法、最大似然估计(MLE)）的更多相关文章

萌新笔记——Cardinality Estimation算法学习（二）（Linear Counting算法、最大似然估计(MLE)）
在上篇,我了解了基数的基本概念,现在进入Linear Counting算法的学习. 理解颇浅,还请大神指点! http://blog.codinglabs.org/articles/algorithm ...
CRC16算法之二：CRC16-CCITT-XMODEM算法的java实现
CRC16算法系列文章: CRC16算法之一:CRC16-CCITT-FALSE算法的java实现 CRC16算法之二:CRC16-CCITT-XMODEM算法的java实现 CRC16算法之三:CR ...
JVM-GC算法（二）-复制算法&&标记整理算法
这次我和各位分享GC最后两种算法,复制算法以及标记/整理算法.上一篇在讲解标记/清除算法时已经提到过,这两种算法都是在此基础上演化而来的,究竟这两种算法优化了之前标记/清除算法的哪些问题呢? 复制算法 ...
数据结构与算法学习(二)——Master公式及其应用
本篇文章涉及公式,由于博客园没有很好的支持,建议移步我的CSDN博客和简书进行阅读. 1. Master公式是什么? 我们在解决算法问题时,经常会用到递归.递归在较难理解的同时,其算法的复杂度也不是很 ...
Opencv算法学习二
1.直方图:图片中像素值分布情况的坐标图. 直方图均衡化:按一定规律拉伸像素值,提高像素值少的点,增加原图的对比度,使人感觉更清晰的函数. equalizeHist( src, dst ); 2.ha ...
疯子的算法总结(二） STL Ⅰ 算法（ algorithm ）
写在前面: 为了能够使后续的代码具有高效简洁的特点,在这里讲一下STL,就不用自己写堆,写队列,但是做为ACMer不用学的很全面,我认为够用就好,我只写我用的比较多的. 什么是STL(STl内容): ...
五大常用算法之二：动态规划算法（DP）
一.基本概念动态规划过程是:每次决策依赖于当前状态,又随即引起状态的转移.一个决策序列就是在变化的状态中产生出来的,所以,这种多阶段最优化决策解决问题的过程就称为动态规划. 二.基本思想与策略基本 ...
四旋翼基础算法学习2-IMU输入滤波算法
前言: 处理器读取陀螺仪加速度计数据后首先需要对数据进行滤波处理,此文分析比较几种常用的滤波算法. 参考学习:四轴加速度计滤波 IMU: IMU使用MPU9250(即MPU6500),设置加速度量程± ...
数据结构&算法（二）_算法基础之前传（递归、时间复杂度、空间复杂度、二分查找）
什么是算法: 间而言之算法(Algorithm):一个计算过程,解决问题的方法递归的两个特点: 调用自身结束条件递归示例: def func(x): : print("我的小鲤鱼&qu ...

随机推荐

Linux 与 Windows 搭建域名解析
实现 Win2012-D1 中 DNS 服务器的冗余备份,同时提供本域内主机名与 IP 地址的解析,此域名服务器的地址数据库需要 Win2012-D1 中定期更新. 假设环境:Server12 以及 ...
mongo的持久化之Journaling
参考文章: http://database.51cto.com/art/201110/295772.htm http://blog.chinaunix.net/uid-15795819-id-3381 ...
CSS的nth-of-type和nth-child的区别
<!DOCTYPE html> <html lang="en"> <head> <meta charset ...
Windows下Anaconda安装 python + tensorflow GPU版
这里首先确认没有安装CPU版本,并默认已经安装了CUDA和Cudnn以及anaconda. 安装gpu版本的tensorflow 接下来需要安装GPU版本的tensorflow: 打开cmd并输入: ...
PHP会话cookie类的封装
<?php header('content-type:text/html;charset=utf-8');/** * 完成cookie的设置.删除.更新.读取 */class Cookie{ ...
Springboot第二篇：与前端fetch通信（附springboot解决跨域方法）
说到与前端通信,明白人都知道这章肯定会写两部分的东西啦. 关于后台 ①首先回顾前文,上一章环境搭建如图: ②我们在maven.example.controller下添加一个文件,并附上如图代码: ③: ...
python学习，day3：函数式编程，带return
return的主要作用就是,在调用的时候,能知道函数的运行情况,相当于打个标签 # coding=utf-8 # Author: RyAn Bi def test1(): print('in the ...
UVALive - 6436、HYSBZ - 2435 (dfs)
这两道题都是用简单dfs解的,主要是熟悉回溯过程就能做,据说用bfs也能做道路修建(HYSBZ - 2435) 在 W 星球上有n 个国家.为了各自国家的经济发展,他们决定在各个国家之间建设双向道 ...
查看centos CPU、内存、版本等信息
2018-12-29 查看当前linux的系统版本 cat /etc/redhat-release 查看内核版本 uname -a 查看CPU是32位还是64位 getconf LONG_BIT 查看 ...
DIY FRDM-KL25Z开发环境 -- 基于GNU工具链
IDE大行其道的今天,一键make极大的便利了开发的同时,也每每让各种半路出家的猿们遇到工具链的问题感到束手无策(不就是说自己嘛?^_^!!!).也玩过不少板子了,始终没去深究工具链方面的问题,对于嵌 ...

Cardinality Estimation算法学习（二）（Linear Counting算法、最大似然估计(MLE)）

Cardinality Estimation算法学习（二）（Linear Counting算法、最大似然估计(MLE)）的更多相关文章

随机推荐

热门专题