在看蚂蚁***的时候看到这道题,真心觉得有趣,所以啊,一定要投入其中,知识的美妙啊~

  小明在天猫上开了一个网店,某天要开展一个抽奖活动,奖品数量100个。为了保证活动的公平,小明希望保证每个顾客中奖概率都一样,但他无法提前预估活动当天参加抽奖的顾客数。请你给他设计一个算法,要求:

  1) 在抽奖过程中,如果让所有顾客一直等待抽奖结果,否则顾客会一直刷新导致网络拥塞,用户体验也很糟糕,因此只能容忍一小部分用户在活动进行过程中等待;

  2) 活动结束以后,必须立即给出中奖的100位顾客名单。

给出一个数据流,这个数据流的长度很大或者未知。并且对该数据流中数据只能访问一次。请写出一个随机选择算法,使得数据流中所有数据被选中的概率相等。

对于复杂问题一定要学会归纳总结,即从小例子入手,然后分析,得出结论,然后在证明。不然遇到一个抽象问题,不举例感觉这个问题,直接解还是比较难的。

对于此问题的难处就是数据流的长度未知,如果已知,so easy。现在进行归纳总结:

1) 长度为1,只有一个数据,直接返回即可,此数据被返回的概率为1.

2)长度为2,当读取第一数据时,我们发现并不是最后一个数据,我们不能直接返回,因为数据流还没结束,继续读取,到第二数据的时候,发现已经结束。所以现在的问题就是等概率返回其中的一个,显然概率为0.5。所以此时我们可以生成一个0到1的随机数p,如果p小于0.5,返回第二个,如果大于0.5,返回第一个。显然此时两个数据被返回的概率是一样的。

3)长度为3,我们可以事先分析得到,为了满足题意,需要保证每个数据返回的概率都是1/3。接下来分析数据流,首先读取第一个数据,然后在读取第二个数据,此时可以按2)处理,保留一个数据,每个数据显然为1/2。此时读取第三个数据,发现到尾部了,为了满足题意,此时需要一1/3的概率决定是否取此数据。现在分析前两个数是否也是以1/3的概率返回,如果是则总体都满足。数据1和数据2同时留下的概率为:1/2 *(1-1/3)= 1/3。1/2只在数据1和数据2pk时,能留下的概率,1-1/3指数据3不被留下的概率。所以,对长度为3的数据流,在读取第三个数据时,我们可以生成一个0到1的随机数p,如果p小于1/3,返回第三个数据,否则,返回前面两个pk留下的数据。

由上面的分析,我们可以得出结论,在取第n个数据的时候,我们生成一个0到1的随机数p,如果p小于1/n,保留第n个数。大于1/n,继续保留前面的数。直到数据流结束,返回此数。

下面用数学归纳法证明此结论。

1)当n=1时,第一个元素以1/1的概率返回,符合条件。

2)假设当n=k时成立,即每个元素都以1/k的概率返回,先证明n=k+1时,是否成立。

对于最后一个元素显然以1/k+1的概率返回,符合条件,对于前k个数据,被返回的概率为1/k * (1- 1/k+1)=1/k+1,满足题意。

综上所述,结论成立。

题目2

对于题目1的要就变为,最后返回的结果长度为k,这就是水塘抽样

显然有了对题目1的理解,我们可以直接替换结论,只需把上面的1/n变为k/n即可。

在取第n个数据的时候,我们生成一个0到1的随机数p,如果p小于k/n,替换池中任意一个为第n个数。大于k/n,继续保留前面的数。直到数据流结束,返回此k个数。但是为了保证计算机计算分数额准确性,一般是生成一个0到n的随机数,跟k相比,道理是一样的。

转载于https://blog.csdn.net/javastart/article/details/50610868

Reservoir sampling的更多相关文章

  1. 算法系列:Reservoir Sampling

    copyright © 1900-2016, NORYES, All Rights Reserved. http://www.cnblogs.com/noryes/ 欢迎转载,请保留此版权声明. -- ...

  2. 蓄水池采样算法(Reservoir Sampling)

    蓄水池采样算法 问题描述分析 采样问题经常会被遇到,比如: 从 100000 份调查报告中抽取 1000 份进行统计. 从一本很厚的电话簿中抽取 1000 人进行姓氏统计. 从 Google 搜索 & ...

  3. Reservoir Sampling - 蓄水池抽样

    问题起源于编程珠玑Column 12中的题目10,其描述如下: How could you select one of n objects at random, where you see the o ...

  4. 水塘抽样(Reservoir Sampling)问题

    水塘抽样是一系列的随机算法,其目的在于从包含n个项目的集合S中选取k个样本,其中n为一很大或未知的数量,尤其适用于不能把所有n个项目都存放到主内存的情况. 在高德纳的计算机程序设计艺术中,有如下问题: ...

  5. Spark MLlib之水塘抽样算法(Reservoir Sampling)

    1.理解 问题定义可以简化如下:在不知道文件总行数的情况下,如何从文件中随机的抽取一行? 首先想到的是我们做过类似的题目吗?当然,在知道文件行数的情况下,我们可以很容易的用C运行库的rand函数随机的 ...

  6. [Algorithm] Reservoir Sampling

    Given a stream of elements too large to store in memory, pick a random element from the stream with ...

  7. Reservoir Sampling - 蓄水池抽样问题

    问题起源于编程珠玑Column 12中的题目10,其描述如下: How could you select one of n objects at random, where you see the o ...

  8. 【算法34】蓄水池抽样算法 (Reservoir Sampling Algorithm)

    蓄水池抽样算法简介 蓄水池抽样算法随机算法的一种,用来从 N 个样本中随机选择 K 个样本,其中 N 非常大(以至于 N 个样本不能同时放入内存)或者 N 是一个未知数.其时间复杂度为 O(N),包含 ...

  9. 蓄水池抽样算法 Reservoir Sampling

    2018-03-05 14:06:40 问题描述:给出一个数据流,这个数据流的长度很大或者未知.并且对该数据流中数据只能访问一次.请写出一个随机选择算法,使得数据流中所有数据被选中的概率相等. 问题求 ...

  10. 随机抽样问题(蓄水池问题Reservoir Sampling)

    转自:孤影醉残阳 http://hi.baidu.com/siyupy/item/e4bb218fedf4a0864414cfad 随机抽样问题(蓄水池问题Reservoir Sampling) 随即 ...

随机推荐

  1. 【Unity】微信支付SDK官方安卓Demo的使用问题

    Unity3d使用微信支付是属于APP内发起支付调用的情况,其本质上是在安卓项目上使用微信SDK,安卓项目开发完成后再导入到Unity中作为Unity插件使用,即Unity中C#调用安卓(Java)代 ...

  2. Spring Boot 调用 MongoRepository时报org.springframework.beans.factory.NoSuchBeanDefinitionException错误的解决办法

    这个问题整整折腾了我两天,现在记录下来,希望可以帮助和我一样,遇到相同问题的小伙伴. 项目是分层的(Intellij IDEA中的模块Module),有API(Core)层,Service&D ...

  3. YII2 使用phpexcel(干货)

    参考:http://www.cnblogs.com/xiaocongjiejie/p/5106249.html http://www.cnblogs.com/xiaocongjiejie/p/5106 ...

  4. Java Observer接口和Observable类实现观察者模式

    对于观察者模式,其实Java已经为我们提供了已有的接口和类.对于订阅者(Subscribe,观察者)Java为我们提供了一个接口,JDK源码如下: package java.util; public ...

  5. TeamViewer 版本v13.2.26558 修改ID

    TeamViewer 使用频繁后会被判定为商业用途,不可用.此软件的账号和设备mac地址绑定. 修改TeamViewer ID后可以重新开始使用.下述方法可以成功修改TeamViewer ID. Wi ...

  6. 转 .NET4.5之初识async与await

    来自:http://www.cnblogs.com/lekko/archive/2013/03/05/2944282.html 本人是从.NET4.0刚出的时候接触的.NET环境,所以学的东西就是4. ...

  7. How to do sparse input text classification(dnn) using tensorflow

    You can get complete example code from https://github.com/chenghuige/hasky/tree/master/applications ...

  8. 更改oracle归档模式路径

    1.更改归档路径 在ORACLE10G中,默认的归档路径为$ORACLE_BASE/flash_recovery_area.对于这个路径,ORACLE有一个限制,就是默认只能有2G的空间给归档日志使用 ...

  9. Eclipse使当前项目依赖另一个项目

    实例说明 在Eclipse中可以创建多个项目实现不同的软件开发,也可以使用多个项目来开发单独的大型软件,每个项目负责单独的模块部门,这样可以使软件的模块分类更清晰,可以单独的维护每个模块部分.但是项目 ...

  10. return & finally 执行顺序 这是我读到的最合理的解释

    新词:return [expression]  栈顶元素 局部变量的快照 java方法是在栈幀中执行,栈幀是线程私有栈的单位,执行方法的线程会为每一个方法分配一小块栈空间来作为该方法执行时的内存空间, ...