如何随机获取数据库不连续ID的数据？

这个问题的来由是我朋友要为一网站实现一个标签云功能,和我交流后我给出了一个方案，在此略作记录，亦求拍砖。
大概需求这是样的:

在数据库有一张表A如下图:

其中id字段的值未必是连续的，现在我朋友要做的事情就是要从这张表获取条数据，但这5条数据是具有随机性的,比如可能是[6,2,5,10,17]

解决方案和推理过程如下:

1、先求出这张表最小和最大的id还有数据的条数, 设 min 为最小id, max为最大id， count为数据的条数

从上表得知 :

min=22;

max=1186;

count=16;

那么可用的连续的 IDS=[min,max],即从22到1186之间，但这之间有些id是没对应上数据的，比如如果某id是，那么在上表则没有对应的数据。根据要求需要从这张表随机取条数据，那么就是说我们可以从min到max之间随机产生个id,但问题来了，很明显从上表可以看出产生的这个id未必会是表中存在的id，那么就是说我们需要产生多少个

随机id才能保证至少能获取到条数据呢？推理过程如下:

表中不存在的ID数目=max-count=-=1170,就是说我们有个id是不存在上表中的，就是说我们至少要生产+个不同的id才能保证击中上表的某个id，如果需要击中n个id则的公式则为max-count+n，上面的要求是n=5，所以至少要生产的随机id为+=个id，然后我们可以组装select * from A where id in [1175个id] 的方式进行数据库查询了,这样我们就可以至少得到条随机的数据了。

从上表也可以看出一个问题，就是当id的不连续区间比较大的时候需要生产的随机id就要越多，比如上面的最大id是，而这张表却只有条数据,就是说count越接近max则需要生产的随机id则越少，则此算法的效率则越高。

PS1:

此前朋友也在网上搜索了一种解决方案，但我觉得不太好，所以就有了上面的文字。方案如下:

这个问题来自论坛提问。很多人都知道类似下面的语句

select top 2000 * from tb order by newid()

但是在海量数据下，它的性能是无法忍受的。这里我用一个变通的办法来实现性能的提升，思路为：表必须存在一个guid类型的主键或者索引列，然后用这个列去like一个随机字符串，随机字符串必须为guid规定的字符集合（数字+A到Z）。下面例子只用到了数字，并且只用了4个数字来匹配，你可以更改like后面的语句来调整这个策略。

--生成测试环境

use master

go

create table test(id uniqueidentifier,name varchar(100))

insert into test select newid(),name from syscolumns

--随机提取

select top 10 * from test where id like

char(48+abs(checksum(newid())%10))+　'%'+

char(48+abs(checksum(newid())%10))+　'%'+

char(48+abs(checksum(newid())%10))+　'%'+

char(48+abs(checksum(newid())%10))+'%'

--删除测试环境

drop table test

我测试了300万数据提取2000条，耗时大约1秒左右。另外提醒一点，索引对like语句是有效的。

PS2:

本文章还有一个朋友阿木的帮助才能得以完成，这种策略是我提出的，数学上的推理是阿木协助我完成的。再次感叹数学之重要。

PS3:

最后为朋友淘宝小店打个小广告:

http://keytag.taobao.com/

如何随机获取数据库不连续ID的数据？的更多相关文章

随机获取数据库中的某一条数据(基于yii2框架开发)
注意: 使用PHP函数array_rand()得到的是这个数组中的那个值相对应的下标键值,需要配合原来的数组进行,例如: $rand_keys = array_rand($ids,1); $id = ...
wireshark 获取指定进程id的数据
>netstat -aon | findstr 11380 TCP 191.127.1.7:57936 29.225.107.216:3734 ESTABLISHED 11380 过滤器: tc ...
使用 UEditor 编辑器获取数据库中的数据
在 ThinkPHP 3.2.2 中,使用 UEditor 编辑器获取数据库中保存的数据,可以使用 UEditor 自身提供的方法. 首先在视图模板中实例化编辑器,这是出现编辑器界面的必须的行为: & ...
随机获取oracle数据库中的任意一行数据(rownum)
最近看oracle资料的时候,了解rownum的概念,以前只知道对数据库表进行简单的增删改查: 看到了rownum的概念后,突然想到了好多业务场景应该都可以适用的,比如在进行随机发奖的时候, 我们就可 ...
如何准确高效的获取数据库新插入数据的主键id
例如我们新建了一张表UserInformation,字段如下Id,为主键,自增,其它字段Name,Pwd,Email 然后我们来执行一个新增插入操作: insert into UserInformat ...
使用SQL语句从数据库一个表中随机获取数据
-- 随机获取 10 条数据 SQL Server:SELECT TOP 10 * FROM T_USER ORDER BY NEWID() ORACLE:SELECT * FROM (SELECT ...
TP随机从数据库中获取一条数据
orderRaw('rand()'): /** * 随机获取一条商品信息 * @param [type] $condition * @param [type] $field * @param [typ ...
MySQL随机获取数据的方法，支持大数据量
最近做项目,需要做一个从mysql数据库中随机取几条数据出来. 总所周知,order by rand 会死人的..因为本人对大数据量方面的只是了解的很少,无解,去找百度老师..搜索结果千篇一律.特发到 ...
IOS FMDB 获取数据库表和表中的数据
ios开发中,经常会用到数据库sqlite的知识,除了增,删,改,查之外,我们说说如何获取数据库中有多少表和表相关的内容. 前言跟数据库使用相关的一般的增删改查的语句,这里就不做解释了.在网上有很多 ...

随机推荐

Java ArrayList、string、string[]之间的转换
1.ArrarList 转换为 string[] : ArrayList list = new ArrayList(); list.Add("aaa"); list.Add(&qu ...
用UIInterpolatingMotionEffect产生透视效果
用UIInterpolatingMotionEffect产生透视效果效果源码 https://github.com/YouXianMing/Animations // // MotionEffec ...
将win7电脑无线网变身WiFi热点，让手机、笔记本共享上网
1.以管理员身份运行命令提示符:快捷键win+R→输入cmd→回车 2.启用并设定虚拟WiFi网卡:运行命令:netsh wlan set hostednetwork mode=allow ssid= ...
gradle新建工程，多项目依赖，聚合工程
感谢gradle完全的文档.开始完全没想过新建项目会弄我一天时间,都说gradle构建项目简单,我现在回复他们呵呵. gradle是个非常复杂的工具,从他的完整包80M和72章官方文档就可以看出一二. ...
Spring Boot工程结构推荐程结构（最佳实践）
工程结构(最佳实践) Spring Boot框架本身并没有对工程结构有特别的要求,但是按照最佳实践的工程结构可以帮助我们减少可能会遇见的坑,尤其是Spring包扫描机制的存在,如果您使用最佳实践的工程 ...
Kyoto Cabinet 使用及原理
Kyoto Cabinet 基本规格书如果你知道 Tokyo Cabinet ,那么就应该知道 Kyoto Cabinet,因为他们都是同一个作者(平林幹雄)开发出来的 Key-Value 数据库. ...
非常精简的Linux线程池实现（一）——使用互斥锁和条件变量
线程池的含义跟它的名字一样,就是一个由许多线程组成的池子. 有了线程池,在程序中使用多线程变得简单.我们不用再自己去操心线程的创建.撤销.管理问题,有什么要消耗大量CPU时间的任务通通直接扔到线程池里 ...
Win7局域网打印机共享设置（详细图文流程）
本文将向读者说明在Win7下如何实现同个局域网内共享打印机.经过测试,Win7之间和Win7与XP之间均可正常连接. 第一步:取消禁用Guest用户 1. 点击[开始]按钮,在[计算机]上右键,选择[ ...
Spark简介及其在ubuntu下的安装使用
转:http://blog.csdn.net/pelick/article/details/9888311 Spark概述 Spark是一种与 Hadoop 相似的开源集群计算环境,在性能和迭代计算上 ...
java 从网络Url中下载文件（转）
http://blog.csdn.net/xb12369/article/details/40543649/ /** * 从网络Url中下载文件 * @param urlStr ...

如何随机获取数据库不连续ID的数据？

如何随机获取数据库不连续ID的数据？的更多相关文章

随机推荐

热门专题