混合使用 ForkJoin, Akka, Future 实现一千万个不重复整数的排序

【混合使用 ForkJoin, Akka, Future 实现一千万个不重复整数的排序】的更多相关文章

混合使用 ForkJoin, Akka, Future 实现一千万个不重复整数的排序

定位本文适合于想要了解新语言 Scala 以及异步并发编程框架 Akka, Future 的筒鞋. 读完本文后,将了解如何使用 ForkJoin 框架.如何使用 Akka 构建并发程序.如何使用 Future 进行异步编程,还有一系列小的编程点. 目标实现十亿个不重复整数的排序, 由于文件外排序没有解决,因此,暂时实现的是一千万个不重复数,可以一次性加载到 2G 的内存里. 一. 任务拆分首先要进行任务拆分.要实现一千万个不重复整数的排序, 可以拆分为三个子任务: (1)…

混合使用ForkJoin+Actor+Future实现一千万个不重复整数的排序(Scala示例)

目标实现一千万个不重复整数的排序,可以一次性加载到 2G 的内存里. 本文适合于想要了解新语言 Scala 并发异步编程框架 Akka, Future 的筒鞋. 读完本文后,将了解如何综合使用 ForkJoin 框架. Akka 模型.以及 Future 进行并发异步编程,还有一系列小的编程点. 任务拆分首先要进行任务拆分.要实现一千万个不重复整数的排序, 可以拆分为三个子任务: (1) 生成一千万的不重复整数并写入文件 NumberGeneratorTask: (2) 从文件…

Java订单号生成，唯一订单号（日均千万级别不重复）

Java订单号生成,唯一订单号相信大家都可以搜索到很多的订单的生成方式,不懂的直接百度.. 1.订单号需要具备以下几个特点. 1.1 全站唯一性. 1.2 最好可读性. 1.3 随机性,不能重复,同时效率高. 直接贴代码: 简单解释: 1.根据当前的时间戳以及apache commons自己带的随机数方法生成,效率极高,而且日均千万级别不重复. 2. 而且长度固定,数据库可以设置固定的长度.22位测试结果非常的强悍.…

scala akka Future 顺序执行 sequential execution

对于 A => B => C 这种 future 之间的操作,akka 默认会自动的按照顺序执行,但对于数据库操作来说,我们希望几个操作顺序执行,就需要使用语法来声明有两种声明 future 先后关系的方法,第一种是 flatMap,第二种是 for import scala.concurrent.Future import scala.concurrent.ExecutionContext.Implicits.global import scala.concurrent.blocking…

86.八千万qq密码按相似度排序并统计密码出现次数,生成密码库

存储qq的文件地址以及按照密码相似度排序的文件地址 //存储qq的文件的地址 ] = "QQ.txt"; //按照密码相似度排序的文件地址 ] = "QQpasswordsort.txt"; 标识qq一共有多少行 //文件一共有多少行 #define N 84331446 创建结构体存储密码,并把文件载入内存 //密码信息 struct info { ]; }; //指向所有结构体的指针 struct info *pall = NULL; //初始化 void in…

使用bitmap实现对一千万个无重复的正整数（范围1~1亿）快速排序

1 Bytes(字节) == 8 bit 1 KBytes == 1024 Bytes 思路: 1)申请长度为1亿的保存二进制位的数组 a, 2)通过位运算,将整数做为索引,将数组a对应的索引位置为1. 3)重复步骤2,直到最后一个整数放到数组中 4)从头开始遍历数组a,将值为1的索引id打印出来. python 提供了bytearray这个动态的字节数据,以下代码就用bytearray实现 class Bitmap: def __init__(self, num_bits:int): self…

Java并发的若干基本陷阱、原理及解决方案

勿止于结论:持续探索与求证. 概述为什么要使用并发 ? 有三点足够信服的理由: 性能提升.单核 CPU 的性能基本抵达瓶颈,充分挖掘多核 CPU 的能力,使得性能提升变成水平可扩展的. 事件本质.世界的事件本质上是并行和并发进行的. 响应灵敏.为了构建响应更敏捷的应用,需要异步化处理,并发必不可少. 不过,并发使用姿势不当,很容易出错,导致难以估量的损失.可谓是一把双刃剑. 最近,团队有同学踩了并发的坑.我想,要不梳理下并发的一些陷阱及相关原理和解决方案吧,以备后用. 何时使用并发并不是在所…

每秒生成一千万个【可视有序】分布式ID的简单方案

去年做了一个产品,会经常导入导出大量的外部数据,这些数据的ID有的是GUID类型,有的是字符串,也有的是自增.GUID类型没有顺序,结果要排序得借助其它业务字段,整体查询效率比较低:字符串ID本来是用来转换GUID的或者数字ID的,结果有些字符串ID不符合规范,常常有特殊数据需要处理:自增主键ID的数据导入合并经常有冲突. 为了避免GUID主键的“索引页分裂”问题,提高查询效率,同时为了解决分布式环境下的数据导入合并问题,强烈需要一种分布式的,有序的ID生成方案.我参考了雪花ID(Twitter…

并发编程之Fork/Join

并发与并行并发:多个进程交替执行. 并行:多个进程同时进行,不存在线程的上下文切换. 并发与并行的目的都是使CPU的利用率达到最大.Fork/Join就是为了尽可能提高硬件的使用率而应运而生的. 计算密集型与IO密集型计算密集型:也称之为CPU密集型,此时系统的硬盘,内存性能相对于CPU要很多.系统在运作的时候CPU是处于100% loading的状态,在系统完成磁盘的读写(I/O)以后,程序就会进行计算,在进行计算的时候CPU占用率是很高的.计算密集型任务最大的特点就是进行大量的计算,消耗…

spark源码分析以及优化

第一章.spark源码分析之RDD四种依赖关系一.RDD四种依赖关系 RDD四种依赖关系,分别是 ShuffleDependency.PrunDependency.RangeDependency和OneToOneDependency四种依赖关系.如下图所示:org.apache.spark.Dependency有两个一级子类,分别是 ShuffleDependency 和 NarrowDependency.其中,NarrowDependency 是一个抽象类,它有三个实现类,分别是OneToO…