定位  本文适合于想要了解新语言 Scala 以及异步并发编程框架 Akka, Future 的筒鞋. 读完本文后,将了解如何使用 ForkJoin 框架.如何使用 Akka 构建并发程序.如何使用 Future 进行异步编程,还有一系列小的编程点. 目标       实现十亿个不重复整数的排序, 由于文件外排序没有解决,因此,暂时实现的是一千万个不重复数,可以一次性加载到 2G 的内存里.  一. 任务拆分 首先要进行任务拆分.要实现一千万个不重复整数的排序, 可以拆分为三个子任务: (1)…
目标       实现一千万个不重复整数的排序,可以一次性加载到 2G 的内存里. 本文适合于想要了解新语言 Scala 并发异步编程框架 Akka, Future 的筒鞋. 读完本文后,将了解如何综合使用 ForkJoin 框架. Akka 模型.以及 Future 进行并发异步编程,还有一系列小的编程点. 任务拆分 首先要进行任务拆分.要实现一千万个不重复整数的排序, 可以拆分为三个子任务: (1)  生成一千万的不重复整数并写入文件 NumberGeneratorTask: (2) 从文件…
Java订单号生成,唯一订单号 相信大家都可以搜索到很多的订单的生成方式,不懂的直接百度.. 1.订单号需要具备以下几个特点. 1.1 全站唯一性. 1.2 最好可读性. 1.3 随机性,不能重复,同时效率高. 直接贴代码: 简单解释: 1.根据当前的时间戳以及apache commons自己带的随机数方法生成,效率极高,而且日均千万级别不重复. 2. 而且长度固定,数据库可以设置固定的长度.22位 测试结果非常的强悍.…
对于 A => B => C 这种 future 之间的操作,akka 默认会自动的按照顺序执行,但对于数据库操作来说,我们希望几个操作顺序执行,就需要使用语法来声明 有两种声明 future 先后关系的方法,第一种是 flatMap,第二种是 for import scala.concurrent.Future import scala.concurrent.ExecutionContext.Implicits.global import scala.concurrent.blocking…
存储qq的文件地址以及按照密码相似度排序的文件地址 //存储qq的文件的地址 ] = "QQ.txt"; //按照密码相似度排序的文件地址 ] = "QQpasswordsort.txt"; 标识qq一共有多少行 //文件一共有多少行 #define N 84331446 创建结构体存储密码,并把文件载入内存 //密码信息 struct info { ]; }; //指向所有结构体的指针 struct info *pall = NULL; //初始化 void in…
1 Bytes(字节) == 8 bit 1 KBytes == 1024 Bytes 思路: 1)申请长度为1亿的保存二进制位的数组 a, 2)通过位运算,将整数做为索引,将数组a对应的索引位置为1. 3)重复步骤2,直到最后一个整数放到数组中 4)从头开始遍历数组a,将值为1的索引id打印出来. python 提供了bytearray这个动态的字节数据,以下代码就用bytearray实现 class Bitmap: def __init__(self, num_bits:int): self…
勿止于结论:持续探索与求证. 概述 为什么要使用并发 ? 有三点足够信服的理由: 性能提升.单核 CPU 的性能基本抵达瓶颈,充分挖掘多核 CPU 的能力,使得性能提升变成水平可扩展的. 事件本质.世界的事件本质上是并行和并发进行的. 响应灵敏.为了构建响应更敏捷的应用,需要异步化处理,并发必不可少. 不过,并发使用姿势不当,很容易出错,导致难以估量的损失.可谓是一把双刃剑. 最近,团队有同学踩了并发的坑.我想,要不梳理下并发的一些陷阱及相关原理和解决方案吧,以备后用. 何时使用并发 并不是在所…
去年做了一个产品,会经常导入导出大量的外部数据,这些数据的ID有的是GUID类型,有的是字符串,也有的是自增.GUID类型没有顺序,结果要排序得借助其它业务字段,整体查询效率比较低:字符串ID本来是用来转换GUID的或者数字ID的,结果有些字符串ID不符合规范,常常有特殊数据需要处理:自增主键ID的数据导入合并经常有冲突. 为了避免GUID主键的“索引页分裂”问题,提高查询效率,同时为了解决分布式环境下的数据导入合并问题,强烈需要一种分布式的,有序的ID生成方案.我参考了雪花ID(Twitter…
并发与并行 并发:多个进程交替执行. 并行:多个进程同时进行,不存在线程的上下文切换. 并发与并行的目的都是使CPU的利用率达到最大.Fork/Join就是为了尽可能提高硬件的使用率而应运而生的. 计算密集型与IO密集型 计算密集型:也称之为CPU密集型,此时系统的硬盘,内存性能相对于CPU要很多.系统在运作的时候CPU是处于100% loading的状态,在系统完成磁盘的读写(I/O)以后,程序就会进行计算,在进行计算的时候CPU占用率是很高的.计算密集型任务最大的特点就是进行大量的计算,消耗…
第一章.spark源码分析之RDD四种依赖关系 一.RDD四种依赖关系 RDD四种依赖关系,分别是 ShuffleDependency.PrunDependency.RangeDependency和OneToOneDependency四种依赖关系.如下图所示:org.apache.spark.Dependency有两个一级子类,分别是 ShuffleDependency 和 NarrowDependency.其中,NarrowDependency 是一个抽象类,它有三个实现类,分别是OneToO…