为什么？为什么？Java处理排序后的数组比没有排序的快？想过没有？

先看再点赞，给自己一点思考的时间，微信搜索【沉默王二】关注这个有颜值却假装靠才华苟且的程序员。
本文 GitHub github.com/itwanger 已收录，里面还有我精心为你准备的一线大厂面试题。

今天周日，没什么重要的事情要做，于是我早早的就醒来了。看了一会渡边淳一的书，内心逐渐感到平静——心情不佳的时候，书好像是最好的药物。心情平静了，就需要做一些更有意义的事情——逛技术网站，学习精进。

Stack Overflow 是我最喜欢逛的一个网站，它是我 Chrome 浏览器的第一个书签。里面有很多很多经典的问题，其中一些回答，剖析得深入我心。就比如说这个：“为什么处理排序后的数组比没有排序的快？”

毫无疑问，直观印象里，排序后的数组处理起来就是要比没有排序的快，甚至不需要理由，就好像我们知道“夏天吃冰激凌就是爽，冬天穿羽绒服就是暖和”一样。

但本着“知其然知其所以然”的态度，我们确实需要去搞清楚到底是为什么？

来看一段 Java 代码：

/**
 * @author 沉默王二，一枚有趣的程序员
 */
public class SortArrayFasterDemo {
    public static void main(String[] args) {
        // 声明数组
        int arraySize = 32768;
        int data[] = new int[arraySize];

        Random rnd = new Random(0);
        for (int c = 0; c < arraySize; ++c) {
            data[c] = rnd.nextInt() % 256;
        }

        // !!! 排序后，比没有排序要快
        Arrays.sort(data);

        // 测试
        long start = System.nanoTime();
        long sum = 0;

        for (int i = 0; i < 100000; ++i)
        {
            // 循环
            for (int c = 0; c < arraySize; ++c)
            {
                if (data[c] >= 128) {
                    sum += data[c];
                }
            }
        }

        System.out.println((System.nanoTime() - start) / 1000000000.0);
        System.out.println("sum = " + sum);
    }
}

这段代码非常简单，我来解释一下：

声明一个指定长度（32768）的数组。
声明一个 Random 随机数对象，种子是 0；rnd.nextInt() % 256 将会产生一个余数，余数的绝对值在 0 到 256 之间，包括 0，不包括 256，可能是负数；使用余数对数组进行填充。
使用 Arrays.sort() 进行排序。
通过 for 循环嵌套计算数组累加后的结果，并通过 System.nanoTime() 计算前后的时间差，精确到纳秒级。

我本机的环境是 Mac OS，内存 16 GB，CPU Intel Core i7，IDE 用的是 IntelliJ IDEA，排序后和未排序后的结果如下：

排序后：2.811633398
未排序：9.41434346

时间差还是很明显的，对吧？未排序的时候，等待结果的时候让我有一种担心：什么时候结束啊？不会结束不了吧？

读者朋友们有没有玩过火炬之光啊？一款非常经典的单机游戏，每一个场景都有一副地图，地图上有很多分支，但只有一个分支可以通往下一关；在没有刷图之前，地图是模糊的，玩家并不知道哪一条分支是正确的。

如果侥幸跑的是一条正确的分支，那么很快就能到达下一关；否则就要往回跑，寻找正确的那条分支，需要花费更多的时间，但同时也会收获更多的经验和声望。

作为一名玩过火炬之光很久的老玩家，几乎每一幅地图我都刷过很多次，刷的次数多了，地图差不多就刻进了我的脑袋，即便是一开始地图是模糊的，我也能凭借经验和直觉找到最正确的那条分支，就省了很多折返跑的时间。

读者朋友们应该注意到了，上面的代码中有一个 if 分支——if (data[c] >= 128)，也就是说，如果数组中的值大于等于 128，则对其进行累加，否则跳过。

那这个代码中的分支就好像火炬之光中的地图分支，如果处理器能够像我一样提前预判，那累加的操作就会快很多，对吧？

处理器的内部结构我是不懂的，但它应该和我的大脑是类似的，遇到 if 分支的时候也需要停下来，猜一猜，到底要不要继续，如果每次都猜对，那显然就不需要折返跑，浪费时间。

这就是传说中的分支预测！

我需要刷很多次图才能正确地预测地图上的路线，处理器需要排序才能提高判断的准确率。

计算机发展了这么多年，已经变得非常非常聪明，对于条件的预测通常能达到 90% 以上的命中率。但是，如果分支是不可预测的，那处理器也无能为力啊，对不对？

排序后花费的时间少，未排序花费的时间多，罪魁祸首就在 if 语句上。

if (data[c] >= 128) {
    sum += data[c];
}

数组中的值是均匀分布的（-255 到 255 之间），至于是怎么均匀分布的，我们暂且不管，反正由 Random 类负责。

为了方便讲解，我们暂时忽略掉负数的那一部分，从 0 到 255 说起。

来看经过排序后的数据：

data[] = 0, 1, 2, 3, 4, ... 126, 127, 128, 129, 130, ... 250, 251, 252, ...
branch = N  N  N  N  N  ...   N    N    T    T    T  ...   T    T    T  ...

       = NNNNNNNNNNNN ... NNNNNNNTTTTTTTTT ... TTTTTTTTTT

N 是小于 128 的，将会被 if 条件过滤掉；T 是将要累加到 sum 中的值。

再来看未排序的数据：

data[] = 226, 185, 125, 158, 198, 144, 217, 79, 202, 118,  14, 150, 177, 182, 133, ...
branch =   T,   T,   N,   T,   T,   T,   T,  N,   T,   N,   N,   T,   T,   T,   N  ...

       = TTNTTTTNTNNTTTN ...

完全没有办法预测。

对比过后，就能发现，排序后的数据在遇到分支预测的时候，能够轻松地过滤掉 50% 的数据，对吧？是有规律可循的。

那假如说不想排序，又想节省时间，有没有办法呢？

如果你直接问我的话，我肯定毫无办法，两手一摊，一副无奈脸。不过，Stack Overflow 以上帝视角给出了答案。

把：

if (data[c] >= 128) {
    sum += data[c];
}

更换为：

int t = (data[c] - 128) >> 31;
sum += ~t & data[c];

通过位运算消除了 if 分支（并不完全等同），但我测试了一下，计算后的 sum 结果是相同的。

/**
 * @author 沉默王二，一枚有趣的程序员
 */
public class SortArrayFasterDemo {
    public static void main(String[] args) {
        // 声明数组
        int arraySize = 32768;
        int data[] = new int[arraySize];

        Random rnd = new Random();
        for (int c = 0; c < arraySize; ++c) {
            data[c] = rnd.nextInt() % 256;
        }

        // 测试
        long start = System.nanoTime();
        long sum = 0;

        for (int i = 0; i < 100000; ++i)
        {
            // 循环
            for (int c = 0; c < arraySize; ++c)
            {
                if (data[c] >= 128) {
                    sum += data[c];
                }
            }
        }

        System.out.println((System.nanoTime() - start) / 1000000000.0);
        System.out.println("sum = " + sum);

        // 测试
        long start1 = System.nanoTime();
        long sum1 = 0;

        for (int i = 0; i < 100000; ++i)
        {
            // 循环
            for (int c = 0; c < arraySize; ++c)
            {
                int t = (data[c] - 128) >> 31;
                sum1 += ~t & data[c];
            }
        }

        System.out.println((System.nanoTime() - start1) / 1000000000.0);
        System.out.println("sum1 = " + sum1);
    }
}

输出结果如下所示：

8.734795196
sum = 156871800000
1.596423307
sum1 = 156871800000

数组累加后的结果是相同的，但时间上仍然差得非常多，这说明时间确实耗在分支预测上——如果数组没有排序的话。

最后，不得不说一句，大神级程序员不愧是大神级程序员，懂得位运算的程序员就是屌。

建议还在读大学的读者朋友多读一读《计算机操作系统原理》这种涉及到底层的书，对成为一名优秀的程序员很有帮助。毕竟大学期间，学习时间充分，社会压力小，能够做到心无旁骛，加油！

我是沉默王二，一枚有颜值却假装靠才华苟且的程序员。关注即可提升学习效率，别忘了三连啊，点赞、收藏、留言，我不挑，奥利给。

注：如果文章有任何问题，欢迎毫不留情地指正。

如果你觉得文章对你有些帮助，欢迎微信搜索「沉默王二」第一时间阅读，回复关键字「小白」可以免费获取我肝了 4 万+字的《Java 小白从入门到放肆》2.0 版；本文 GitHub github.com/itwanger 已收录，欢迎 star。

为什么？为什么？Java处理排序后的数组比没有排序的快？想过没有？的更多相关文章

java面试题：已知一个数组[2,4,6,2,1,5],将该数组进行排序（降序，不能用工具类进行排序），创建两条线程交替输出排序后的数组，线程名自定义
package com.swift; import java.util.Arrays; import java.util.Comparator; public class ArrayThread_Te ...
9.11排序与查找（三）——给定一个排序后的数组，包括n个整数，但这个数组已被旋转过多次，找出数组中的某个元素
/** * 功能:给定一个排序后的数组.包括n个整数.但这个数组已被旋转过多次,次数不详.找出数组中的某个元素. * 能够假定数组元素原先是按从小到大的顺序排列的. */ /** * 思路:数组 ...
9.11排序与查找（一）——给定两个排序后的数组A和B，当中A的末端有足够的缓冲空间容纳B。将B合并入A并排序
/** * 功能:给定两个排序后的数组A和B,当中A的末端有足够的缓冲空间容纳B.将B合并入A并排序. */ /** * 问题:假设将元素插入数组A的前端,就必须将原有的元素向后移动,以腾出空间. ...
Java数据结构和算法之数组与简单排序
一.数组于简单排序数组数组(array)是相同类型变量的集合,可以使用共同的名字引用它.数组可被定义为任何类型,可以是一维或多维.数组中的一个特别要素是通过下标来访问它.数组提供了一种将有联系的信 ...
iOS数组排序请求后，数组元素的排序时间戳，最热，点赞数等
[ZOYSessionManager dataWithUrlString:GetVideoDataComment andParameter:@{@"id":userID,@&quo ...
jquery Nestable 获取改变排序后的json数据拖动排序
<script type="text/javascript"> jQuery(function($){ $('.dd').nestable(); $('.dd-hand ...
Javascript 数组自定义排序，并获取排序后的保存原索引的同序数组(堆排序实现)
比如数组A: [ 0: 5, 1: 2, 2: 4, 3: 3, 4: 1 ] 排序后的结果为:[1, 2, 3, 4, 5],但是有时候会有需求想要保留排序前的位置到一个同位数组里,如前例则为:[4 ...
几种排序方式的java实现(01:插入排序，冒泡排序，选择排序，快速排序)
以下为集中排序的java代码实现(部分是在引用别人代码): 插入排序(InsertSort): //代码原理 public static void iSort(int[] a){ for(int i ...
数组Array.sort()排序的方法
数组sort排序 sort比较次数,sort用法,sort常用描述方法sort()将在原数组上对数组元素进行排序,即排序时不创建新的数组副本.如果调用方法sort()时没有使用参数,将按字母顺序( ...

随机推荐

Kafka 入门（三）--为什么 Kafka 依赖 ZooKeeper？
一.ZooKeeper 简介 1.基本介绍 ZooKeeper 的官网是:https://zookeeper.apache.org/.在官网上是这么介绍 ZooKeeper 的:ZooKeeper 是 ...
Django学习路16_获取学生所在的班级名
在 urls.py 中先导入getgrades from django.conf.urls import url from app5 import views urlpatterns = [ url( ...
使用property取代getter和setter方法
class Days(object): def __init__(self): self.__days = 0 @property def days(self):#获取函数,名字是days days ...
PHP 超级全局变量讲解
PHP 超级全局变量超级全局变量在PHP 4.1.0之后被启用, 是PHP系统中自带的变量,在一个脚本的全部作用域中都可用. PHP 超级全局变量 PHP中预定义了几个超级全局变量(superglo ...
CF802C Heidi and Library hard 费用流区间k覆盖问题
LINK:Heidi and Library 先说一下简单版本的就是权值都为1. 一直无脑加书然后发现会引起冲突,可以发现此时需要扔掉一本书. 扔掉的话可以考虑扔掉哪一本是最优的可以发现扔掉n ...
CF 题目选做
写省选的题目对noip没什么大用关键是细节题或者是思考题比较重要练思维自然是CF比较好了把我见到的比较好的CF题放上来刷一刷. LINK:Complete the projects 就是说一个 ...
Jmeter TCP协议性能测试
最近有在做tcp协议性能测试,总结一下遇到的坑吧. 首先呢,我这边用的是16进制的报文: (1)TCPClient classname:org.apache.jmeter.protocol.tcp.s ...
python数据处理PDF高清电子书
点击获取提取码:jzgv 内容简介本书采用基于项目的方法,介绍用Python完成数据获取.数据清洗.数据探索.数据呈现.数据规模化和自动化的过程.主要内容包括:Python基础知识,如何从CSV.E ...
用python包xlwt将数据写入Excel中
一般用两种格式的数据写入,不多说放上demo. 1.列表形式写入 import xlwt def data_write(file_path, datas): f = xlwt.Workbook() s ...
syslog协议及rsyslog服务全解析
背景:需求来自于一个客户想将服务器的日志转发到自己的日志服务器上,所以希望我们能提供这个转发的功能,同时还要满足syslog协议. 一.什么是syslog协议 1.介绍(略) 2.syslog标准协议 ...

为什么？为什么？Java处理排序后的数组比没有排序的快？想过没有？

为什么？为什么？Java处理排序后的数组比没有排序的快？想过没有？的更多相关文章

随机推荐

热门专题