伪共享FalseShare

什么是共享

下图是计算的基本结构。L1、L2、L3分别表示一级缓存、二级缓存、三级缓存，越靠近CPU的缓存，速度越快，容量也越小。所以L1缓存很小但很快，并且紧靠着在使用它的CPU内核；L2大一些，也慢一些，并且仍然只能被一个单独的CPU核使用；L3更大、更慢，并且被单个插槽上的所有CPU核共享；最后是主存，由全部插槽上的所有CPU核共享。

当CPU执行运算的时候，它先去L1查找所需的数据、再去L2、然后是L3，如果最后这些缓存中都没有，所需的数据就要去主内存拿。走得越远，运算耗费的时间就越长。所以如果你在做一些很频繁的事，你要尽量确保数据在L1缓存中。

另外，线程之间共享一份数据的时候，需要一个线程把数据写回主存，而另一个线程访问主存中相应的数据。

下面是从CPU访问不同层级数据的时间概念:

可见CPU读取主存中的数据会比从L1中读取慢了近2个数量级。

缓存行

Cache是由很多个cache line组成的。在程序运行的过程中，缓存每次更新都从主内存中加载连续的64个字节。因此，如果访问一个long类型的数组时，当数组中的一个值被加载到缓存中时，另外7个元素也会被加载到缓存中。但是，如果使用的数据结构中的项在内存中不是彼此相邻的，比如链表，那么将得不到免费缓存加载带来的好处。不过，这种免费加载也有一个坏处。设想如果我们有个long类型的变量a，它不是数组的一部分，而是一个单独的变量，并且还有另外一个long类型的变量b紧挨着它，那么当加载a的时候将免费加载b。看起来似乎没有什么问题，但是如果一个cpu核心的线程在对a进行修改，另一个cpu核心的线程却在对b进行读取。当前者修改a时，会把a和b同时加载到前者核心的缓存行中，更新完a后其它所有包含a的缓存行都将失效，因为其它缓存中的a不是最新值了。而当后者读取b时，发现这个缓存行已经失效了，需要从主内存中重新加载。缓存都是以缓存行作为一个单位来处理的，所以失效a的缓存的同时，也会把b失效，反之亦然。

下面的例子是测试利用cache line的特性和不利用cache line的特性的效果对比。输出结果为：

Loop times:11ms

Loop times:46ms

public class Test {

    static  long[][] arr;

    public static void main(String[] args) {

        arr = new long[1024 * 1024][];

        for (int i = 0; i < 1024 * 1024; i++) {

            arr[i] = new long[8];

            for (int j = 0; j < 8; j++) {

                arr[i][j] = 0L;

            }

        }

        long sum = 0L;

        long marked = System.currentTimeMillis();

        for (int i = 0; i < 1024 * 1024; i+=1) {

            for(int j =0; j< 8;j++){

                sum = arr[i][j];

            }

        }

        System.out.println("Loop times:" + (System.currentTimeMillis() - marked) + "ms");

        marked = System.currentTimeMillis();

        for (int i = 0; i < 8; i+=1) {

            for(int j =0; j< 1024 * 1024;j++){

                sum = arr[j][i];

            }

        }

        System.out.println("Loop times:" + (System.currentTimeMillis() - marked) + "ms");

    }

}

如何避免伪共享

以以下代码为例：

不做处理的情况：用时2519ms

public class FalseSharingTest {

    public static void main(String[] args) throws InterruptedException {

        testPointer(new Pointer());

    }

    private static void testPointer(Pointer pointer) throws InterruptedException {

        long start = System.currentTimeMillis();

        Thread t1 = new Thread(() -> {

            for (int i = 0; i < 100000000; i++) {

                pointer.x++;

            }

        });

        Thread t2 = new Thread(() -> {

            for (int i = 0; i < 100000000; i++) {

                pointer.y++;

            }

        });

        t1.start();

        t2.start();

        t1.join();

        t2.join();

        System.out.println(System.currentTimeMillis() - start);

        System.out.println(pointer);

    }

}

class Pointer {

    volatile long x;

    volatile long y;

}

1）让不同线程操作的对象处于不同的缓存行

可以进行缓存行填充（Padding）。例如，如果一条缓存行有 64 字节，而 Java 程序的对象头固定占 8 字节(32位系统)或 12 字节( 64 位系统默认开启压缩, 不开压缩为 16 字节)，所以我们只需要填 6 个无用的长整型补上6*8=48字节，让不同的 VolatileLong 对象处于不同的缓存行，就避免了伪共享( 64 位系统超过缓存行的 64 字节也无所谓，只要保证不同线程不操作同一缓存行就可以)。

用时599ms

class Pointer {

    volatile long x;

    long p1, p2, p3, p4, p5, p6, p7;

    volatile long y;

}

2）使用@sun.misc.Contended注解（java8）

@sun.misc.Contended 是 Java 8 新增的一个注解，对某字段加上该注解则表示该字段会单独占用一个缓存行（Cache Line）。

这里的缓存行是指 CPU 缓存（L1、L2、L3）的存储单元，常见的缓存行大小为 64 字节。

（注：JVM 添加 -XX:-RestrictContended 参数后 @sun.misc.Contended 注解才有效）

用时613ms，这种方式不加-XX:-RestrictContended也可以使用，没有搞明白为什么。

@sun.misc.Contended

class Pointer {

    volatile long x;

    volatile long y;

}

或者：（用时613ms）

class Pointer {

    @sun.misc.Contended

    volatile long x;

    @sun.misc.Contended

    volatile long y;

}

伪共享并不是一定要解决

解决伪共享主要适用于频繁写的共享数据上。如果不是频繁写的数据，那么 CPU 缓存行被锁的几率就不多，所以没必要使用了，否则不仅占空间还会浪费 CPU 访问操作数据的时间。