[SPDK/NVMe存储技术分析]006

在多核(SMP)多线程的情况下，如果不知道CPU乱序执行的话，将会是一场噩梦，因为无论怎么进行代码Review也不可能发现跟内存屏障(MB)相关的Bug。内存屏障分为两类：

跟编译有关的内存屏障: 告诉编译器，不要优化我，俺不需要
跟CPU有关的内存屏障: 告诉CPU, 不要乱序执行，谢谢

1. NVMeDirect中的内存屏障

/* nvmedirect/include/lib_nvmed.h */

38 #define COMPILER_BARRIER() asm volatile("" ::: "memory")

由于NVMeDirect依赖于Linux内核的NVMe驱动(nvme.ko)实现，所以NVMeDirect并不需要实现它自己的与CPU相关的内存屏障。

2. SPDK中的内存屏障

/* src/spdk-17.07.1/include/spdk/barrier.h */

47 /** Compiler memory barrier */

48 #define spdk_compiler_barrier() __asm volatile("" ::: "memory")

49

50 /** Write memory barrier */

51 #define spdk_wmb()              __asm volatile("sfence" ::: "memory")

52

53 /** Full read/write memory barrier */

54 #define spdk_mb()               __asm volatile("mfence" ::: "memory")

在SPDK中，不仅实现了与编译相关的内存屏障，还实现了与CPU有关的内存屏障。但是，在与CPU有关的MB中，读内存屏障(Read memory barrier)并没有实现。

3. DPDK中的内存屏障

在DPDK中，内存屏障的实现要复杂一点，因为支持x86, ARM和PowerPC三种平台。以x86为例，代码实现如下：

与编译相关的MB

/* src/dpdk-17.08/lib/librte_eal/common/include/generic/rte_atomic.h */

132 /**

133  * Compiler barrier.

134  *

135  * Guarantees that operation reordering does not occur at compile time

136  * for operations directly before and after the barrier.

137  */

138 #define rte_compiler_barrier() do {             \

139         asm volatile ("" : : : "memory");       \

140 } while(0)

与CPU相关的MB

/* src/dpdk-17.08/lib/librte_eal/common/include/arch/x86/rte_atomic.h */

52 #define rte_mb()             _mm_mfence()

54 #define rte_wmb()            _mm_sfence()

56 #define rte_rmb()            _mm_lfence()

58 #define rte_smp_mb()         rte_mb()

60 #define rte_smp_wmb()        rte_compiler_barrier()

62 #define rte_smp_rmb()        rte_compiler_barrier()

64 #define rte_io_mb()          rte_mb()

66 #define rte_io_wmb()         rte_compiler_barrier()

68 #define rte_io_rmb()         rte_compiler_barrier()

另外，DPDK在对ARM32的MB支持中，使用了gcc的内嵌函数__sync_synchronize(), 例如：

/* src/dpdk-17.08/lib/librte_eal/common/include/arch/arm/rte_atomic_32.h */

52 #define rte_mb()  __sync_synchronize()

60 #define rte_wmb() do { asm volatile ("dmb st" : : : "memory"); } while (0)

68 #define rte_rmb() __sync_synchronize()

于是，让我们反汇编看看gcc的__sync_synchronize()到底是怎么回事。

$ cat -n foo.c

     1  int main(int argc, char *argv[])

     2  {

     3          int n = 0x1;

     4          __sync_synchronize();

     5          return ++n;

     6  }

$ gcc -g -Wall -m32 -o foo foo.c

$ gdb foo

...<snip>...

(gdb) disas /m main

Dump of assembler code for function main:

2       {

   0x080483ed <+0>:     push   %ebp

   0x080483ee <+1>:     mov    %esp,%ebp

   0x080483f0 <+3>:     sub    $0x10,%esp

3               int n = 0x1;

   0x080483f3 <+6>:     movl   $0x1,-0x4(%ebp)

4               __sync_synchronize();

   0x080483fa <+13>:    lock orl $0x0,(%esp)

5               return ++n;

   0x080483ff <+18>:    addl   $0x1,-0x4(%ebp)

   0x08048403 <+22>:    mov    -0x4(%ebp),%eax

6       }

   0x08048406 <+25>:    leave

   0x08048407 <+26>:    ret

End of assembler dump.

$ gcc -g -Wall -m64 -o foo foo.c

$ gdb foo

...<snip>...

(gdb) disas /m main

Dump of assembler code for function main:

2       {

   0x00000000004004d6 <+0>:     push   %rbp

   0x00000000004004d7 <+1>:     mov    %rsp,%rbp

   0x00000000004004da <+4>:     mov    %edi,-0x14(%rbp)

   0x00000000004004dd <+7>:     mov    %rsi,-0x20(%rbp)

3               int n = 0x1;

   0x00000000004004e1 <+11>:    movl   $0x1,-0x4(%rbp)

4               __sync_synchronize();

   0x00000000004004e8 <+18>:    mfence

5               return ++n;

   0x00000000004004eb <+21>:    addl   $0x1,-0x4(%rbp)

   0x00000000004004ef <+25>:    mov    -0x4(%rbp),%eax

6       }

   0x00000000004004f2 <+28>:    pop    %rbp

   0x00000000004004f3 <+29>:    retq

End of assembler dump.

因为没有ARM平台，就在x86上分别进行32位和64位的编译，于是发现__sync_synchronize()对应的汇编指令是

32位

4               __sync_synchronize();

   0x080483fa <+13>:    lock orl $0x0,(%esp)

64位

4               __sync_synchronize();

   0x00000000004004e8 <+18>:    mfence

关于lock指令前缀和mfence指令，后面再讲。

4. Linux内核中的内存屏障

Linux内核支持很多种平台，这里仅以x86为例：

/* linux-4.11.3/arch/x86/include/asm/barrier.h */

13 #ifdef CONFIG_X86_32

14 #define mb()  asm volatile(ALTERNATIVE("lock; addl $0,0(%%esp)", "mfence", \

15                                        X86_FEATURE_XMM2) ::: "memory", "cc")

16 #define rmb() asm volatile(ALTERNATIVE("lock; addl $0,0(%%esp)", "lfence", \

17                                        X86_FEATURE_XMM2) ::: "memory", "cc")

18 #define wmb() asm volatile(ALTERNATIVE("lock; addl $0,0(%%esp)", "sfence", \

19                                        X86_FEATURE_XMM2) ::: "memory", "cc")

20 #else

21 #define mb()    asm volatile("mfence" ::: "memory")

22 #define rmb()   asm volatile("lfence" ::: "memory")

23 #define wmb()   asm volatile("sfence" ::: "memory")

24 #endif

5. 总结

5.1 在x86_64平台上实现内存屏障（MB）

从NVMeDirect到SPDK, 再到DPDK和Linux内核, 我们可以得出在x86_64平台上，与内存屏障（MB）有关的实现可归纳为：

与编译有关的MB实现

#define XXX_compiler_barrier()          asm volatile(""       ::: "memory")

与CPU有关的MB实现

#define XXX_mb                          asm volatile("mfence" ::: "memory")

#define XXX_rmb                         asm volatile("lfence" ::: "memory")

#define XXX_wmb                         asm volatile("sfence" ::: "memory")

其中，

volatile是C语言的关键字，主要目的是告诉编译器不要做优化。关于volatile的说明，请参考这里。
mfence是汇编指令，用于设定读写屏障（Memory）。有关mfence指令，请参考这里。
lfence是汇编指令，用于设定读屏障 (Load)。
sfence也是汇编指令, 用于设定写屏障 (Store)。

5.2 lock指令前缀

lock指令前缀与原子操作有关。对于Lock指令前缀的总线锁，早期CPU芯片上有一条引线#HLOCK pin, 如果汇编语言的程序中在一条指令前面加上前缀"lock"(表示锁总线)，经过汇编以后的机器码就使CPU在执行这条指令的时候把#HLOCK pin的电平拉低，持续到这条指令结束时放开，从而把总线锁住，这样同一总线上的别的CPU就暂时不能通过总线访问内存了，保证了这条指令在多CPU环境中的原子性。

5.3 使用CPU内存屏障的根本原因

在SMP(对称多处理器)中，CPU是多核的，每个核有自己的cache，读写内存都先通过cache。然而内存只有一个，核有多个，也就是说，同一份数据在内存中只有一份，但却可能同时存在于多个cache line中。那么，如何进行同步？答案就是原子操作，注意原子操作的前提是独占。假如一个变量X同时存在于核1和核2的cache line中，那么当核1想要对X进行"原子加(atomic add)"的时候必须先独占这个变量X，也就是告诉核2变量X的值在你的cache line已经失效了，以后想要操作X的时候到哥哥我这里来取最新的值。这看起来非常像锁，但是没有用到锁。(P.S.: 无锁队列的实现其实都离不开原子操作) 因此，我们可以这么认为，内存屏障(mb, wmb, rmb)的本质是用来在CPU各个核的cache line中进行通信，保证内存数据的更新具有原子性。

扩展阅读：

Paper: Memory Barriers: a Hardware View for Software Hackers
Paper: Mathematizing C++ Concurrency
Wikipedia: https://en.wikipedia.org/wiki/Memory_barrier
Blog: 巧夺天工的kfifo(修订版)
Blog: Linux 2.6内核中新的锁机制--RCU

People seldom do what they believe in. They do what is convenient, then repent.  | 人们很少做他们相信是对的事。他们做比较方便做的事，然后便会后悔。

[SPDK/NVMe存储技术分析]006 - 内存屏障(MB)的更多相关文章

[SPDK/NVMe存储技术分析]008 - RDMA概述
毫无疑问地,用来取代iSCSI/iSER(iSCSI Extensions for RDMA)技术的NVMe over Fabrics着实让RDMA又火了一把.在介绍NVMe over Fabrics ...
[SPDK/NVMe存储技术分析]004 - SSD设备的发现
源代码及NVMe协议版本 SPDK : spdk-17.07.1 DPDK : dpdk-17.08 NVMe Spec: 1.2.1 基本分析方法 01 - 到官网http://www.spdk.i ...
[SPDK/NVMe存储技术分析]003 - NVMeDirect论文
说明: 之所以要翻译这篇论文,是因为参考此论文可以很好地理解SPDK/NVMe的设计思想. NVMeDirect: A User-space I/O Framework for Application ...
[SPDK/NVMe存储技术分析]002 - SPDK官方介绍
Introduction to the Storage Performance Development Kit (SPDK) | SPDK概述 By Jonathan S. (Intel), Upda ...
[SPDK/NVMe存储技术分析]001 - SPDK/NVMe概述
1. NVMe概述 NVMe是一个针对基于PCIe的固态硬盘的高性能的.可扩展的主机控制器接口. NVMe的显著特征是提供多个队列来处理I/O命令.单个NVMe设备支持多达64K个I/O 队列,每个I ...
[SPDK/NVMe存储技术分析]015 - 理解内存注册(Memory Registration)
使用RDMA, 必然关系到内存区域(Memory Region)的注册问题.在本文中,我们将以mlx5 HCA卡为例回答如下几个问题: 为什么需要注册内存区域? 注册内存区域有嘛好处? 注册内存区域的 ...
[SPDK/NVMe存储技术分析]005 - DPDK概述
注: 之所以要中英文对照翻译下面的文章,是因为SPDK严重依赖于DPDK的实现. Introduction to DPDK: Architecture and PrinciplesDPDK概论:体系结 ...
[SPDK/NVMe存储技术分析]012 - 用户态ibv_post_send()源码分析
OFA定义了一组标准的Verbs,并提供了一个标准库libibvers.在用户态实现NVMe over RDMA的Host(i.e. Initiator)和Target, 少不了要跟OFA定义的Ver ...
[SPDK/NVMe存储技术分析]014 - (NVMe over PCIe)Host端的命令处理流程
NVMe over PCIe最新的NVMe协议是1.3. 在7.2.1讲了Command Processing流程.有图有真相. This section describes command subm ...

随机推荐

大话devops
一.敏捷的局限性的促使devops诞生敏捷的局限性:敏捷只注重开发阶段的敏捷,未涉及到整个产品生命周期流程其他环节导致采用敏捷开发流程后效果不明显. devops成为企业数字化转型的助推器,扮演基础 ...
Solution -「LOCAL」舟游
\(\mathcal{Description}\) \(n\) 中卡牌,每种三张.对于一次 \(m\) 连抽,前 \(m-1\) 次抽到第 \(i\) 种的概率是 \(p_i\),第 \(m\) ...
Netty高级应用及聊天室实战
Netty 高级应用 1. 编解码器概念:在网络应用中,需要实现某种编解码器.将原始字节数据与自定义消息数据进行相互转换.网络中都是以字节码的形式传输的. 对Netty而言,编解码器由两部分组成:编 ...
CentOS 7 部署 KVM 虚拟化
文章目录 KVM的组件 KVM模块load进内存之后,系统的运行模式部署KVM 基础配置判断CPU是否支持硬件虚拟化检测 kvm 模块是否装载安装用户端工具 qemu-kvm 启动服务查看网 ...
【lwip】lwip源码基础
目录前言概念&作用网络接口概念引入总结 lwip netif 结构体链接字段分析网卡链表网络 IP 接收数据函数发送数据函数 ARP 模块调用的发送函数出口回调函数用户 ...
EMNLP 2017 | Sparse Communication for Distributed Gradient Descent
通过将分布式随机梯度下降(SGD)中的稠密更新替换成稀疏更新可以显著提高训练速度.当大多数更新接近于0时,梯度更新会出现正偏差,因此我们将99%最小更新(绝对值)映射为零,然后使用该稀疏矩阵替换原来的 ...
CentOS8上安装MySQL
没有选择Win10上安装MySQL,个人感觉比较傻瓜式.同时相对Win10操作系统,个人更熟悉Unix/Linux操作系统,所以选择在CentOS8上安装MySQL数据库. 还是熟悉的yum安装,前提 ...
IDEA maven项目中引入ojdbc依赖报红色波浪线问题的解决办法
1.pom.xml配置文件中删除ojdbc的依赖配置后更新maven项目,然后再到本地仓库中将ojdbc这个文件夹删除 2.在网上下载ojdbc14.jar,然后改名为ojdbc14-10.2.0.2 ...
[自动化]基于kolla部署的openstack自动化巡检生成xlsx报告
自动化巡检介绍此巡检项目在kolla-ansible部署的openstack环境上开发,利用ansible-playbook编排的功能,对巡检的任务进行编排和数据处理.主要巡检的对象有IaaS平台和 ...
彻底明白Linux硬链接和软链接
[硬连接] 在Linux的文件系统中,保存在磁盘分区中的实际文件不管是什么类型系统都给它分配一个编号,称为索引节点号(Inode Index),这个索引节点用来标识这个文件,即这个索引节点就代表了这个 ...

[SPDK/NVMe存储技术分析]006 - 内存屏障(MB)

[SPDK/NVMe存储技术分析]006 - 内存屏障(MB)的更多相关文章

随机推荐

热门专题