[转帖]CPU写入512bit要多久：从AVX到NEON

https://zhuanlan.zhihu.com/p/677124882

写这篇文章的原因是有个项目需要降低延迟，希望能更快地把512bit的数据从内存搬进PCIe设备。原先的做法是软件写寄存器通知硬件，然后硬件通过PCIe读内存里的512bit。为了降低这个过程的延迟，我们试图改为：软件直接把512bit写入硬件寄存器。这个是FPGA的优势，可以灵活更改硬件逻辑。

因为刚刚好是512bit的长度，我们自然地想到了英特尔的AVX512指令集。通过_mm512_store_si512()的汇编intrinsic，即可通过一个汇编指令，向“内存”写入512bit。测试表明这个操作可以节省大约0.3μs的时间。Intel Intrinsics Guide

_mm512_store_si512()

这里的内存是带引号的，因为实际写入的并不是内存，而是PCIe的寄存器。PCIe寄存器被映射到了虚拟内存空间，这个映射关系可以用cat /proc/ioremap命令查看。在汇编层面，CPU可以像写入内存一样写入PCIe寄存器，让我感到神奇。

也可以注意到，虽然写入512bit只要一个汇编指令，但是这个vmovdqa32 m512, zmm指令的latency是和架构有关的。Skylake架构需要5个周期，而新的架构只要1个周期。这一点在接下来的ARM架构上有更详细的讨（博）论（客）。

从AVX到NEON

出于项目需要，要把这段逻辑移植到ARM上。使用的CPU是ARMv8a指令集，支持NEON指令。

ChatGPT告诉我，上述x86 intrinsic对应的ARM intrinsic是vst1q_u32()。vst1q指的是"vector st1 quad word"，在ARMv7上对应的汇编指令是vst1，在ARMv8上是st1。u32指的是无符号32位int。这个intrinsic一次操作4个32位int，也就是128bit，不太满意。于是翻ARM手册，发现了vst1q_u32_x4()，对应的汇编指令是ST1 { <Vt>.<T>, <Vt2>.<T>, <Vt3>.<T>, <Vt4>.<T> }, [<Xn|SP>], <imm> ，参见Arm A64 Instruction Set Architecture。

测试表明这个操作与x86类似，可以节省大约0.3μs的时间。然而ARM测试平台的主频是x86平台的一半，延迟降低的程度不及预期。

CPU写入512bit要多久？

由于使用了FPGA，所以可以通过ILA抓线，看到数据是何时写入FPGA寄存器的。抓线的结果是，x86平台是一次写入512bit，而ARM平台则是分4次，每次写入128bit，因此需要更多的时间（排除CPU频率的影响）。

也就是说，单个ST1 { <Vt>.<T>, <Vt2>.<T>, <Vt3>.<T>, <Vt4>.<T> }, [<Xn|SP>], <imm> 指令，实际上分了4次写入数据，每次写一个寄存器。然而网上没找到关于这个现象的解释。测试平台的架构是Cortex A72，后来在读A72文档时（Cortex-A72 Software Optimization Guide），发现了这个说明。

再后来读到了这篇【转】国产飞腾D2000：基于A72？ - 知乎 (zhihu.com)，似乎是国外的CPU爱好者写的分析，

Neoverse N1 还具有两个 FP/矢量执行管道，但具有全宽执行单元。在大多数情况下，N1 每个周期能够完成两个 128 位指令，而 FTC663 只能执行一个。

这个差别似乎涉及到了CPU的执行单元，A72的执行单元每周期只能完成1个128bit指令，而A76架构可以完成2个。

总结

AVX和NEON作为SIMD指令集，一般是用来计算的，经过实测，发现也可以用来加速写入PCIe寄存器。具体的加速效果还与CPU架构有关，单个汇编指令可能需要多个周期才能完成。

多读官方文档，而且要学会寻找自己需要的文档。