现在的 CPU 都提供了单指令流多数据流(single instruction multiple data, SIMD)指令集。最常见的是用于大量的浮点数计算,但其实也可以用在文字处理方面。

其中,SSE4.2 包含了一些专为字符串而设的指令。我们通过使用这些指令,可以大幅提升某些 JSON 解析的性能。

(配图为 2008 年发售的 Intel Core i7 芯片,它采用的 Nehalem 是第一个支持 SSE4.2 的微架构。)

跳过空白字符

我们知道,有一些 JSON 含有缩进(indentation),这些 JSON 有大量的空白字符(whitespace)。在解析 JSON 的时候,需要跳过这些空白字符。这个操作在 RapidJSON 下是这样的(reader.h,为配合版面稍改排版):

template<typename InputStream>
void SkipWhitespace(InputStream& is) {
internal::StreamLocalCopy<InputStream> copy(is);
InputStream& s(copy.s); while (s.Peek() == ' ' ||
s.Peek() == '\n' ||
s.Peek() == '\r' ||
s.Peek() == '\t')
{
s.Take();
}
}

我们先不关注 StreamLocalCopy 等东西。这段代码很简单,就是凡在输入流中遇到4种空白字符,都提取出来跳过,直至流里的字符为非空白字符。

但这种代码会带来很多分支(branching),而且我们每次只能处理一个字符。

SSE4.2

在 Intel 的 SSE4.2 指令集中,有一个 pcmpistrm 指令,它可以一次对一组16个字符与另一组字符作比较,也就是说一个指令可以作最多16×16=256次比较。

对于上面跳过空白字符的需求,我们只需要对16个输入流里的字符与4个空白字符比较,即16×4=64次比较。虽然这样未用尽所有计算能力,但一个指令能代替64个比较以及「或」运算,还是很划算的。

我们可以使用 VC/gcc/clang 都支持的 instrinsic 函数去使用这个指令。这个指令的函数命名为 _mm_cmpistrm(),在nmmintrin.h中定义。

SkipWhitespace 的 SSE4.2 版本只能跳过字符串的输入流,其部分代码如下:

inline const char *SkipWhitespace_SIMD(const char* p) {
// ... 非对齐处理 static const char whitespace[16] = " \n\r\t";
const __m128i w = _mm_load_si128((const __m128i *)&whitespace[0]); for (;; p += 16) {
const __m128i s = _mm_load_si128((const __m128i *)p);
const unsigned r = _mm_cvtsi128_si32(_mm_cmpistrm(w, s,
_SIDD_UBYTE_OPS | _SIDD_CMP_EQUAL_ANY |
_SIDD_BIT_MASK | _SIDD_NEGATIVE_POLARITY)); if (r != 0) { // some of characters is non-whitespace
#ifdef _MSC_VER // Find the index of first non-whitespace
unsigned long offset;
_BitScanForward(&offset, r);
return p + offset;
#else
return p + __builtin_ffs(r) - 1;
#endif
}

解析一下这里 _mm_cmpistrm() 用上了的选项:

  • _SIDD_UBYTE_OPS: 操作单位是无号字节,即16个 unsigned char
  • _SIDD_CMP_EQUAL_ANY: 每次比较 s 里的字符,是否和 w 中的任意字符相等。
  • _SIDD_BIT_MASK: 以比特方式返回结果。
  • _SIDD_NEGATIVE_POLARITY: 把结果反转。这里指返回值的1代表非空白字符。

然后,我们用_mm_cvtsi128_si32()指令,把返回的最低位32字节储存成普通的32位整数。如果含有非空白字符,就使用_BitScanForward()__builtin_ffs()计算出最早出现的非空白字符,并把指针跳到那里返回。

对齐问题

通过 SSE 读写内存,每次可以读写128位(16字节)数据。理想地是使用 128位对齐的地址来读写,这样会最大化读写速度。

最初我使用了 _mm_loadu_si128() 从非对齐的来源字符串读取16个字符。当时我觉得最多就是损失一些时间吧,问题似乎不大。但实际上还是出现了问题

If rapidjson::SkipWhitespace_SIMD(char const*) is called at close to the end of string buffer which has less than 16 bytes of allocated space, the function will read beyond the memory it owns.

In our use case, we parse around 50 million JSON files/buffers per day and

we got hit by the bug around 100 times per day on average before the

workaround.

后来,我估计是因为用非对齐读取,有可能在边界会读到未分配的内存分页,做成很低机率的崩溃。因此,修正方法是先用普通代码处理未对齐的地址,然后才使用 SIMD 进行读取。

inline const char *SkipWhitespace_SIMD(const char* p) {
// ... // 16-byte align to the next boundary
const char* nextAligned = reinterpret_cast<const char*>(
(reinterpret_cast<size_t>(p) + 15) & ~15); while (p != nextAligned)
if (*p == ' ' || *p == '\n' || *p == '\r' || *p == '\t')
++p;
else
return p; // The rest of string using SIMD
// ...
}

快速返回

优化其实还要看实际情况。我们发现,有比较多的情况是,第一个字符已是非空白字符。尤其是已去除空白字符的JSON,上面代码的初始时间还是比较大。因此,我们把第一个字符的检测独立出来。

inline const char *SkipWhitespace_SIMD(const char* p) {
// Fast return for single non-whitespace
if (*p == ' ' || *p == '\n' || *p == '\r' || *p == '\t')
++p;
else
return p; // ...
}

性能测试

测试环境

  • iMac 2.7 GHz Intel Core i5
  • Apple LLVM version 6.1.0 (clang-602.0.49) (based on LLVM 3.6.0svn)

测试用例 1

跳过1M个空白字符1000次。

  • 基本实现: 675 ms
  • SSE4.2: 86 ms
  • strspn: 897 ms

测试用例 2

使用 SAX API 去原位解析(in situ parse)一个含缩进的 671KB sample.json,不处理事件(null handler)。

  • 基本实现: 934 ms
  • SSE4.2: 650 ms

结语

RapidJSON 中使用 SSE4.2 指令集跳过空白字符,可以在一个迭代中进行 64 次字符比较,而且每次读取 128 位数据应该对内存频宽友好。为了兼容更旧的 x86 系 CPU,RapidJSON 也提供了一个 SSE2 的版本,但每个迭代需要执行更多指令,读取可参考源代码

此优化只对含缩进的 JSON 有利,但我们通过「快速返回」使非缩进 JSON 也不会减慢,算是一种权衡之策。在后续的 v1.1 版本中,我希望尝试利用 SIMD 指令去快速扫瞄需处理转义(escaping)的字符,不需转义的部分能使用到 128 位复制至目标缓冲。由于转义符在 JSON 的出现率较低,此举应该能进一步提升整体性能。

最后,关于 x86/x64 系的 SIMD 指令,我推荐 Intel Instrinsic Guide 及 Agner Fog 的5本优化手册

这两期都是比较低阶的东西,下期将会谈一些比较高层一点的,敬请关注。

RapidJSON 代码剖析(二):使用 SSE4.2 优化字符串扫描的更多相关文章

  1. RapidJSON 代码剖析(四):优化 Grisu

    我曾经在知乎的一个答案里谈及到 V8 引擎里实现了 Grisu 算法,我先引用该文的内容简单介绍 Grisu.然后,再谈及 RapidJSON 对它做了的几个底层优化. (配图中的<Grisù& ...

  2. RapidJSON 代码剖析(三):Unicode 的编码与解码

    根据 RFC-7159: 8.1 Character Encoding JSON text SHALL be encoded in UTF-8, UTF-16, or UTF-32. The defa ...

  3. RapidJSON 代码剖析(一):混合任意类型的堆栈

    大家好,这个专栏会分析 RapidJSON (中文使用手册)中一些有趣的 C++ 代码,希望对读者有所裨益. C++ 语法解说 我们先来看一行代码(document.h): bool StartArr ...

  4. Jquery UI 组合树 - ComboTree 集成Wabacus4.1 代码剖析

    Jquery UI 1.3 (组合树 - ComboTree ) 集成Wabacus4.1 集成Spring 代码剖析 使用时,请下载需要Jquery ui包进行配置 combotree.js 的代码 ...

  5. Android4.0图库Gallery2代码分析(二) 数据管理和数据加载

    Android4.0图库Gallery2代码分析(二) 数据管理和数据加载 2012-09-07 11:19 8152人阅读 评论(12) 收藏 举报 代码分析android相册优化工作 Androi ...

  6. HDFS集中式的缓存管理原理与代码剖析--转载

    原文地址:http://yanbohappy.sinaapp.com/?p=468 Hadoop 2.3.0已经发布了,其中最大的亮点就是集中式的缓存管理(HDFS centralized cache ...

  7. HDFS集中式的缓存管理原理与代码剖析

    转载自:http://www.infoq.com/cn/articles/hdfs-centralized-cache/ HDFS集中式的缓存管理原理与代码剖析 Hadoop 2.3.0已经发布了,其 ...

  8. libevent源码深度剖析二

    libevent源码深度剖析二 ——Reactor模式 张亮 前面讲到,整个libevent本身就是一个Reactor,因此本节将专门对Reactor模式进行必要的介绍,并列出libevnet中的几个 ...

  9. java代码解析二维码

    java代码解析二维码一般步骤 本文采用的是google的zxing技术进行解析二维码技术,解析二维码的一般步骤如下: 一.下载zxing-core的jar包: 二.创建一个BufferedImage ...

随机推荐

  1. TinyMCE添加图片 路径自动处理成相对路径

    默认情况下会自动转换你的图片路径如: 转换: /path/name.jpg 为 ../path/name.jpg 带有域名的路径也会被转换为相对路径. 需要修改一个设置convert_urls,官方文 ...

  2. less hack 兼容

    less hack 兼容 css做兼容是在所难免的,那么用less写css代码时怎样hack呢?倘若用css的方法直接在后面写上类似“\9”编译是要报错的.下面是我尝试的两个小方法仅供参考: 1.   ...

  3. 天津政府应急系统之GIS一张图(arcgis api for flex)讲解(十一)路径导航模块

    config.xml文件的配置如下: <widget label="路径导航" icon="assets/images/lujingdaohang.png" ...

  4. Android Fragment使用(一) 基础篇 温故知新

    Fragment使用的基本知识点总结, 包括Fragment的添加, 参数传递和通信, 生命周期和各种操作. Fragment使用基础 Fragment添加 方法一: 布局里的标签 标识符: tag, ...

  5. Android开发过程遇到的问题小计

    1.在真机上正常运行,而模拟器会报出一些so文件找不到 unexpected e_machine: 40. 解决方法:采用x86的NDK进行编译,问题解决.

  6. Android内存泄漏

    Java是垃圾回收语言的一种,其优点是开发者无需特意管理内存分配,降低了应用由于局部故障(segmentation fault)导致崩溃,同时防止未释放的内存把堆栈(heap)挤爆的可能,所以写出来的 ...

  7. 初识java之变量、数据类型和运算符(一)

    博友目标: 1.掌握变量的概念 2.引子----会使用常用数据类型 众所周知,每台电脑都有一个内存这么个必不可少的元素,那么到底内存到底是用来干什么的呢?其实啊,计算机内存相当于人类的大脑,计算机在处 ...

  8. python之选课系统详解[功能未完善]

    作业需求 思路:1.先写出大体的类,比如学校类,学生类,课程类--   2.写出类里面大概的方法,比如学校类里面有创建讲师.创建班级-- 3.根据下面写出大致的代码,并实现其功能       遇到的困 ...

  9. 通过LoadRunner - Analyze详细分析页面元素请求

    众所周知LoadRunner录制某个链接,包括动态请求与js.css.jpg等静态请求. web_custom_request("动态请求", "URL=http://w ...

  10. SQL SERVER 2000 迁移后SQL SERVER代理服务启动错误分析

    公司有一个老系统,这个系统所用的数据库是SQL SERVER 2000,它所在的Dell服务器已经运行超过10年了,早已经过了保修服务期,最近几乎每周会出现一次故障,加之5月份另外一台服务器坏了两个硬 ...