SSE入门

此文主要内容来自这篇文章，本文翻译只求能理解，不求逐句翻译。

正文：

我们将在本文中介绍如何在C++/C中使用SSE指令。我的目的不是用SSE写尽可能快的程序，而是试图讲明白它的使用方法。

什么是SSE？

SSE的全称是 Sreaming SIMD Extensions，它是一组CPU指令，用于像信号处理、科学计算或者3D图形计算一样的应用。

SIMD 也是几个单词的首写字母组成的： Single Instruction, Multiple Data。一个指令发出后，同一时刻被放到不同的数据上执行，

这个指令就是SIMD指令。

SSE在1999年首次出现在Pentium 3上。在过去的那段时光里，一些更加精致的功能被加入了这套指令集，

8个128-bit的寄存器被加入了CPU ：xmm0到xmm7.

最初的时候，这些寄存器智能用来做单精度浮点数计算（float），

自从SSE2开始，这些寄存器可以被用来计算任何基本数据类型的数据了。

给定一个标准的32位机器，我们可以并行的存储和计算了：

-- 2 double

-- 2 long

-- 4 float

-- 4 int

-- 8 short

-- 16 char

注意：整数类型可以是有符号也可以是无符号的，不过有时候你可能要用不同的指令来处理他们。

比如，你想计算两个整数数组的和，你可以一次计算四个加法。

简单的例子

开始学习SSE并不是很简单的，幸好MSDN的文档写的很好（原作的链接打不开了，新连接是我加上去的）！

如果你看一下那个算术操作的列表，一会注意到总有相应的汇编指令与其对应。

另外，一些操作是符合操作，例如那些set操作。

在C++中用SSE真真是一个low-level的操作：我们将直接通过类型

__m128（4个float）、__m128d（2个double）、__m128i(int、short、char)直接控制那些128-bit的寄存器。

不过，为了使用SSE我们不必去声明__m128类型的数组：比如，你想计算一个浮点型数组中每个元素的平方根，

有可以直接将你的数组强制类型转换成__m128*，然后使用SSE的命令操作这个数组。

不管怎样，我们还是要多做一点事情，才能用SSE。大多数SSE操作需要我们的数据是16-bytes对齐的，

这里我们将使用另一个GCC的 Variable attributes。我们使用对齐属性：

aligned (alignment)
This attribute specifies a minimum alignment for the variable or structure field, measured in bytes.

下面是一个简单的代码，展示如何用SSE的_mm_sqrt_ps()函数一次性计算四个浮点数的平方根：

float a[] __attribute__ ((aligned (16))) = { 41982., 81.5091, 3.14, 42.666 };
__m128* ptr = (__m128*)a;
__m128 t = _mm_sqrt_ps(*ptr);

如果用GCC编译器，在编译选项中加入-S选项，产生的汇编代码中相应的汇编语句是SQRTPS，

而且这个指令使用的寄存器就是SSE的寄存器：

sqrtps %xmm0, %xmm0

不要忘了加上那个头文件：

#include <emmintrin.h>

第一个评测

在前面的代码中，我们同时计算了4个float的平方根，但是我们没有记录结果。为了记录结果，我们使用_mm_store_ps

在下面的代码中，我们计算一个非常大的float数组的平方根。（作者使用的是他之前写的计时函数，这里我直接贴出来了）

来对程序的标准版本和SSE版计时。

class Timer
{
public:
Timer(const std::string& name)
: name_ (name),
start_ (std::clock())
{
}
~Timer()
{
double elapsed = (double(std::clock() - start_) / double(CLOCKS_PER_SEC));
std::cout << name_ << ": " << int(elapsed * 1000) << "ms" << std::endl;
}
private:
std::string name_;
std::clock_t start_;
};
#define TIMER(name) Timer timer__(name);
void normal(float* a, int N)
{
for (int i = 0; i < N; ++i)a[i] = sqrt(a[i]);
}
void sse(float* a, int N)
{// We assume N % 4 == 0.
int nb_iters = N / 4;
__m128* ptr = (__m128*)a;
for (int i = 0; i < nb_iters; ++i, ++ptr, a += 4)
_mm_store_ps(a, _mm_sqrt_ps(*ptr));
}
int main(int argc, char** argv)
{
if (argc != 2)
return 1;
int N = atoi(argv[1]);
float* a;
posix_memalign((void**)&a, 16, N * sizeof(float));
for (int i = 0; i < N; ++i)a[i] = 3141592.65358;
{
TIMER("normal");
normal(a, N);
}
for (int i = 0; i < N; ++i)a[i] = 3141592.65358;
{
TIMER("SSE");
sse(a, N);
}
}

在上面的SSE的函数代码中，我们用了两个指针指向的是同一个地址，但是使用的类型不同，这当然不是必须的，只是用来避免强制类型转换。

有趣的是，我们必须对__m128每次递增1（128bits），对应的，我们也必须按四递增float指针（就是相当于一次算四个float）。

另一个有趣的函数式 posix_memalign，而不是用align attribute，这个函数是在堆上申请对齐内存，而gcc attribute是在栈上申请内存。

评测环境： llvm-g++ 4.2 (flags: -O3 -msse2) 在Intel Core2 Duo P7350(2GHz)上测试。

$ ./sqrt 64000000
normal: 392ms
SSE: 145ms

真的相当快哈！

第二个评测

怎么将两个char数据加在一起呢：

void sse(char* a, const char* b, int N)
{
int nb_iters = N / 16;
__m128i* l = (__m128i*)a;
__m128i* r = (__m128i*)b;
for (int i = 0; i < nb_iters; ++i, ++l, ++r)
_mm_store_si128(l, _mm_add_epi8(*l, *r));
}

评测结果：

$ ./add 64000000
normal: 98ms
SSE: 42ms

性能分析

你可能会问，为什么我们没有得到四倍的加速呢？我们可是一次计算4个float数据啊，怎么我们只有2倍的加速呢？？

答案是，你的编译器很聪明，它已经做了很多优化了，特别是在加入O3选项后。

实际上，如果你看下normal产生的汇编代码，里面的sqrt和add函数都已经被你的编译器给用SSE指令优化了。

编译器检测到循环模式适合SSE，就把这个代码使用SSE指令实现了。

不管怎样，直接使用SSE函数还是可以获得一些性能的。

取决于你的编译器版本，对于这种简单的循环，你发现执行时间上没有差异也是可能的。

但是，这里必须要再提一次的是，我们是介绍怎么用SSE，不是只为了性能~

来源：http://blog.csdn.net/bendanban/article/details/42299863

http://blog.csdn.net/gengshenghong/article/details/7008704

SSE入门的更多相关文章

自然饱和度(Vibrance)算法的模拟实现及其SSE优化（附源码，可作为SSE图像入门，Vibrance算法也可用于简单的肤色调整）。
Vibrance这个单词搜索翻译一般振动,抖动或者是响亮.活力,但是官方的词汇里还从来未出现过自然饱和度这个词,也不知道当时的Adobe中文翻译人员怎么会这样处理.但是我们看看PS对这个功能的解释: ...
SSE图像算法优化系列八：自然饱和度(Vibrance)算法的模拟实现及其SSE优化（附源码，可作为SSE图像入门，Vibrance算法也可用于简单的肤色调整）。
Vibrance这个单词搜索翻译一般振动,抖动或者是响亮.活力,但是官方的词汇里还从来未出现过自然饱和度这个词,也不知道当时的Adobe中文翻译人员怎么会这样处理.但是我们看看PS对这个功能的解释: ...
SSE指令集学习：Compiler Intrinsic
大多数的函数是在库中,Intrinsic Function却内嵌在编译器中(built in to the compiler). 1. Intrinsic Function Intrinsic Fun ...
【原创】新手入门一篇就够：从零开发移动端IM
一.前言 IM发展至今,已是非常重要的互联网应用形态之一,尤其移动互联网时代,它正以无与论比的优势降低了沟通成本和沟通代价,对各种应用形态产生了深远影响. 做为IM开发者或即将成为IM开发者的技术人员 ...
Web端即时通讯技术盘点：短轮询、Comet、Websocket、SSE
1. 前言 Web端即时通讯技术因受限于浏览器的设计限制,一直以来实现起来并不容易,主流的Web端即时通讯方案大致有4种:传统Ajax短轮询.Comet技术.WebSocket技术.SSE(Serve ...
SSE技术详解：一种全新的HTML5服务器推送事件技术
前言一般来说,Web端即时通讯技术因受限于浏览器的设计限制,一直以来实现起来并不容易,主流的Web端即时通讯方案大致有4种:传统Ajax短轮询.Comet技术.WebSocket技术.SSE(Ser ...
WebSocket学习笔记——无痛入门
WebSocket学习笔记——无痛入门标签: websocket 2014-04-09 22:05 4987人阅读评论(1) 收藏举报分类: 物联网学习笔记(37) 版权声明:本文为博主原 ...
深度学习入门实战（二）-用TensorFlow训练线性回归
欢迎大家关注腾讯云技术社区-博客园官方主页,我们将持续在博客园为大家推荐技术精品文章哦~ 作者 :董超上一篇文章我们介绍了 MxNet 的安装,但 MxNet 有个缺点,那就是文档不太全,用起来可能 ...
ClickHouse 快速入门
ClickHouse 是什么 ClickHouse 是一个开源的面向联机分析处理(OLAP, On-Line Analytical Processing) 的列式存储数据库管理系统. 在一个 &quo ...

随机推荐

主线程中一定不能放耗时操作，必须要开子线程，比如下载文件，不然会不让你拿到输入流--报错显示android.os.NetworkOnMainThreadException
1.必须要开子线程来操作耗时操作,android.os.NetworkOnMainThreadException new Thread(new Runnable() { @Override publi ...
Android SurfaceView vs TextureView
Android SurfaceView vs TextureView https://github.com/crosswalk-project/crosswalk-website/wiki/Andro ...
12-28 显示团购数据界面的搭建，cell的自定义方面的知识总结
1.通过plist加载模型数据 2.controller中懒加载数据 3.设置tableView的数据源 4.写数据源的方法 5.观察演示项目,分析通过默认的cell的4种现实方式,无法实现要想要的现 ...
《View Programming Guide for iOS》之frame、bounds和center之间的关系
The frame property contains the frame rectangle, which specifies the size and location of the view i ...
安装VMware Tools找不到内核头文件
http://blog.csdn.net/bobbat/article/details/38568885 安装VMware Tools,解决无法找到kernel header path的问题安装 V ...
Python命名规范
Python 标识符参见:https://docs.python.org/3/reference/lexical_analysis.html?highlight=identifier#identif ...
"无意义"的div和span标签
HTML <div> 元素是块级元素,它是可用于组合其他 HTML 元素的容器.<div>元素没有特定的含义.除此之外,由于它属于块级元素,浏览器会在其前后显示折行.如果与 C ...
Mac 将mysql路径加入环境变量
1.打开终端,输入: cd ~ 会进入~文件夹 2.然后输入:touch .bash_profile 回车执行后, 2.再输入:open -e .bash_profile 会在TextEdit中打开这 ...
图像和滚动、编程规范和Xcode（一）
1 在界面上以各种模式显示图片 1.1 问题在ios开发中经常需要展示图片以满足需求和美化界面,本案例将学习如何以代码的方式使用UIImageView视图控件来展示图片,如图-1所示: 图-1 1. ...
sk_buff 结构分析
sk_buff分析 sk_buff是Linux网络代码中最重要的结构体之一.它是Linux在其协议栈里传送的结构体,也就是所谓的“包”,在他里面包含了各层协议的头部,比如ethernet, ip ,t ...