void yuv420_to_rgb24_sse3(uint8_t *yp, uint8_t *up, uint8_t *vp, int sy, int suv, int width, int height,
uint8_t *rgb, int srgb)
{
//定义空间
__m128i y0r0, y0r1, u0, v0;
__m128i y00r0, y01r0, y00r1, y01r1;
__m128i u00, u01, v00, v01;
__m128i rv00, rv01, gu00, gu01, gv00, gv01, bu00, bu01;
__m128i r00, r01, g00, g01, b00, b01;
__m128i rgb0123, rgb4567, rgb89ab, rgbcdef;
__m128i gbgb;
__m128i ysub, uvsub;
__m128i zero, facy, facrv, facgu, facgv, facbu;
__m128i *srcy128r0, *srcy128r1;
uint8_t *dstrgbr0, *dstrgbr1;
__m128i maskrgb;
__m64 *srcu64, *srcv64; //定义核,公式定量
//ysub = 0x0010 ...... 8 times
ysub = _mm_set1_epi16(0x0010);
uvsub = _mm_set1_epi16(0x0080);
zero = _mm_set1_epi16(0x0000); maskrgb = _mm_set_epi8(, , , , , , , , , , , , , , , ); facy = _mm_set1_epi16(0x2543);
facrv = _mm_set1_epi16(0x3313);
facgu = _mm_set1_epi16(0xF377);
facgv = _mm_set1_epi16(0xE5FC);
facbu = _mm_set1_epi16(0x408D); for (int y = ; y < height; y += ) {
//源数据指针
srcy128r0 = (__m128i *)(yp + sy*y);
srcy128r1 = (__m128i *)(yp + sy*y + sy);
srcu64 = (__m64 *)(up + suv*(y / ));
srcv64 = (__m64 *)(vp + suv*(y / )); dstrgbr0 = rgb + srgb*y;
dstrgbr1 = rgb + srgb*y + srgb; for (int x = ; x < width; x += ) {
//加载行数据
u0 = _mm_loadl_epi64((__m128i *)srcu64); srcu64++; //0000 0000 0000 xxxx <= uuuu
v0 = _mm_loadl_epi64((__m128i *)srcv64); srcv64++; y0r0 = _mm_load_si128(srcy128r0++);// xxxx xxxx xxxx xxxx <= yyyy yyyy yyyy yyyy
y0r1 = _mm_load_si128(srcy128r1++); //计算YUV中的Y向量
// a = 0y0y 0y0y 0y0y 0y0y
// b = a - 0x0010 .... = 0y-0x0010 ;
// c = `b<<3 (8 times)
// d = (c*0x2543)>>16 ......8times
y00r0 = _mm_mulhi_epi16(_mm_slli_epi16(_mm_sub_epi16(_mm_unpacklo_epi8(y0r0, zero), ysub), ), facy);
y01r0 = _mm_mulhi_epi16(_mm_slli_epi16(_mm_sub_epi16(_mm_unpackhi_epi8(y0r0, zero), ysub), ), facy);
y00r1 = _mm_mulhi_epi16(_mm_slli_epi16(_mm_sub_epi16(_mm_unpacklo_epi8(y0r1, zero), ysub), ), facy);
y01r1 = _mm_mulhi_epi16(_mm_slli_epi16(_mm_sub_epi16(_mm_unpackhi_epi8(y0r1, zero), ysub), ), facy); //展开u和v,使它们与y值对齐
// u0 = [0][u3] [0][u2] ......
//a = [0][u3][0][u3] ........[0][u0][0][u0]
//b = [0][u3] - 0x0080 .... 8times
//u00 = [0][u3] <<3 ... 8 times;
//u00 =[00000u3000]
//u01 = u00;
u0 = _mm_unpacklo_epi8(u0, zero);
u00 = _mm_slli_epi16(_mm_sub_epi16(_mm_unpacklo_epi16(u0, u0), uvsub), );
u01 = _mm_slli_epi16(_mm_sub_epi16(_mm_unpackhi_epi16(u0, u0), uvsub), ); v0 = _mm_unpacklo_epi8(v0, zero);
v00 = _mm_slli_epi16(_mm_sub_epi16(_mm_unpacklo_epi16(v0, v0), uvsub), );
v01 = _mm_slli_epi16(_mm_sub_epi16(_mm_unpackhi_epi16(v0, v0), uvsub), ); //计算两行UV的向量
// short 乘法 然后移位
// rv00 其实等于rv01
rv00 = _mm_mulhi_epi16(facrv, v00);
rv01 = _mm_mulhi_epi16(facrv, v01); //([00000u3000]*0xF377)>>8 8 times overflow??
gu00 = _mm_mulhi_epi16(facgu, u00);
gu01 = _mm_mulhi_epi16(facgu, u01);
gv00 = _mm_mulhi_epi16(facgv, v00);
gv01 = _mm_mulhi_epi16(facgv, v01);
bu00 = _mm_mulhi_epi16(facbu, u00);
bu01 = _mm_mulhi_epi16(facbu, u01); //计算出最后RGB 行0
//r00 = 0r0r 0r0r 0r0r 0r0r
r00 = _mm_add_epi16(y00r0, rv00);
r01 = _mm_add_epi16(y01r0, rv01);
g00 = _mm_add_epi16(_mm_add_epi16(y00r0, gu00), gv00);
g01 = _mm_add_epi16(_mm_add_epi16(y01r0, gu01), gv01);
b00 = _mm_add_epi16(y00r0, bu00);
b01 = _mm_add_epi16(y01r0, bu01); //排列RGB数据
r00 = _mm_packus_epi16(r00, r01); // rrrr.. 组合计算
g00 = _mm_packus_epi16(g00, g01); // gggg.. 组合计算
b00 = _mm_packus_epi16(b00, b01); // bbbb.. 组合计算 r01 = _mm_unpacklo_epi8(r00, zero); // 0r0r..//取低位
gbgb = _mm_unpacklo_epi8(b00, g00); // gbgb..
rgb0123 = _mm_unpacklo_epi16(gbgb, r01); // 0rgb0rgb..
rgb4567 = _mm_unpackhi_epi16(gbgb, r01); // 0rgb0rgb.. rgb0123 == rgb4567?? r01 = _mm_unpackhi_epi8(r00, zero); //取高位
gbgb = _mm_unpackhi_epi8(b00, g00);
rgb89ab = _mm_unpacklo_epi16(gbgb, r01);
rgbcdef = _mm_unpackhi_epi16(gbgb, r01); //输出RGB数据
//rgb0123 = 0000rgb rgb rgb rgb
rgb0123 = _mm_shuffle_epi8(rgb0123, maskrgb);
_mm_storeu_si128((__m128i *)dstrgbr0, rgb0123);
//_mm_store_si128 dstrgbr0 += ; rgb4567 = _mm_shuffle_epi8(rgb4567, maskrgb);
_mm_storeu_si128((__m128i *)dstrgbr0, rgb4567);
dstrgbr0 += ; rgb89ab = _mm_shuffle_epi8(rgb89ab, maskrgb);
_mm_storeu_si128((__m128i *)dstrgbr0, rgb89ab); dstrgbr0 += ; rgbcdef = _mm_shuffle_epi8(rgbcdef, maskrgb);
memcpy(dstrgbr0, &rgbcdef, ); dstrgbr0 += ; //计算出最后RGB 行1
r00 = _mm_add_epi16(y00r1, rv00);
r01 = _mm_add_epi16(y01r1, rv01);
g00 = _mm_add_epi16(_mm_add_epi16(y00r1, gu00), gv00);
g01 = _mm_add_epi16(_mm_add_epi16(y01r1, gu01), gv01);
b00 = _mm_add_epi16(y00r1, bu00);
b01 = _mm_add_epi16(y01r1, bu01); r00 = _mm_packus_epi16(r00, r01); // rrrr.. saturated
g00 = _mm_packus_epi16(g00, g01); // gggg.. saturated
b00 = _mm_packus_epi16(b00, b01); // bbbb.. saturated r01 = _mm_unpacklo_epi8(r00, zero); // 0r0r..
gbgb = _mm_unpacklo_epi8(b00, g00); // gbgb..
rgb0123 = _mm_unpacklo_epi16(gbgb, r01); // 0rgb0rgb..
rgb4567 = _mm_unpackhi_epi16(gbgb, r01); // 0rgb0rgb.. r01 = _mm_unpackhi_epi8(r00, zero);
gbgb = _mm_unpackhi_epi8(b00, g00);
rgb89ab = _mm_unpacklo_epi16(gbgb, r01);
rgbcdef = _mm_unpackhi_epi16(gbgb, r01); rgb0123 = _mm_shuffle_epi8(rgb0123, maskrgb);
_mm_storeu_si128((__m128i *)dstrgbr1, rgb0123); dstrgbr1 += ; rgb4567 = _mm_shuffle_epi8(rgb4567, maskrgb);
_mm_storeu_si128((__m128i *)dstrgbr1, rgb4567); dstrgbr1 += ; rgb89ab = _mm_shuffle_epi8(rgb89ab, maskrgb);
_mm_storeu_si128((__m128i *)dstrgbr1, rgb89ab); dstrgbr1 += ; rgbcdef = _mm_shuffle_epi8(rgbcdef, maskrgb);
memcpy(dstrgbr1, &rgbcdef, ); dstrgbr1 += ;
}
}
}

SSE指令集加速之 I420转BGR24的更多相关文章

  1. c/c++ 代码中使用sse指令集加速

    使用SSE指令,首先要了解这一类用于进行初始化加载数据以及将暂存器的数据保存到内存相关的指令, 我们知道,大多数SSE指令是使用的xmm0到xmm8的暂存器,那么使用之前,就需要将数据从内存加载到这些 ...

  2. AVX图像算法优化系列二: 使用AVX2指令集加速查表算法。

    查表算法,无疑也是一种非常常用.有效而且快捷的算法,我们在很多算法的加速过程中都能看到他的影子,在图像处理中,尤其常用,比如我们常见的各种基于直方图的增强,可以说,在photoshop中的调整菜单里8 ...

  3. SSE指令集学习:Compiler Intrinsic

    大多数的函数是在库中,Intrinsic Function却内嵌在编译器中(built in to the compiler). 1. Intrinsic Function Intrinsic Fun ...

  4. SSE指令集优化学习:双线性插值

    对SSE的学习总算迈出了第一步,用2天时间对双线性插值的代码进行了优化,现将实现的过程梳理以下,算是对这段学习的一个总结. 1. 什么是SSE 说到SSE,首先要弄清楚的一个概念是SIMD(单指令多数 ...

  5. 【转】【SSE】基于SSE指令集的程序设计简介

    基于SSE指令集的程序设计简介 作者:Alex Farber 出处:http://www.codeproject.com/cpp/sseintro.asp SSE技术简介 Intel公司的单指令多数据 ...

  6. 【转】【SEE】基于SSE指令集的程序设计简介

    SSE技术简介 Intel公司的单指令多数据流式扩展(SSE,Streaming SIMD Extensions)技术能够有效增强CPU浮点运算的能力.Visual Studio .NET 2003提 ...

  7. Instructions函数对照表:02 xmmintrin.h与SSE指令集[转]

    更多详情见——http://www.cnblogs.com/zyl910/archive/2012/04/26/md00.htmlSIMD函数整理:00 索引贴 R:寄存器.M:64位MM寄存器:X: ...

  8. SIMD指令集——一条指令操作多个数,SSE,AVX都是,例如:乘累加,Shuffle等

    SIMD指令集 from:https://zhuanlan.zhihu.com/p/31271788 SIMD,即Single Instruction, Multiple Data,一条指令操作多个数 ...

  9. SSE优化指令集编译错误: inlining failed in call to always_inline 'xxx': target specific option mismatch xxx

    在用QtCreator编译SSE优化指令的时候,出现了如下错误, inlining failed in call to always_inline '__m128i _mm_packus_epi32( ...

随机推荐

  1. 在windows平台下搭建Django项目虚拟环境

    参考文档:https://www.cnblogs.com/lovele-/p/8719126.html  https://blog.csdn.net/lwcaiCSDN/article/details ...

  2. 数据库访问接口之ODBC

    ODBC API 实现数据库操作的手段是句柄.在ODBC中,使用不同的句柄(HANDLE)来标志环境(environment).连接(Connection).语句(statement).描述符(des ...

  3. 阶段5 3.微服务项目【学成在线】_day04 页面静态化_20-页面静态化-静态化测试-填写页面DataUrl

    启动前端和后端.轮播图的数据url可以在这里修改. 找到列表页面的轮播图,然后点击编辑 随便更新一个地址测试 提交后数据再次编辑 发现url没有变化 在pageService里面update方法把更新 ...

  4. ES6深入浅出-1 新版变量声明:let 和 const-1.视频 概述

    es7语法比较少,只占了一点点 ES 6 新特性一览:https://frankfang.github.io/es-6-tutorials/ 我用了两个月的时间才理解 let   https://zh ...

  5. Python的数据类型与数据结构

    Python的数据类型与数据结构 数据类型分为: 整数型 :数字的整数 浮点型: 数字带小数 字符串: 用 ‘’ 或者 “” 引用的任意文本 布尔型:只有 True 和 False 数据结构分为: 列 ...

  6. 【ARTS】01_23_左耳听风-201900415~2019004021

    ARTS: Algrothm: leetcode算法题目 Review: 阅读并且点评一篇英文技术文章 Tip/Techni: 学习一个技术技巧 Share: 分享一篇有观点和思考的技术文章 Algo ...

  7. c# 子窗体居中父窗体

    1.设置CenterParent不管用.只好用代码控制. frmRunning_ = new FrmRunning(); frmRunning_.StartPosition = FormStartPo ...

  8. OPC Utgard的数据访问方式

    1.同步读取某个点位的值 Item项的read()方法 Server server = new Server(BaseConfiguration.getCLSIDConnectionInfomatio ...

  9. flask上下管理文相关 - 总结

    flask上下管理文相关 - 总结 flask上下文管理机制 当用户请求到来之后,flask内部会创建两个对象: ctx = ReqeustContext(),内部封装request/sesion a ...

  10. Docker存储容易忽略的使用细节

    一.Docker容器使用前其实有个非常重要的步骤就是规划好部署的磁盘区域,因为docker容器默认存储的路径是在/var/lib/docker的根目录内,随着使用时间越长部署的内容越多,基本的根目录的 ...