SIMD---AVX系列

AVX全称Advanced Vcetor Extension,是对SSE的后续扩展,主要分为AVX.AVX2.AVX512三种.在目前常见的机器上,大多只支持到AVX系列,因此其他SIMD扩展指令我们就先不学习了. 1. AVX系列 1.1 AVX AVX使用了16个YMM寄存器,主要针对的是浮点数计算优化,支持32位单精度和64位双精度.AVX将打包长度由SSE的128位扩展为256位. AVX主要有两个改进: 256位浮点打包数据长度. 三位操作数:计算形式可以由先前的A = A + B改为…

【转帖】超能课堂(186) CPU中的那些指令集都有什么用？

超能课堂(186)CPU中的那些指令集都有什么用? https://www.expreview.com/68615.html 不明觉厉开始的地方第一大类:基础运算类x86.x86-64及EM64T等第二大类:SIMD指令集,有SSE系列,AVX系列多媒体应用加解密运算数据序列化游戏科学计算&人工智能检测处理性能,跑分第三大类:虚拟化指令集Intel,虚拟机应用第四大类:安全类指令集,如加解密AES-IN指令集第五大类:多线程应用,TSX事务同步扩展指令集总结本文约51…

深入理解 OpenFOAM 环境变量与编译

操作系统选择由于 OpenFOAM 在 Linux 平台开发和测试,在非 Linux 平台无法直接对软件进行编译和安装,所以在非 Linux 平台上最简便方法是使用 docker 容器运行 OpenFOAM.下面主要介绍在 Linux 平台上 OpenFOAM 源程序编译安装过程. 环境变量在 OpenFOAM 编译和运行时,需要设置多个环境变量.在源程序路径 ${FOAM_DIR}/etc 下,脚本文件 bashrc 包含了软件编译和运行所需的所有环境变量的设置,可以直接通过 source…

AVX图像算法优化系列一: 初步接触AVX。

弄了SSE指令集,必然会在不同的场合不同的人群中了解到还有更为高级的AVX指令集的存在,早些年也确实有偶尔写点AVX的函数,但是一直没有深入的去了解,今年十一期间也没到那里去玩,一个人在家里抽空就折腾下这个东西,也慢慢的开始了解了这个东西,下面是基于目前的认知对这个东西进行下一个简单的小结,有些东西也许是不正确或者不全面的,但应该无伤大雅. 第一.用AVX指令集必须做好合适的IDE配置. 如果你们有看过我之前的一些文章,应该可以看到我在部分博文中有多次提高过"使用AVX对该算法似乎没有什么速度和…

AVX图像算法优化系列二: 使用AVX2指令集加速查表算法。

查表算法,无疑也是一种非常常用.有效而且快捷的算法,我们在很多算法的加速过程中都能看到他的影子,在图像处理中,尤其常用,比如我们常见的各种基于直方图的增强,可以说,在photoshop中的调整菜单里80%的算法都是用的查表,因为他最终就是用的曲线调整. 普通的查表就是提前建立一个表,然后在执行过程中算法计算出一个索引值,从表中查询索引对应的表值,并赋值给目标地址,比如我们常用的曲线算法如下所示: int IM_Curve_PureC(unsigned char *Src, unsigned ch…

SSE图像算法优化系列九：灵活运用SIMD指令16倍提升Sobel边缘检测的速度（4000*3000的24位图像时间由480ms降低到30ms）。

这半年多时间,基本都在折腾一些基本的优化,有很多都是十几年前的技术了,从随大流的角度来考虑,研究这些东西在很多人看来是浪费时间了,即不能赚钱,也对工作能力提升无啥帮助.可我觉得人类所谓的幸福,可以分为物质档次的享受,还有更为复杂的精神上的富有,哪怕这种富有只是存在于短暂的自我满足中也是值得的. 闲话少说, SIMD指令集,这个古老的东西,从第一代开始算起,也快有近20年的历史了,从最开始的MMX技术,到SSE,以及后来的SSE2.SSE3.SSE4.AVX以及11年以后的AVX2,逐渐的成熟和丰…

SSE图像算法优化系列一：一段BGR2Y的SIMD代码解析。

一个同事在github上淘到一个基于SIMD的RGB转Y(彩色转灰度或者转明度)的代码,我抽了点时间看了下,顺便学习了一些SIMD指令,这里把学习过程中的一些理解和认识共享给大家. github上相关代码见链接:https://github.com/komrad36/RGB2Y,这哥们还有其他一些SIMD的代码,也是相当不错的可以借鉴的. 我们首先说说普通的RGB2Y的代码: void RGB2Y(unsigned char *Src, unsigned char *Dest, int Widt…

SIMD指令集——一条指令操作多个数，SSE，AVX都是，例如：乘累加，Shuffle等

SIMD指令集 from:https://zhuanlan.zhihu.com/p/31271788 SIMD,即Single Instruction, Multiple Data,一条指令操作多个数据．是CPU基本指令集的扩展．主要用于提供fine grain parallelism,即小碎数据的并行操作．比如说图像处理,图像的数据常用的数据类型是RGB565, RGBA8888, YUV422等格式,这些格式的数据特点是一个像素点的一个分量总是用小于等于8bit的数据表示的．如果使用传统的处…

[转]SIMD、MMX、SSE、AVX、3D Now!、NEON

转载来源<[整理]SIMD.MMX.SSE.AVX.3D Now!.neon> 本文摘取部分内容,详细请看原文. SIMD NEON是通用的SIMD(单指令多数据)引擎. 对于SISD,每个指令只能处理一个数据,而SIMD一个指令可以处理多个数据,因为多个数据的处理是平行的,因此从时间来说,一个指令执行的时间,SISD和SIMD是差不多的.由于SIMD一次可以处理N个数据,所以它的处理的时间也就缩短到SISD的1/N.需要指出一点,NEON是需要硬件支持的,需要有一块寄存器放到硬件上来处理这个…

SSE图像算法优化系列三十二：Zhang\Guo图像细化算法的C语言以及SIMD指令优化

二值图像的细化算法也有很多种,比较有名的比如Hilditch细化.Rosenfeld细化.基于索引表的细化.还有Opencv自带的THINNING_ZHANGSUEN.THINNING_GUOHALL喜欢等等.这些都属于迭代的细化方式,当然还有一种是基于二值图像距离变换的细化方法,二值想比较,我个人认为是基于迭代的效果稳定.可靠,但是速度较慢,且速度和图片的内容有关,基于距离变换的版本,优点是速度稳定,但是效果差强人意.本文这里还是选择基于迭代的方式予以实现. 相关的参考文章有:http://c…

SSE图像算法优化系列十三：超高速BoxBlur算法的实现和优化（Opencv的速度的五倍）

在SSE图像算法优化系列五:超高速指数模糊算法的实现和优化(10000*10000在100ms左右实现) 一文中,我曾经说过优化后的ExpBlur比BoxBlur还要快,那个时候我比较的BoxBlur算法是通过积分图+SSE实现的,我在09年另外一个博客账号上曾经提供过一篇这个文章彩色图像高速模糊之懒惰算法,里面也介绍了一种快速的图像模糊算法,这个算法的执行时间基本也是和半径无关的.在今年的SSE优化学习之路上我曾经也考虑过将该算法使用SSE实现,但当时觉得这个算法逐像素同时逐行都是前后依赖的(…

SSE图像算法优化系列二十二：优化龚元浩博士的曲率滤波算法，达到约1000 MPixels/Sec的单次迭代速度

2015年龚博士的曲率滤波算法刚出来的时候,在图像处理界也曾引起不小的轰动,特别是其所说的算法的简洁性,以及算法的效果.执行效率等方面较其他算法均有一定的优势,我在该算法刚出来时也曾经有关注,不过那个时候看到是迭代的算法,而且迭代的次数还蛮多了,就觉得算法应该不会太快,所以就放弃了对其进一步优化.最近,又偶尔一次碰触到该文章和代码,感觉还是有蛮大的优化空间的,所以抽空简单的实现他的算法. 该算法作者已经完全开源,项目地址见:https://github.com/YuanhaoGong/C…

【算法随记七】巧用SIMD指令实现急速的字节流按位反转算法。

字节按位反转算法,在有些算法加密或者一些特殊的场合有着较为重要的应用,其速度也是一个非常关键的应用,比如一个byte变量a = 3,其二进制表示为00000011,进行按位反转后的结果即为11000000,即十进制的196.还有一种常用的应用是int型变量按位反转,其基本的原理和字节反转类似,本文仅以字节反转为例来比较这个算法的实现. 一种最为传统和直接的算法实现如下: unsigned char Reverse8U(unsigned char x) { x = (x & | (x & ;…

借助 SIMD 数据布局模板和数据预处理提高 SIMD 在动画中的使用效率

原文链接简介为发挥 SIMD1 的最大作用,除了对其进行矢量化处理2外,我们还需作出其他努力.可以尝试为循环添加 #pragma omp simd3,查看编译器是否成功进行矢量化,如果性能有所提升,则达到满意状态. 然而,可能性能根本不会提升,甚至还会降低. 无论处于何种情况,为了最大限度发挥 SIMD 执行的优势并实现性能提升,通常需要重新设计算法和数据布局,以便生成的 SIMD 代码尽可能高效. 另外还可收到额外的效果,即标量(非矢量化)版代码会表现得更好. 本文将通过一个 3D 动画算…

Intrinsics头文件与SIMD指令集、Visual Studio版本对应表(转)

File:Intrinsics头文件描述:指令集描述VS:Visual Studio版本号VisualStudio:Visual Studio版本名 File 描述 VS VisualStudio intrin.h All Architectures 8.0 2005 mmintrin.h MMX intrinsics 6.0 6.0 SP5+PP5 xmmintrin.h Streaming SIMD Extensions intrinsics 6.0 6.0 SP5+PP5 emmintr…

【Todo】【转载】深度学习&神经网络科普及八卦学习笔记 & GPU & SIMD

上一篇文章提到了数据挖掘.机器学习.深度学习的区别:http://www.cnblogs.com/charlesblc/p/6159355.html 深度学习具体的内容可以看这里: 参考了这篇文章:https://zhuanlan.zhihu.com/p/20582907?refer=wangchuan <王川: 深度学习有多深, 学了究竟有几分? (一)> 笔记:神经网络的研究,因为人工智能的一位大牛Marvin Minsky的不看好,并且出书说明其局限性,而出现二十年的长期低潮. 在…

ARM NEON编程系列1-导论

ARM NEON 编程系列1 - 导论前言本系列博文用于介绍ARM CPU下NEON指令优化. 博文github地址:github 相关代码github地址:github NEON历史 ARM处理器的历史可以阅读文献[2],本文假设读者已有基本的ARM CPU下编程的经验,本文面向需要了解ARM平台下通过NEON进行算法优化的场景. ARM CPU最开始只有普通的寄存器,可以进行基本数据类型的基本运算.自ARMv5开始引入了VFP(Vector Floating Point)指令,该指令用于…

ARM系列产品

ARM7系列 ARM9系列 ARM9E系列 ARM10E系列 SecurCore系列 Intel的StrongARM ARM11系列 Intel的Xscale 其中,ARM7.ARM9.ARM9E和ARM10为4个通用处理器系列,每一个系列提供一套相对独特的性能来满足不同应用领域的需求.SecurCore系列专门为安全要求较高的应用而设计. Axxia 4500通信处理器基于采用28纳米工艺的ARM 4核Cortex-A15处理器,并搭载ARM全新CoreLink CCN-504高速缓存一致性互…

Inter系列处理器名称浅析

东拼西凑之作,仅仅整理而已,望周知 ------------------------------------------------------------------ 举例 CPU酷睿i5-3230M 首先是i5,这代表了处理器的型号是i5系列的,属于4核处理器,当然i5也有双核4通道的型号的,处理性能接近原生态4核. 其次是3230的第一个3,它代表了它是i系列处理器的第三代产品. 然后是230M,这代表了CPU的处理主频和可以酷睿超频后的主频高低,还有就是代表了CPU内部集成的显卡芯片的等…

SSE再学习：灵活运用SIMD指令6倍提升Sobel边缘检测的速度（4000*3000的24位图像时间由180ms降低到30ms）。

SSE图像算法优化系列十：简单的一个肤色检测算法的SSE优化。

在很多场合需要高效率的肤色检测代码,本人常用的一个C++版本的代码如下所示: void IM_GetRoughSkinRegion(unsigned char *Src, unsigned char *Skin, int Width, int Height, int Stride) { ; Y < Height; Y++) { unsigned char *LinePS = Src + Y * Stride; // 源图的第Y行像素的首地址 unsigned char *LinePD = Ski…

SSE图像算法优化系列十五：YUV/XYZ和RGB空间相互转化的极速实现（此后老板不用再担心算法转到其他空间通道的耗时了）。

在颜色空间系列1: RGB和CIEXYZ颜色空间的转换及相关优化和颜色空间系列3: RGB和YUV颜色空间的转换及优化算法两篇文章中我们给出了两种不同的颜色空间的相互转换之间的快速算法的实现代码,但是那个是C#版本的,为了比较方便,我们这里提供C版本的代码,以RGB转到YUV空间的代码为例: void RGBToYUV(unsigned char *RGB, unsigned char *Y, unsigned char *U, unsigned char *V, int Width, int…

SIMD---SSE系列及效率对比

SSE(即Streaming SIMD Extension),是对由MMX指令集引进的SIMD模型的扩展.我们知道MMX有两个明显的缺点: 只能操作整数. 不能与浮点数同时运行(MMX使用FPU寄存器作为别名). 而SSE则解决了这个问题,SSE引进了8个专用的浮点寄存器MMX0~MMX7.后来Intel又陆续推出了SSE2.SSE3.SSE4,这使得SSE指令系列同时拥有了浮点数学运算功能和整数运算功能,因此早先的MMX指令就显得有点多余了(虽然可是并行执行SSE.MMX指令来提高性能). S…

ARM的体系结构与编程系列博客——ARM体系版本

ARM体系版本前言很多人都知道,ARM有许多版本,口中最长说的就是ARM7\ARM9\ARM11,诚然,这个的确是ARM处理器的版本,但绝对不是ARM的版本,其实ARM到迄今为止经历了6代版本,随着时代的变化,ARM也随之变化,版本的不同其实也造就ARM的各种变种! ARM处理器系列的各种处理器,其采用的技术各不相同,性能差异很大,应用的场合也不相同,但只要它是同一个ARM体系版本,那么基于它们的应用软件是兼容的! 不难看出ARM的版本关系到了ARM的兼容性,如果你在开发过程中不了解版本的话,…

PC平台的SIMD支持检测

如果我们希望在用SIMD来提升程序处理的性能,首先需要做的就是检测程序所运行的平台是否支持相应的SIMD扩展.平台对SIMD扩展分为两部分的支持: CPU对SIMD扩展的支持.SIMD扩展是随着CPU的发展不断改进的,CPU为SIMD扩展提供了硬件上的最基本支持. 操作系统对SIMD扩展的支持.目前PC上运行的基本都是多任务操作系统,也就是会“同时”运行着多个程序,这些程序依靠操作系统进行任务调度以使得多个程序看起来是在同时运行,在进行任务调度时需要进行程序上下文的切换,其中就包括寄存器内容的保…

PC平台主要SIMD扩展发展简史

Single Instruction Multiple Data,简称SIMD.SIMD描述的是微处理器中单条指令能完成对数据的并行处理.SIMD所使用的是特殊的寄存器,一个寄存器上存储有多个数据,在进行SIMD运算时,这些数据会被分别进行处理,以此实现了数据的并行处理. MMX Intel的第一个SIMD指令集是MultiMedia eXtensions(MMX),在1997年推出.MMX指令主要使用的寄存器为 MM0 ~ MM7,大小为64-bit,这些寄存器是浮点寄存器ST0~ST7(80…

SSE图像算法优化系列二十五:二值图像的Euclidean distance map（EDM)特征图计算及其优化。

Euclidean distance map(EDM)这个概念可能听过的人也很少,其主要是用在二值图像中,作为一个很有效的中间处理手段存在.一般的处理都是将灰度图处理成二值图或者一个二值图处理成另外一个二值图,而EDM算法确是由一幅二值图生成一幅灰度图.其核心定义如下: The definition is simple enough: each point in the foreground is assigned a brightness value equal to its straight…

SSE图像算法优化系列二十三: 基于value-and-criterion structure 系列滤波器（如Kuwahara，MLV，MCV滤波器）的优化。

基于value-and-criterion structure方式的实现的滤波器在原理上其实比较简单,感觉下面论文中得一段话已经描述的比较清晰了,直接贴英文吧,感觉翻译过来反而失去了原始的韵味了. The value-and-criterion filter structure is based on the geometrical structure of mathematical morphology, but allows the use of a much wider variety…

SSE图像算法优化系列二十一：基于DCT变换图像去噪算法的进一步优化（100W像素30ms）。

在优化IPOL网站中基于DCT(离散余弦变换)的图像去噪算法(附源代码) 一文中,我们曾经优化过基于DCT变换的图像去噪算法,在那文所提供的Demo中,处理一副1000*1000左右的灰度噪音图像耗时约450ms,如果采用所谓的快速模式耗时约150ms,说实在的,这个速度确实还是有点慢,后续曾尝试用AVX优化,但是感觉AVX真的没有SSE用的方便,而且AVX里还有不少陷阱,本以为这个算法优化没有什么希望了,但前几日网友推荐了一片论文<Randomized Redundant DCT Effice…

SSE图像算法优化系列二十：一种快速简单而又有效的低照度图像恢复算法。

又有很久没有动笔了,主要是最近没研究什么东西,而且现在主流的趋势都是研究深度学习去了,但自己没这方面的需求,同时也就很少有动力再去看传统算法,今天一个人在家,还是抽空分享一个简单的算法吧. 前段日子在看水下图像处理方面的资料时,在github搜到一个链接,里面居然有好几篇文章附带的代码,除了水下图像的文章外,我看到了一篇<Adaptive Local Tone Mapping Based on Retinex for High Dynamic Range Images >的文章,也还不算老,…

【SIMD---AVX系列】的更多相关文章