【短道速滑六】古老的视频去噪算法(FLT_GradualNoise)解析并优化,可实现1920*1080 YUV数据400fps的处理能力。
这个好像没有啥对应的论文可以找到,在百度上搜索也能找到一些相关的资料,不过就直接是代码,可以看到其实来自于一个叫做DScaler的项目,在github上目前还能找到该项目的完整资料。
详见:https://github.com/JohnAdders/DScaler/tree/f7d92b76678e24422c48d4a956c0486ee042786d
其中含有FLT_GradualNoise.c文件,我们复制以下代码的注释部分对算法的解释:
This algorithm is very similar to what Andrew Dowsey came up with in his "Adaptive Temporal Averaging" for his DirectShow filter. The algorithms differ in 1) their block size, 2) their motion estimation(sum of absolute differences versus mean squared error), 3) The addition of a "high tail," in which areas which have changed a lot(but not too much) still cause a small amount of averaging with the previous rame, and 4) rounding.
The algorithm :
This filter gets the sum of absolute differences between a four pixel horizontal block in the current image and the same block in the preceding frame.This isn't the best local motion measure, but it's very fast due to the psadbw SSE instruction.
This difference measure is used to determine the kind of averaging which will be conducted.If it's more than the "noise reduction" parameter, motion is inferred.In that case, we just use the new pixel values.If it's less than the noise reduction, we use the ratio of(difference / noise reduction) to determine the weighting of the old and new values.
Somewhat more formally :
N = Sum_block(| oldByte - newByte | )
R = Noise Reduction parameter
M = (motion evidence) = 1 if N / R >= 1.2
0.999 if 1.2 > N / R >= 1
N / R otherwise
Result pixel = (bytewise)oldPixel * (1 - M) + newPixel * M
Rounding has a very significant effect on the algorithm.In general, for computational reasons, values are rounded down.An important exception occurs when M > 0 and oldPixel != newPixel
but
oldPixel * (1 - M) + newPixel * M
rounds to oldPixel.In that case, the Result pixel is rounded to one toward the newPixel value.This makes sure that very gradual variation is maintained.
针对这个算法,作者提供了相关的汇编代码,而且进行了非常详细的注释,但是这个汇编还不是普通的汇编,而是用的SIMD指令,因此,对于阅读来说就非常的困难了,我大概花了10天左右,理解其思路,并用更加容易东的Intrinsic进行了重写和优化。下面是一些编写时的疑惑和解读,共享下。
// 疑点1: 对于YUV数据,这个程序是如何处理的?
// 答复: 从原始的汇编代码看,他对YUV分量是同步处理的,并没有做特别的区分,前面说的四个像素,指的意思就是Y0 U0 Y1 V0 Y2 U1 Y3 V1这4个像素,不管是MMX指令还是SSE指令
// 他们的psadbw指令都是一次性执行八个字节数据的绝对值累加(SSE指令一次性执行2个8个字节的累加而已)。如果把这个算法换成RGB格式的数据,那范围要麻烦了,要拆分RGB到各个独立的分量了。
// 疑点2: 上面提及默认的Rounding是向下的,但是一般要求只要Src和Prev有差异,就至少要向新像素有1个像素的偏移,以保证视频的连续性,如何实现的。
// 答复: 程序里对数据进行了判断,如果Src和Prev不同,则设置偏移量至少是1(正1和负1都可以),相同的话偏移量当然为0了。
// 另外,如果定点化后的偏移量大于65535,则设置偏移量为AbsDiff值,因为这个时候的由于程序移位计算的原因,直接算的值还会少1的。 (X * 65535) >> 16结果会为X - 1
// 疑点3: 程序是如何进行优化的?
// 答复: (1) 在原始的代码中,有这个0.999 if 1.2 > N / R >= 1,在作者提供的汇编代码中,对这部分做了处理,他是通过一些比较和移位来实现的,把NoiseMultiplier更改为65534了(N/R>=1,就已经设为65535了)
// 在本代码中,个人觉得这个判断毫无必要,0.999对结果的影响太小了,因此舍弃了,在作者提供的SSE和MMX代码中,这个也舍弃了。
// (2) 定点化,程序中N/R涉及到除法运算,为了减少这个,我们将整体扩大65536倍,然后再乘以AbsDiff,这个时候需要除以65536,这样可以利用_mm_mulhi_epu16来快速实现(不需要特别的移位指令了,也不需要转换到32位)
// 但是实际上,这里是有误差的,因为这个函数不能做到四舍五入,建议使用_mm_mulhrs_epi16代替。同时注意如果N/R * 65536如果大于65535了,就对于了原始算式中的M=1了 ,这个时候就把他直接限定为65535了(不需要转换到32位了)
// 举个例子,如果AbsDiff_Sum = 24,NoiseValue取值64,此时Multiplier的值为1024,则如果某个像素的newPixel - oldPixel = 10,则结果为 (24 * 1024 * 10) >> 16 = 3,但是实际的浮点为3.75,理论上应该取4更为合适。
// (3) oldPixel * (1 - M) + newPixel * M经过整理可以变为 oldPixel + (newPixel - oldPixel) * M, 此时配合newPixel - oldPixel的符号特性,可以使用_mm_adds_epu8和_mm_subs_epu8来实现最后的结果计算
总的来说这个算法,还是利用历史帧的数据不断的来平均误差,减少视频的噪音的,但是其可以充分利用快速计算8个字节数据的累加值的指令_mm_sad_epu8,可以达到非常恐怖的计算效率和速度。
测试1280*720大小视频,去噪平均一帧约0.8ms,1920*1080视频一帧需要约1.8ms(均位YUV422格式视频)。
由于这里上传不了视频,有需要了解该算法效果的,可以单独联系我,我可以提供个测试DEMO(DEMO太大,无法上传),下面截两张图可以稍微看到区别。


【短道速滑六】古老的视频去噪算法(FLT_GradualNoise)解析并优化,可实现1920*1080 YUV数据400fps的处理能力。的更多相关文章
- 【短道速滑九】仿halcon中gauss_filter小半径高斯模糊优化的实现
通常,我们谈的高斯模糊,都知道其是可以行列分离的算法,现在也有着各种优化算法实现,而且其速度基本是和参数大小无关的.但是,在我们实际的应用中,我们可能会发现,有至少50%以上的场景中,我们并不需要大半 ...
- Atitit.java图片图像处理attilax总结 BufferedImage extends java.awt.Image获取图像像素点image.getRGB(i, lineIndex); 图片剪辑/AtiPlatf_cms/src/com/attilax/img/imgx.javacutImage图片处理titit 判断判断一张图片是否包含另一张小图片 atitit 图片去噪算法的原理与
Atitit.java图片图像处理attilax总结 BufferedImage extends java.awt.Image 获取图像像素点 image.getRGB(i, lineIndex); ...
- 三维网格去噪算法(L0 Minimization)
[He et al. 2013]文章提出了一种基于L0范数最小化的三角网格去噪算法.该思想最初是由[Xu et al. 2011]提出并应用于图像平滑,假设c为图像像素的颜色向量,▽c为颜色向量的梯度 ...
- 三维网格去噪算法(two-step framework)
基于两步法的网格去噪算法顾名思义包含两个步骤:首先对网格表面的法向进行滤波,得到调整后的网格法向信息,然后根据调整后的法向更新顶点坐标位置,下面介绍三篇该类型的文章. [Sun et al. 2007 ...
- 三维网格去噪算法(bilateral filter)
受图像双边滤波算法的启发,[Fleishman et al. 2003]和[Jones et al. 2003]分别提出了利用双边滤波算法对噪声网格进行光顺去噪的算法,两篇文章都被收录于当年的SIGG ...
- 经典算法题每日演练——第六题 协同推荐SlopeOne 算法
原文:经典算法题每日演练--第六题 协同推荐SlopeOne 算法 相信大家对如下的Category都很熟悉,很多网站都有类似如下的功能,“商品推荐”,"猜你喜欢“,在实体店中我们有导购来为 ...
- 【图像处理】Haar Adaboost 检测自定义目标(视频车辆检测算法代码)
阅读须知 本博客涉及到的资源: 正样本:http://download.csdn.net/detail/zhuangxiaobin/7326197 负样本:http://download.csdn.n ...
- 字符串与模式匹配算法(六):Needleman–Wunsch算法
一.Needleman-Wunsch 算法 尼德曼-翁施算法(英语:Needleman-Wunsch Algorithm)是基于生物信息学的知识来匹配蛋白序列或者DNA序列的算法.这是将动态算法应用于 ...
- Adaboost 算法实例解析
Adaboost 算法实例解析 1 Adaboost的原理 1.1 Adaboost基本介绍 AdaBoost,是英文"Adaptive Boosting"(自适应增强)的缩写,由 ...
- 2. Attention Is All You Need(Transformer)算法原理解析
1. 语言模型 2. Attention Is All You Need(Transformer)算法原理解析 3. ELMo算法原理解析 4. OpenAI GPT算法原理解析 5. BERT算法原 ...
随机推荐
- php开发之文件上传的实现
前言 php是网络安全学习里必不可少的一环,简单理解php的开发环节能更好的帮助我们去学习php以及其他语言的web漏洞原理 正文 在正常的开发中,文件的功能是必不可少,比如我们在论坛的头像想更改时就 ...
- DP:打家劫舍
你是一个专业的小偷,计划偷窃沿街的房屋.每间房内都藏有一定的现金,影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统,如果两间相邻的房屋在同一晚上被小偷闯入,系统会自动报警. 给定一个代表每 ...
- (Good topic)四因数 (leetcode 181周赛T2)
四因数难度中等1收藏分享切换为英文关注反馈给你一个整数数组 nums,请你返回该数组中恰有四个因数的这些整数的各因数之和. 如果数组中不存在满足题意的整数,则返回 0 . 示例: 输入:nums ...
- 在.net中使用AutoMapper进行对象映射,对象相互转,简单方便
AutoMapper是一种对象映射工具,它可以帮助我们将不同类型的数据对象之间进行相互转换.在.NET中,我们可以使用AutoMapper库来简化数据对象之间的映射操作,从而提高代码的可读性和可维护性 ...
- 华为ar502H物联网边缘计算网关,在容器内控制/dev/do0开关命令
执行以下命令进行开关do继电开关,可以听见电位器声音. echo -en "\x01" > /dev/do0 echo -en "\x00" > ...
- 记一次逆向分析解密还原Class文件
前言 前阵子我的一位朋友发来一份代码让我帮忙看看.具体就是所有的jsp文件内容和大小都一样,漏洞挖掘无从下手.经过分析发现所有的Class都使用了自定义的加密工具加密,经过逆向分析,顺利解密,因而有了 ...
- 深入解析LLaMA如何改进Transformer的底层结构
本文分享自华为云社区<大语言模型底层架构你了解多少?LLM大底层架构之LLM模型结构介绍>,作者: 码上开花_Lancer . 大语言模型结构当前绝大多数大语言模型结构都采用了类似GPT ...
- Python 潮流周刊第 30 期(摘要)
本周刊由 Python猫 出品,精心筛选国内外的 250+ 信息源,为你挑选最值得分享的文章.教程.开源项目.软件工具.播客和视频.热门话题等内容.愿景:帮助所有读者精进 Python 技术,并增长职 ...
- C++ Qt开发:使用顺序容器类
当我们谈论编程中的数据结构时,顺序容器是不可忽视的一个重要概念.顺序容器是一种能够按照元素添加的顺序来存储和检索数据的数据结构.它们提供了简单而直观的方式来组织和管理数据,为程序员提供了灵活性和性能的 ...
- 编辑linux服务启动命令(app-script.sh命令编写)
#!/bin/sh# 注:这里可替换为你自己的执行程序,其他代码无需更改APP_NAME=app-biz.jar #使用说明,用来提示输入参数usage() { echo "Usage: s ...