镜头边界检测技术简述

介绍

作为视频最基本的单元帧(Frame),它的本质其实就是图片,一系列帧通过某种顺序组成在一起就构成了视频。镜头边界是视频相邻两帧出现了某种意义的变化,即镜头边界反映了视频内容的不连续性。这种变化反映了某些关键信息,通过设定不同的检测指标,我们能够得到这些关键信息的变化。因此镜头边界检测技术(Shot Bound Detection)的实质设定一个检测指标来获取我们需要的关键信息。这种关键信息在不同任务中的体现使不一样的,动作识别中我们需要能检测动作变化的镜头边界,视频索引任务中我们需要能够表现这个视频整体的视频边界,这就有赖于人为选择检测算法。虽然随着深度学习的兴起,人们开始将深度学习应用在镜头边界检测上,但是传统图像处理方法的镜头边界检测技术仍然有着广泛的,本文旨在对一些常见的镜头边界检测技术进行简述。

连续帧相减法

连续帧相减法实现

一帧本质就是一张图片,因此衡量两帧之间变化本质就是衡量两张图片的区别。在KNN算法中衡量两张图片之间相似度就是图片对应像素相减之和,将其累加,值最小的即最接近的两张图片。连续帧相减法中,我们同样使用这个指标来评价两张图片的近似度,一旦区别大到一定地步则认为该两帧是镜头边界。

读入视频连续的三帧

我们可以清除的看到前两帧的图片几乎一样,第三帧则发生了颜色逆转,可以认为这是该视频的关键镜头。事实上,作为静止系mad,这里也确实是一个小高潮。

图像来自于bilibili,可以点击这里查看你就是我的真物

我们使用连续帧相减法来计算彼此之间的差别,画出他们的差距图

def diffimage(src_1,src_2):
#将numpy的基础类型转化为int型否则uint8会发生溢出
src_1 = src_1.astype(np.int)
src_2 = src_2.astype(np.int)
diff = abs(src_1 - src_2)
return diff.astype(np.uint8)

计算第二张图片与第一张图片差值,第二张图片与第三张图片差值,并使用matplotlib画出来

但是奇怪的是肉眼看不出来的图一和图二(实际上图一相比图二图上的内容有轻微的缺少,同时相比图二,图一有轻微的放大),之间的差别也是相当大。

#使用np.sum取得到的diff之和
图一与图二之间的像素点对应差距值之和 7777617
图二与三之间的像素点对应差距值之和 131587585

这就是连续帧相减法的一个缺陷对于运动目标的过于敏感,图一与图二之间是有轻微的缩放的,而图二与图三更多的只是颜色上的翻转,这极大影响了连续帧相减法检测的准确性,如何减少这些运动对帧相减法的影响?

使用均值滤波处理后使用连续帧相减法

使相对小的平移被忽略的一个直观的方法就是每个像素点取附近的均值,使用均值滤波器能够忽略一些无用的细节。使用通用3*3的卷积核在进行连续帧相减法查看效果。

blur_image1 = cv2.blur(image1,ksize=(3,3))
blur_image2 = cv2.blur(image2,ksize=(3,3))
blur_image3 = cv2.blur(image3,ksize=(3,3))
#省略画子图代码

cross1 = diffimage(blur_image1,blur_image2)
cross2 = diffimage(blur_image3,blur_image2)



图一与图二之间的像素点对应差距值之和 6894882

图二与三之间的像素点对应差距值之和 130940724

从上面的结果与一开始的对比,均值滤波确实减弱了缩放对于两帧差距的影响,但是减弱效果并不理想,因此我们可以得出连续帧相减法的不足,对于运动物体,缩放,平移过于敏感

使用连续帧相减法检测监控视频

相比上例,对监控视频使用连续帧相减法效果显著,考虑到监控器通常监控的区域的变化几乎不变,人的运动能够被轻易的检测出来,而通常检测监控视频中人的出现是通常的需求,我们使用连续帧相减法进行检测。

#核心代码即存储上一帧图像与现在图像进行帧相减法
ret, lastframe = cap.read()
while(cap.isOpened()):
ret, frame = cap.read()
if not ret:
break
if np.sum(diffimage(lastframe,frame))/frame.size > 10:
#设定的阈值
cv2.imwrite(str(uuid.uuid1())+".jpg",frame)
lastframe = frame
cv2.imshow('frame',frame)
if cv2.waitKey(1) & 0xFF == ord('q'):
break

使用连续帧相减法得到关键帧的其中一张如下(具体代码可以参见配套代码)

注:视频为录制了自己经过摄像头的片段

直方图相减法

黑白图像计算直方图差值

正如上面两张图片颜色的明显变化可能是分辨关键帧的因素一样,我们能否直接从颜色通道上来找寻关键帧呢,首先我们画出三张图片的灰度分布图(为了处理方便,将图片转化为灰度图)

我们计算出各灰度分布数量并将其用直方图表示出来

def cal_s(single_chaneel_image):
height,width = single_chaneel_image.shape
color = np.array([0 for i in range(256)])
for i in range(height):
for j in range(width):
color[single_chaneel_image[i][j]]+=1
return color

我们试着画出第一张图灰度分布图,绘图代码很简答

plt.plot([i for i in range(256)],cal_s(gray_image))

我们可以清除的看到第一张照片的灰度分布,将三张图的通道都画出来进行对比

计算直方图差之和

print("1,2 image color distribution diviation",np.sum(diffimage(cal_s(gray_image1),cal_s(gray_image2))))
print("2 3 iamge color distribution diviation",np.sum(diffimage(cal_s(gray_image1),cal_s(gray_image3))))
#第一张图片与第二张图片直方图差值为 15406
#第三张图片与第二张图片直方图差值为 26378

三通道图像计算直方图差值

单纯的黑白图像可能丢失很大一部分细节,比如第三张图相比第一张,第二张色调发生了明显的反转,但转化为黑边图像则不如彩图时那么明显.

三通道差值计算将三通道分离然后分别计算在merge在一起,代码如下

def cal_s_rgb(image):
image = image.astype(np.int)
color = cv2.split(image)
color = list(map(cal_s,color))
return np.array(color).astype(np.uint8)

我们还是使用图像将图片显示出来







print("image2 image1 color distribution diviation",np.sum(diffimage(cal_s_rgb(image1),cal_s_rgb(image2))))
print("image2 image3 color distribution diviation",np.sum(diffimage(cal_s_rgb(image3),cal_s_rgb(image2))))
#图像1,2直方图差值和为 54100
#图像2,3直方图差值和为 73832

通过对比三张图rgb通道的分布直方图我们发现第三张图的b通道分布的相比1,2图很均匀,这也是将rgb通道分别相减求和与1,2图片的差距主要来源,但是由于r,g通道分布的相近,我们发现彩图的三图差距并不如黑白图几乎相差一倍那么明显。

感知哈希法

感知哈希法在计算图片相似度,音乐相似度等方面都极为常用。该算法对每张图片使用hash算法生成一个“指纹”字符串,通过比较不同图片的指纹来实现图片相似度的计算。在镜头边界检测中,一旦相似度低于一定阈值,则判断为镜头边界。选取不同hash算法对与算法的成效有较大影响。

感知哈希法的实现

图片缩放与简化色彩

感知哈希法在一开始将图片进行缩放,缩放的大小由使用者指定,有如下好处

1.相当于取了一定区域的特征,减少敏感性。

2.减少生成指纹大小。

3.减少计算量

同上一步一样简化色彩也起了抽象特征,减少计算量,存储量的作用。

def convertImage(image):
image = cv2.resize(image,(32,32),interpolation=cv2.INTER_CUBIC)
image = cv2.cvtColor(image,cv2.COLOR_RGB2GRAY)
return image

计算DCT

DCT变换是将图像的信号转换到频域的一种方法,由于实现较为复杂,此处直接调用。

dct_1 = cv2.dct(cv2.dct(dct_matrix))

缩小DCT

取得到的DCT左上角8*8的矩阵作为特征,并求得其均值,凡大于均值则为1,小于则为0

dct_1 = dct_1[:8,:8]
avg = np.mean(dct_1)
reimg_list = ['0' if i > avg else '1' for i in dct_1.flatten()]

计算指纹

将求得的转化为16进制的数字即其指纹

#fig = hex(int("".join(reimg_list),2))
fig = ""
for i in range(0,64,4):
num = hex(int("".join(img_list[i:i+4]),2))
fig += num[2:]
计算汉明距离
def hammingDist(s1, s2):
assert len(s1) == len(s2)
return sum([ch1 != ch2 for ch1, ch2 in zip(s1, s2)])
hammingDist(fig1,fig2)

总结

镜头边界检测技术本质是根据不同的指标检测两帧之间的区别,根据检测指标,区别越大则表示我们需要的信息变化越大。在实际使用中应根据不同的选择不同的边界检测技术。

附录

使用上述三种方法分别对录制的视频进行了检测,可以参考我使用opencv_python写的代码

python数字图像处理(二)关键镜头检测的更多相关文章

  1. python数字图像处理(17):边缘与轮廓

    在前面的python数字图像处理(10):图像简单滤波 中,我们已经讲解了很多算子用来检测边缘,其中用得最多的canny算子边缘检测. 本篇我们讲解一些其它方法来检测轮廓. 1.查找轮廓(find_c ...

  2. 「转」python数字图像处理(18):高级形态学处理

    python数字图像处理(18):高级形态学处理   形态学处理,除了最基本的膨胀.腐蚀.开/闭运算.黑/白帽处理外,还有一些更高级的运用,如凸包,连通区域标记,删除小块区域等. 1.凸包 凸包是指一 ...

  3. python skimage图像处理(二)

    python skimage图像处理(二) This blog is from: https://www.jianshu.com/p/66e6261f0279  图像简单滤波 对图像进行滤波,可以有两 ...

  4. python数字图像处理(1):环境安装与配置

    一提到数字图像处理编程,可能大多数人就会想到matlab,但matlab也有自身的缺点: 1.不开源,价格贵 2.软件容量大.一般3G以上,高版本甚至达5G以上. 3.只能做研究,不易转化成软件. 因 ...

  5. 初始----python数字图像处理--:环境安装与配置

    一提到数字图像处理编程,可能大多数人就会想到matlab,但matlab也有自身的缺点: 1.不开源,价格贵 2.软件容量大.一般3G以上,高版本甚至达5G以上. 3.只能做研究,不易转化成软件. 因 ...

  6. python数字图像处理(18):高级形态学处理

    形态学处理,除了最基本的膨胀.腐蚀.开/闭运算.黑/白帽处理外,还有一些更高级的运用,如凸包,连通区域标记,删除小块区域等. 1.凸包 凸包是指一个凸多边形,这个凸多边形将图片中所有的白色像素点都包含 ...

  7. python数字图像处理(5):图像的绘制

    实际上前面我们就已经用到了图像的绘制,如: io.imshow(img) 这一行代码的实质是利用matplotlib包对图片进行绘制,绘制成功后,返回一个matplotlib类型的数据.因此,我们也可 ...

  8. python数字图像处理(三)边缘检测常用算子

    在该文将介绍基本的几种应用于边缘检测的滤波器,首先我们读入saber用来做为示例的图像 #读入图像代码,在此之前应当引入必要的opencv matplotlib numpy saber = cv2.i ...

  9. python数字图像处理(9):直方图与均衡化

    在图像处理中,直方图是非常重要,也是非常有用的一个处理要素. 在skimage库中对直方图的处理,是放在exposure这个模块中. 1.计算直方图 函数:skimage.exposure.histo ...

随机推荐

  1. SpringBoot整合Shiro实现权限控制,验证码

    本文介绍 SpringBoot 整合 shiro,相对于 Spring Security 而言,shiro 更加简单,没有那么复杂. 目前我的需求是一个博客系统,有用户和管理员两种角色.一个用户可能有 ...

  2. Android Studio 安装 Flutter

    1 下载sdk https://flutter.dev/docs/get-started/install/windows   2 解压到自定义文件夹,并配置bin路径到环境变量path中 path添加 ...

  3. EDM营销技巧之如何进行用户唤醒

    一般来说,EDM营销中肯定有些用户就长期不关注我们的邮件.这个时候我们应该如何唤醒用户呢?本文给大家分享一下技巧. 首先,我们要注重电子邮件地址的价值.只有好的新的邮件地址库,才能引起用户足够的关注. ...

  4. Vue创建局部组件

    <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

  5. C#接口的实现和继承实践

    1.基本概念 接口是一种契约规范,类似于抽象基类.包括方法,属性,索引器和事件作为成员,这些成员只是作为定义,并不在接口中具体实现. 接口创建时注意以下事项: 继承接口的任何非抽象类都必须实现接口的所 ...

  6. 在word中的表格指定位置插入一行

    //创建一个Document类对象,并加载Word文档 Document doc = new Document(); doc.LoadFromFile(@"C:\Users\Administ ...

  7. String.prototype.replace

    第一个参数是正则表达式 第二个参数是一个replacer 函数的入参如下: replacer(match,p1,p2,p3.. 其实也相当于 replacer($&,$1,$2,$3.. 资料 ...

  8. 阶段3 1.Mybatis_09.Mybatis的多表操作_4 完成account一对一操作-建立实体类关系的方式

    定义user的实体.然后生成getter和setter 定义一个可以封装Account和User的Map type这里虽然是account类型 这一段只能保证account的数据完成.并不能保证use ...

  9. kubernets部署微服务电商平台

    一.准备条件 1) 确保kubernetes可以访问:reg.yunwei.edu镜像库(vim /etc/hosts) [root@cicd yml]# cat /etc/hosts 127.0.0 ...

  10. 11 ORA-8102:Index Corruption解析

    11 ORA-8102:Index Corruption解析 [oracle@DSI ~]$ oerr ora 810208102, 00000, "index key not found, ...