背景

在重复图识别领域，对于识别肉眼相同图片，PHash是很有用的，而且算法复杂度很低。它抓住了 ” 人眼对于细节信息不是很敏感 “ 的特性，利用DCT变换把高频信息去掉，再加上合适&简单的二值化方式，使得算法效果比较鲁棒。

PHash算法

附上python代码：

 def phash(image, hash_size=8, highfreq_factor=4):

     import scipy.fftpack

     img_size = hash_size * highfreq_factor

     image = image.convert("L").resize((img_size, img_size), Image.ANTIALIAS)// 1、【预处理】转灰度图，resize

     pixels = numpy.asarray(image)

     dct = scipy.fftpack.dct(scipy.fftpack.dct(pixels, axis=0), axis=1) //DCT变换

     dctlowfreq = dct[:hash_size, :hash_size] //2、只留下直流&&低频变量

     med = numpy.median(dctlowfreq) //取中值

     diff = dctlowfreq > med //3、【二值化】大于中值为1，小于等于中值为0

     return diff

PHash算法其实很简单，主要就3步：

图片预处理
DCT变换
二值化

其中图片预处理很简单，这里就不详细讲解了。下面主要给大家直观介绍下DCT变换究竟是什么，还有这里是怎么二值化的。

DCT变换

DCT变换，全称是Discrete Cosine Transform，也就是离散余弦变换，具体的公式跟原理这里就不详述了，具体可以看DCT变换公式&原理

DCT变换能把图像转成频谱图，DCT逆变换能把频谱图转回原图，如下图所示。

其中频谱图中，左上角属于低频变量，右下角属于高频变量，然后比较特殊的一点是左上角a[0][0]这点属于直流变量。由于人眼对于细节信息不是很敏感，所以我们在识别肉眼相同级别重复图的时候，只用频谱图中的低频信息就足够了，所以这就是phash中只取DCT低频信息的原因。

怎么理解图片中的低频跟高频

在频谱图中，我们知道左上角那些是低频信息，右下角是高频信息。那么在一张图片中，哪些信息是低频，哪些信息是高频呢？

由于DCT是可逆变换，那么我们可以只用频谱图中某一块进行DCT逆变换，那么就可以直观看到频谱图中这一块代表什么信息？

接下来，我们利用DCT逆变换生成两列图片（如下所示）：

【左下角】第一列直接用频谱图左上角N*N的矩阵，进行DCT逆变换生成的图片。
【除左下角】第二列把频谱图中左上角N*N矩阵置0，进行DCT逆变换生成的图片。

从上可以得出结论：

图片中低频信息是那些像素点色块连续的部分
图片中高频信息是那些色块边界点
左上角那一点，属于直流变量，直接置0，影响不大
当N（600）很大的时候，DCT变换可以用坐降噪、压缩

附上代码，方便大家理解

import cv2

import copy

import numpy as np

import matplotlib.pyplot as plt

#展示图片

def show_img(img):

    plt.imshow(img, cmap='Greys_r')

    plt.show()

#左上角低频矩阵，进行DCT逆变换

def low_frequency_idct(dct,dct_size):

	#非左上角N*N区域置0

    dct[dct_size+1:,:] = 0

    dct[:,dct_size+1:] = 0

    #逆DCT变换

    img = cv2.idct(dct)

    #展示图片

    show_img(img)

#把左上角信息清除后，进行DCT逆变换

def hight_frequency_idct(dct,dct_size):

	#左上角N*N区域置0

    dct[0:dct_size,0:dct_size]=0

    #逆DCT变换

    img = cv2.idct(dct)

    #展示图片

    show_img(img)

#主函数

def work(image_name, img_size, dct_size):

    #图片预处理

    img = cv2.imread(image_name,0)

    show_img(img)

    img = cv2.resize(img,(img_size,img_size),interpolation=cv2.INTER_CUBIC)

    show_img(img)

    img = np.float32(img)

    #DCT变换

    dct = cv2.dct(img)

    #用左上角，进行逆dct变换

    low_frequency_idct(copy.deepcopy(dct),dct_size)

    #左上角置0，进行逆dct变换

    hight_frequency_idct(copy.deepcopy(dct),dct_size)

image_name = '11.png'

img_size = 1000

dct_size = 30

work(image_name,img_size,dct_size)

二值化

目前我们获取到了肉眼最敏感的信息，这里应该怎么二值化呢？

首先我们需要选取一个基准值，然后大于基准值的置1，小于等于基准值的置0。

那么问题来了，怎么选择这个基准值呢？这里有两种方式：

1、均值

由于频谱图左上角那一点（直流变量），就是用原图所有像素点加起来得到的，所以这个点会很大，完全偏离总体的值。

然后这里基准值如果用均值的话，会导致phash值中1的个数会偏少，而且左上角那边大概率是1，右下角那边大概为0。这就会导致phash中0，1的分布不均匀。那么其实对于phash值的特征空间就有一定的缩小很多了。（如上图所示，1个数很少）

PS：改进策略：去除频谱图中第一行&&第一列的元素。

这样能把一些很离谱的偏离点删除，但是未必偏离点就在第一行&第一列，只是大概率在这里。其实这样还不如直接用中值更加直接。

改进之后效果好很多，但是并没有中值鲁棒。

2、中值

利用中值来当基准值，效果会好很多。phash值中，0，1分布概率一样，并且特征空间比均值大很多。

PHash从0到1的更多相关文章

ZAM 3D 制作简单的3D字幕流程(二)
原地址:http://www.cnblogs.com/yk250/p/5663907.html 文中表述仅为本人理解,若有偏差和错误请指正! 接着 ZAM 3D 制作简单的3D字幕流程(一) .本篇 ...
ZAM 3D 制作3D动画字幕用于Xaml导出
原地址-> http://www.cnblogs.com/yk250/p/5662788.html 介绍:对经常使用Blend做动画的人来说,ZAM 3D 也很好上手,专业制作3D素材的XAML ...
微信小程序省市区选择器对接数据库
前言,小程序本身是带有地区选着器的(网站:https://mp.weixin.qq.com/debug/wxadoc/dev/component/picker.html),由于自己开发的程序的数据是很 ...
osg编译日志
1>------ 已启动全部重新生成: 项目: ZERO_CHECK, 配置: Debug x64 ------1> Checking Build System1> CMake do ...
【AR实验室】OpenGL ES绘制相机（OpenGL ES 1.0版本）
0x00 - 前言之前做一些移动端的AR应用以及目前看到的一些AR应用,基本上都是这样一个套路:手机背景显示现实场景,然后在该背景上进行图形学绘制.至于图形学绘制时,相机外参的解算使用的是V-SLA ...
Elasticsearch 5.0 中term 查询和match 查询的认识
Elasticsearch 5.0 关于term query和match query的认识一.基本情况前言:term query和match query牵扯的东西比较多,例如分词器.mapping ...
Swift3.0服务端开发(一) 完整示例概述及Perfect环境搭建与配置（服务端+iOS端）
本篇博客算是一个开头,接下来会持续更新使用Swift3.0开发服务端相关的博客.当然,我们使用目前使用Swift开发服务端较为成熟的框架Perfect来实现.Perfect框架是加拿大一个创业团队开发 ...
vue2.0实践的一些细节
最近用vue2.0做了个活动.做完了回头发现,好像并没有太多的技术难点,而自己好像又做了比较久...只能说效率有待提升啊...简单总结了一些比较细节的点. 1.对于一些已知肯定会有数据的模块,先用一个 ...
Linux平台 Oracle 10gR2（10.2.0.5）RAC安装 Part3：db安装和升级
Linux平台 Oracle 10gR2(10.2.0.5)RAC安装 Part3:db安装和升级环境:OEL 5.7 + Oracle 10.2.0.5 RAC 5.安装Database软件 5. ...

随机推荐

ESP8266 鼓捣记 - 入门（环境搭建）
一.前言以前没怎么接触过硬件开发,ESP8266 这个名字还是从朋友处得知,用它做了许多好玩的东西,便想着自己也来玩一玩.定了一个小目标,做一个温度计.本文介绍从0到 "Hello Wor ...
seaborn库中柱状图绘制详解
柱状图用于反映数值变量的集中趋势,用误差线估计变量的差值统计.理解误差线有助于我们准确的获取柱状图反映的信息,因此打算先介绍一下误差线方面的内容,然后介绍一下利用seaborn库绘制柱状图. 1.误差 ...
Python_用PyQt5 建 notepad 界面
用PyQt5建notepad界面 1 # -*-coding:utf-8 -*- 2 """ 3 简介:用PyQt5做一个对话框,有菜单(2个.有独立图标.快捷键).提示 ...
Dubbo 服务引入-Version2.7.5
1.服务引用原理 Dubbo 服务引用的时机有两个,第一个是在 Spring 容器调用 ReferenceBean 的 afterPropertiesSet 方法时引用服务,第二个是在 Referen ...
v-echarts安装
npm install v-echarts echarts --save
对于线程池ThreadPool的学习总结
线程池:就是一个管理线程的池子. 优点: 它帮我们管理线程,避免增加创建线程和销毁线程的资源损耗.因为线程其实也是一个对象,创建一个对象,需要经过类加载过程,销毁一个对象,需要走GC垃圾回收流程,都是 ...
如何灵活运用ABBYY FineReader的识别功能
由于工作的原因,经常会使用到文字识别工具,说真的,一款好用的文字识别工具能省不少事,前不久碰到一位职场新人,他的工作内容也离不开文字识别工具,他还问我有什么好用的软件推荐,说到好用,还是ABBYY F ...
CorelDRAW不同选择工具的作用及用法汇总
在CorelDRAW中,"选择工具"是我们的好助手之一."选择工具"图标位于CDR界面左边的工具箱中.使用鼠标单击图标右下角的小三角,我们可以看到"选 ...
下载器Folx如何实现排队下载功能
用户在下载多个文件时,当然会希望这些文件都能同时下载,以达到短时间内完成下载任务的目的.但另一方面来说,同时下载过多文件,会分散带宽资源,降低了每个文件的下载速度,从而导致下载时间的延长. 为了实现多 ...
Jenkins中如何自定义构造结果
jenkis中的触发邮件机制是根据构建成功与否来发邮件,实际上我们在jenkis上定时执行脚本时是需要根据用例的执行结果来触发邮件预警本文讲叙如何根据用例的执行结果来触发邮件预警 1.在任务配置的b ...

PHash从0到1

背景