1.查找重复图片

利用文件的MD5值可查找完全一样的重复图片

import os,time,hashlib

def getmd5(file):
if not os.path.isfile(file):
return
fd = open(file,'rb')
md5 = hashlib.md5()
md5.update(fd.read())
fd.close()
return md5.hexdigest() if __name__ == "__main__":
allfile = []
md5list = []
list_delete = [] start = time.time()
path = 'D:\\_PLAY\\新建文件夹\\' for filepath,dir,filelist in os.walk(path):
for filename in filelist:
allfile.append(os.path.join(filepath,filename)) #根据MD5值比较
for photo in allfile:
md5sum = getmd5(photo)
if md5sum not in md5list:
md5list.append(md5sum)
else:
list_delete.append(photo)
print('重复的照片有:',list_delete) #删除图片
for i in range(len(list_delete)):
os.remove(list_delete[i])

二.查找相似图片

本文采用四种哈希值进行比较:

1.感知哈希(perception hashing)

2.平均散列(average hashing)

3.梯度散列(difference hashing)

4.离散小波变换(wavelet hashing)

import os,imagehash
from PIL import Image def hash(path):
highfreq_factor = 4 # resize的尺度
hash_size = 32 # 最终返回hash数值长度
image_scale = 64
img_size = hash_size * highfreq_factor
list_file = []
list_phash = []
list_ahash = []
list_dhash = []
list_whash = []
for file in os.listdir(path):
if os.path.splitext(file)[1] == '.jpg':
path_file = os.path.join(path, file) # 拼路径
list_file.append(file)
phash = imagehash.phash(Image.open(path_file),hash_size=hash_size,highfreq_factor=highfreq_factor)#感知哈希(perception hashing)
ahash = imagehash.average_hash(Image.open(path_file),hash_size=hash_size)#平均散列(average hashing)
dhash = imagehash.dhash(Image.open(path_file),hash_size=hash_size)#梯度散列(difference hashing)
whash = imagehash.whash(Image.open(path_file),image_scale=image_scale,hash_size=hash_size,mode = 'db4')#离散小波变换(wavelet hashing)
list_phash.append(phash)
list_ahash.append(ahash)
list_dhash.append(dhash)
list_whash.append(whash)
#print(list_hash)
for i in range(len(list_file)):
for j in range(i+1,len(list_file)):
phash_value = 1-(list_phash[i]-list_phash[j])/len(list_phash[i].hash)**2
ahash_value = 1-(list_ahash[i]-list_ahash[j])/len(list_ahash[i].hash)**2
dhash_value = 1-(list_dhash[i]-list_dhash[j])/len(list_dhash[i].hash)**2
whash_value = 1-(list_whash[i]-list_whash[j])/len(list_whash[i].hash)**2
value_hash = max(phash_value,ahash_value,dhash_value,whash_value)
if(value_hash > 0.9):#阈值设为0.9
size_i = os.path.getsize(path + '\\' + list_file[i])
size_j = os.path.getsize(path + '\\' + list_file[j])
print(list_file[i],str(size_i/1024)+'KB')
print(list_file[j],str(size_j/1024)+'KB')
print(value_hash)
print('***********************') if __name__ == '__main__':
path = r'D:\_PLAY\新建文件夹\Excel\ALL_Daily'
hash(path)

python查找相似图片或重复图片的更多相关文章

  1. Python脚本:删除文件夹下的重复图片,实现图片去重

    近期在整理相册的时候,发现相册中有许多重复图片,人工一张张筛查删除太枯燥,便写下这个脚本,用于删除文件夹下重复的图片. 第一部分:判断两张图片是否相同 要查找重复的图片,必然绕不开判断两张图片是否相同 ...

  2. arp协议分析&python编程实现arp欺骗抓图片

    arp协议分析&python编程实现arp欺骗抓图片 序 学校tcp/ip协议分析课程老师布置的任务,要求分析一种网络协议并且研究安全问题并编程实现,于是我选择了研究arp协议,并且利用pyt ...

  3. Android ListView滑动过程中图片显示重复错乱闪烁问题解决

    最新内容建议直接访问原文:Android ListView滑动过程中图片显示重复错乱闪烁问题解决 主要分析Android ListView滚动过程中图片显示重复.错乱.闪烁的原因及解决方法,顺带提及L ...

  4. 在xml中使用图片资源时,设置重复图片而不是拉伸平铺

    直接把图片放入xml中时,默认会拉伸图片填充.而用下面的方法则可以实现重复图片 <?xml version="1.0" encoding="utf-8"? ...

  5. iOS多线程自定义operation加载图片 不重复下载图片

    摘要:1:ios通过抽象类NSOperation封装了gcd,让ios的多线程变得更为简单易用:   2:耗时的操作交给子线程来完成,主线程负责ui的处理,提示用户的体验   2:自定义operati ...

  6. AndroidListview 滑动过程中图片显示重复错乱解决方案

    主要分析Android中Listview滚动过程造成的图片显示重复.错乱.闪烁的原因及解决方法,顺便跟进Listview的缓存机制. 1.原因分析 Listview item 缓存机制:为了使得性能更 ...

  7. python爬取某个网页的图片-如百度贴吧

    python爬取某个网页的图片-如百度贴吧 作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...

  8. Android在ListView显示图片(重复混乱闪烁问题)

    Android在ListView显示图片(重复混乱闪烁问题) 1.原因分析 ListView item缓存机制: 为了使得性能更优,ListView会缓存行item(某行相应的View). ListV ...

  9. 测试开发Python培训:实现屌丝的图片收藏愿望(小插曲)

    测试开发Python培训:实现屌丝的图片收藏愿望(小插曲) 男学员在学习python的自动化过程中对于爬虫很感兴趣,有些学员就想能收藏一些图片,供自己欣赏.作为讲师只能是满足愿望,帮助大家实现对美的追 ...

随机推荐

  1. 开发Chrome插件,实现网站自动登录

    近期被一个事情困扰着,我们采购了一款软件,里面有一个数据大屏页,当登录过期后,数据就会保持原状,不再更新.和供应商反馈了很多次,都无法彻底解决数据显示的问题,没办法,自己周末在家研究,网站自动登录的事 ...

  2. Spring源码 09 IOC refresh方法4

    参考源 https://www.bilibili.com/video/BV1tR4y1F75R?spm_id_from=333.337.search-card.all.click https://ww ...

  3. 051_末晨曦Vue技术_处理边界情况之provide和inject依赖注入

    provide和inject依赖注入 点击打开视频讲解更详细 在此之前,在我们描述访问父级组件实例的时候,展示过一个类似这样的例子: <google-map> <google-map ...

  4. 使用docker简单编译k20pro内核

    简介 本文将介绍一下如何使用docker编译红米k20pro的内核.作者当时尝试构建内核的原因是为了将3年前(好像是吧)购买的k20pro至尊版(已退役,12GB内存,512GB硬盘)制作成一个小的服 ...

  5. 一次客户需求引发的K8S网络探究

    前言 在本次案例中,我们的中台技术工程师遇到了来自客户提出的打破k8s产品功能限制的特殊需求,面对这个极具挑战的任务,攻城狮最终是否克服了重重困难,帮助客户完美实现了需求?且看本期K8S技术案例分享! ...

  6. [NOIP2018提高组] 保卫王国 (树链剖分+动态DP)

    题面 题目链接-Luogu 题目链接-Loj(要加Freopen) 题解 什么是动态DP? OneInDark:你不需要知道这么多,你只需要知道是利用了广义矩阵乘法就够了! 广义矩乘 广义矩阵乘法,简 ...

  7. LIKE与等式查询比较

    我们知道 char 是定长类型的数据,如果数据长度小于定义的长度,会在字符串尾部加上空格.而对于空格的处理,对于等式匹配,或length等,会忽略空格.而对于like 或模式匹配,空格不能忽略. 一. ...

  8. Docker_删除none镜像

    Docker 删除 none 镜像 docker images|grep none|awk '{print $3}'|xargs docker rmi

  9. The 19th Zhejiang Provincial Collegiate Programming Contest

    目录 A.JB Loves Math B.JB Loves Comma C. JB Wants to Earn Big Money G. Easy Glide I. Barbecue L. Candy ...

  10. 基于 iframe 的微前端框架 —— 擎天

    vivo 互联网前端团队- Jiang Zuohan 一.背景 VAPD是一款专为团队协作办公场景设计的项目管理工具,实践敏捷开发与持续交付,以「项目」为核心,融合需求.任务.缺陷等应用,使用敏捷迭代 ...