[原创]使用python对视频/音频文件进行详细信息采集,并进行去重操作

转载请注明出处

一.关于为什么用pymediainfo以及pymediainfo的安装

  使用python对视频/音频文件进行详细信息采集,并进行去重操作的核心是使用pymediainfo这个库

  之前本人一直在试着用moviepy库中的VideoFileClip来获取视频/音频文件的详细信息,但效果不理想,一直报错根本无法解决.

  直到本人发现了pymediainfo这个库,问题才得到解决(pymediainfo可以获取极其详细的音频/视频文件的具体信息).

  pymediainfo的安装:(参考https://www.jianshu.com/p/4c115bd82774)

    1.pip install pymediainfo  或者 python -m pip install pymediainfo

    2.然后到官网下载该程序,(官网地址: https://pypi.org/project/pymediainfo/),安装到指定文件夹

    3.特别重要的一步:到你安装pymediainfo的文件夹中找到MediaInfo.dll这个文件,把它复制到你Python的根目录下(不复制程序会报无法打开xx程序的错!)

二.视频/音频去重的简单逻辑:

  如果两个视频/音频文件的大小完全一致,而且时长也完全一致,则该两个文件极有可能是重复的.

三.代码实现:

  下面代码你只需要把

    file_dir = r"D:\Movie\180919"  
    dire_dir = r'D:\Movie\BBB'

  更改成你自己的绝对路径就可以了(file_dir是你视频/音频文件的目录, dire_dir是将重复视频文件移动至的目录,程序结束后file_dir目录中的重复文件会被移动到dire_dir)

  注意:file_dir路径里只能放音频,视频文件,放入其他文件可能会报错(本人只考虑了file_dir中只有视频/音频文件的情况)

  程序功能:8G内存IE7处理器能处理11000个,大约2000G的视频/音频文件去重工作,花费时间30~40分钟(程序执行with open操作后会巨卡5-10分钟)

 import os
import shutil from pymediainfo import MediaInfo file_dir = r"D:\Movie\180919"  # 定义文件目录(需要自己添加文件的绝对路径)
dire_dir = r'D:\Movie\BBB' # 目标路径,将可能重复的文件移动至此(需要自己添加文件的绝对路径)
video_sumlist = [] # 全音/视频文件列表(绝对路径)
video_detail_list = [] # 全音/视频文件详细信息列表
video_info_list = [] # 只记录需要的关键信息
count = 0 # 用于记录已处理的文件数量 def get_all_file(f_dir): # 获取文件名称与文件大小,以方便使用MediaInfo库遍历获取视频/音频文件的超详细信息
for root, dirs, files in os.walk(f_dir, topdown=True): # root就是"D:\Movie\180919", dirs 为[], files为全部文件列表
for name in files:
video_sumlist.append(os.path.join(root, name)) get_all_file(file_dir)
# print(video_sumlist) for i in video_sumlist: # 获取视频/音频文件的详细信息并存储到video_detail_list中
media_info = MediaInfo.parse(i)
data = media_info.to_data()
video_detail_list.append(data)
count+=1
print("执行完第%d条数据...,视频名称为:%s"%(count, data["tracks"][0]["other_file_name"])) with open(r"./video_detail.py", "w", encoding='utf-8') as f: # 因为遍历上万文件太费时,需要将视频/音频信息存储在文件中,以减少程序执行时间
print("开始执行写入操作...")
f.write(str(video_detail_list)) with open(r"./video_detail.py", "r", encoding='utf-8') as f: # 将存储在file文件中的信息读取到vfile中
print("开始执行读取操作...")
vfile = eval(f.read())
print(type(vfile)) for elem in vfile: # 简化文件信息的列表格式: [{文件名: {"t_size": t_size, "v_duration": v_duration}}, {{文件名: {"t_size": t_size, "v_duration": v_duration}}]
# print('v_size: ', elem["tracks"][0]["file_size"])
# print('v_duration: ', elem["tracks"][0]["duration"])
try:
if elem["tracks"][0]["file_name"] != 'desktop.ini':
video_info_list.append({(elem["tracks"][0]["other_file_name"][0]+"."+elem["tracks"][0]["file_extension"]):\
{"v_size": elem["tracks"][0]["file_size"], "v_duration": elem["tracks"][0]["duration"]}})
else:
print("找到了隐藏文件desktop.ini, 它没有'duration'这个键值对,需要跳过...")
except KeyError:
print("找到一个隐藏文件,该文件名为: ", elem["tracks"][0]["file_name"])
print(video_info_list)
print(video_info_list[0].keys()) # dict_keys(['海阔天空.mp4'])
print(type(video_info_list[0].keys())) # <class 'dict_keys'> start_index = 0
tomove_list = []
while start_index < (len(video_info_list)-1):
find_index = start_index + 1
# print("start_index = ", start_index, "find_index = ", find_index)
# print(list(video_info_list[start_index].values()))
# print(list(video_info_list[start_index].values())[0]["v_size"])
# print(list(video_info_list[start_index].values())[0]["v_duration"])
sample0 = [list(video_info_list[start_index].values())[0]["v_size"], list(video_info_list[start_index].values())[0]["v_duration"]]
while find_index < len(video_info_list):
if sample0[0] == list(video_info_list[find_index].values())[0]["v_size"] and \
sample0[1] == list(video_info_list[find_index].values())[0]["v_duration"]:
tomove_list.append(find_index)
find_index += 1
else:
find_index += 1 # 外层循环开始:
if tomove_list != []:
tomove_list.reverse()
print("to move list after reverse: ", tomove_list)
for tomove_item in tomove_list:
shutil.move(os.path.join(file_dir ,list(video_info_list[tomove_item].keys())[0]), dire_dir)
video_info_list.pop(tomove_item) # 非常重要,保证video_info_list与实际音频/视频数据一致
print("已经移除文件的编号为: ", tomove_item)
start_index += 1
tomove_list = []

完~

[原创]使用python对视频/音频文件进行详细信息采集,并进行去重操作的更多相关文章

  1. php-ffmpeg 操作视频/音频文件

    php-ffmpeg 是一个php操作视频/音频文件的类库. GitHub地址:https://github.com/PHP-FFMpeg/PHP-FFMpeg/ 使用composer快速安装:com ...

  2. (原创)speex与wav格式音频文件的互相转换

    我们的司信项目又有了新的需求,就是要做会议室.然而需求却很纠结,要继续按照原来发语音消息那样的形式来实现这个会议的功能,还要实现语音播放的计时,暂停,语音的拼接,还要绘制频谱图等等. 如果是wav,m ...

  3. (原创)speex与wav格式音频文件的互相转换(二)

    之前写过了如何将speex与wav格式的音频互相转换,如果没有看过的请看一下连接 http://www.cnblogs.com/dongweiq/p/4515186.html 虽然自己实现了相关的压缩 ...

  4. 【原创】python实现视频内的face swap(换脸)

    1.准备工作,按博主的环境为准 Python 3.5 Opencv 3 Tensorflow 1.3.1 Keras 2 cudnn和CUDA,如果你的GPU足够厉害并且支持的话,可以选择安装 那就先 ...

  5. python 读取wav 音频文件的两种方式

    python 中,常用的有两种可以读取wav音频格式的方法,如下所示: import scipy from scipy.io import wavfile import soundfile as sf ...

  6. 【部分原创】python实现视频内的face swap(换脸)

    1.准备工作,按博主的环境为准 Python 3.5 Opencv 3 Tensorflow 1.3.1 Keras 2 cudnn和CUDA,如果你的GPU足够厉害并且支持的话,可以选择安装 那就先 ...

  7. 【Python】[IO编程]文件读写,StringIO和BytesIO,操作文件和目录,序列化

    IO在计算机中指Input/Output,也就是输入和输出. 1.文件读写,1,读文件[使用Python内置函数,open,传入文件名标示符] >>> f = open('/User ...

  8. [Python]获取win平台文件的详细信息

    import win32api def getFileProperties(fname): """ 读取给定文件的所有属性, 返回一个字典. ""&q ...

  9. python脚本实现音频m4a格式转成MP3格式

    群里看到有人询问:谁会用python将微信音频文件后缀m4a格式转成mp3格式,毫不犹豫回了句:我会.然后就私下聊起来了 解决方法介绍如下: 工具:windows系统,python2.7,转换库ffm ...

随机推荐

  1. 10 - EmbeddedChannel-测试ChannelHandler链

    方法 职责 writeInbound(Object... msgs) 将入站消息写入到EmbeddedChannel中 readInbound() 从EmbeddedChannel中读取一个入站消息, ...

  2. SpringBoot | 第一章:第一个SpringBoot应用

    springboot简单介绍 概述 SpringBoot的核心功能 优缺点 优点 缺点 工程搭建 创建项目 项目结构 pom依赖 主入口 编写controller 启动应用 总结 老生常谈 sprin ...

  3. <Android 应用 之路> 天气预报(四)

    前言 第二次尝试完成天气预报应用,与上次不同的是,个人感觉这次的Ui不那么丑陋,整体的实用性和界面效果,用户体验相较上一次有所提升,但是还是有很多地方需要完善. 这次使用到的内容比较丰富,包括聚合数据 ...

  4. Mybatis介绍(一)

    这里介绍的mybatis比较简单, 我做为一个初学者, 记录下个人在学习中方法, 如果那里出错, 希望读者朋友们见谅. 首先这里介绍一下我们下面用的表结构: author表是保存了作者的个人信息, 因 ...

  5. 报错:无法打开"cocos-ext.h" /添加第三方库

    参考原文:http://lin-jianlong.diandian.com/post/2012-11-05/40042951271 1.项目属性->配置属性->C/C++->常规-& ...

  6. JS实现正则表达式

    一.创建正则表达式 一共有两种方式: 1.直接量:var re = /[0-9]*/; 2.通过RegExp对象的构造函数:var re = RegExp("[0-9]*",&qu ...

  7. 使用AirDroid控制百度影棒

    十一假期的时候看到有促销活动买了一个百度影棒2S+.话说这东西当做普通家庭客厅的电视盒子还差点火候,不论是操作还是内容用起来都有点折腾.(当然,有些是形势所迫,大家都懂.) 不过,如果就把它看作是普通 ...

  8. IOS Quartz2D自定义view

    @property (nonatomic, weak) UIImageView *imageView; @property (nonatomic, weak) NJImageView *njIv; @ ...

  9. World Wind Java开发之四——搭建本地WMS服务器(转)

    在提供地理信息系统客户端时,NASA还为用户提供了开源的WMS Server 服务器应用:World Wind WMS Server.利用这个应用,我们可以架设自己的WMS服务并使用自己的数据(也支持 ...

  10. 【BZOJ4327】[JSOI2012] 玄武密码(AC自动机的小应用)

    点此看题面 大致题意: 给你一个长度为\(len\)的文本串和\(n\)个模式串,让你求出每一个模式串的前缀与文本串的最大匹配串长度(其中模式串和文本串都只由字符'E','S','W','N'组成). ...