Python之基于十六进制判断文件类型
核心代码:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Author : suk
import struct
from io import BytesIO # 支持文件类型
# 用16进制字符串的目的是可以知道文件头是多少字节
# 各种文件头的长度不一样,少则2字符,长则8字符
def typeList(types):
type_dict = {'jpg': ['FFD8FFE000104A464946'],
'png': ['89504E470D0A1A0A0000'],
'gif': ['47494638396126026F01'],
'tif': ['49492A00227105008037'],
'bmp': ['424D8E1B030000000000'],
'dwg': [''],
'html': ['3C21444F435459504520'],
'htm': ['3C21646F637479706520'],
'css': ['48544D4C207B0D0A0942'],
'js': ['696B2E71623D696B2E71'],
'rtf': ['7B5C727466315C616E73'],
'psd': [''],
'eml': ['46726F6D3A203D3F6762'],
'wps': ['D0CF11E0A1B11AE10000'],
'mdb': ['5374616E64617264204A'],
'ps': '[252150532D41646F6265]',
'pdf': ['255044462D312E'],
'rmvb': ['2E524D46000000120001'],
'flv': ['464C5601050000000900'],
'mp4': ['00000020667479706D70'],
'mp3': [''],
'mpg': ['000001BA210001000180'],
'wmv': ['3026B2758E66CF11A6D9'],
'wav': ['52494646E27807005741'],
'avi': ['52494646D07D60074156'],
'mid': ['4D546864000000060001'],
'zip': ['504B0304140000000800', '504B0304140000080800', '504B03040A0000080000'],
'rar': ['526172211A0700CF9073'],
'ini': ['235468697320636F6E66'],
'jar': ['504B03040A0000000000'],
'exe': ['4D5A9000030000000400'],
'jsp': ['3C25402070616765206C'],
'mf': ['4D616E69666573742D56'],
'xml': ['3C3F786D6C2076657273'],
'sql': ['494E5345525420494E54'],
'java': ['7061636B616765207765'],
'bat': ['406563686F206F66660D'],
'gz': ['1F8B0800000000000000'],
'properties': ['6C6F67346A2E726F6F74'],
'class': ['CAFEBABE0000002E0041'],
'chm': [''],
'mxp': [''],
'docx': ['504B0304140006000800', '504B03040A0000000000'],
'torrent': ['6431303A637265617465'],
'mov': ['6D6F6F76'],
'wpd': ['FF575043'],
'dbx': ['CFAD12FEC5FD746F'],
'pst': ['2142444E'],
'qdf': ['AC9EBD8F'],
'pwl': ['E3828596'],
'ram': ['2E7261FD']
}
ret = {}
for k_hex, v_prefix in type_dict.items():
if k_hex in types:
ret[k_hex] = v_prefix
return ret # 字节码转16进制字符串
def bytes2hex(bytes):
num = len(bytes)
hexstr = u""
for i in range(num):
t = u"%x" % bytes[i]
if len(t) % 2:
hexstr += u""
hexstr += t
return hexstr.upper() # 获取文件类型
def file_type(filename):
binfile = open(filename, 'rb') # 必需二制字读取
tl = typeList(types=["jpg", "zip", "docx"])
ftype = None
for type_name, hcode_list in tl.items():
flag = False
for hcode in hcode_list:
numOfBytes = int(len(hcode) / 2) # 需要读多少字节
binfile.seek(0) # 每次读取都要回到文件头,不然会一直往后读取
hbytes = struct.unpack_from("B" * numOfBytes, binfile.read(numOfBytes)) # 一个 "B"表示一个字节
f_hcode = bytes2hex(hbytes) # 如果判断不出来,打印出这个值,往字典增加即可
# print("上传数据流hex", s_hcode, '=', "代码字典hex", hcode) # 如果判断不出来,打印出这个值,往字典增加即可
if f_hcode == hcode:
flag = True
break
if flag:
ftype = type_name
break
binfile.close()
return ftype # 获取字节流类型
def stream_type(stream, types):
"""
:param stream:流数据
:param types:需要判断文件类型,格式:["jpg","jpn"]
:return:
"""
tl = typeList(types=types)
ftype = None
for type_name, hcode_list in tl.items():
flag = False
for hcode in hcode_list:
numOfBytes = int(len(hcode) / 2) # 需要读多少字节
hbytes = struct.unpack_from("B" * numOfBytes, stream[0:numOfBytes]) # 一个 "B"表示一个字节
s_hcode = bytes2hex(hbytes)
# print("上传数据流hex", s_hcode, '=', "代码字典hex", hcode) # 如果判断不出来,打印出这个值,往字典增加即可
if s_hcode == hcode:
flag = True
break
if flag:
ftype = type_name
break
return ftype def stream_split(stream, count=3):
"""
主要处理流是分段获取的数据
:param stream: 块流
:param count: 取多少段合成来判断类型,默认三段
:return:
"""
block_stream = BytesIO()
temp = 1
for block in stream:
block_stream.write(block)
if temp == count:
break
temp += 1
return block_stream.getvalue()
is_file_type.py
type_dict字典,根据自己上传的文件,来填写,数据来自互联网。
基于Flask的上传示例
@index.route('/upload', methods=['GET', 'POST'])
def upload(): if request.method == 'GET':
return render_template('upload.html') upload_obj = request.files.get('code_file') if not upload_obj:
return '没有选择文件上传' ret = stream_type(stream_split(upload_obj.stream), ["jpg", "png", "pdf"]) if not ret:
return '上传失败,文件类型不匹配,类型必须 "jpg" or "png" or "pdf"' file_name = upload_obj.filename
upload_obj.save(os.path.join('files', file_name)) return '上传文件成功'
upload.html
{% extends 'layout.html' %}
{% block content %}
<h1>上传代码</h1>
<form action="" method="post" enctype="multipart/form-data">
<input type="file" name="code_file">
<input type="submit" value="上传"></input>
</form>
{% endblock %}
开始上传文件:
上传不在列表中的文件类型
上传在列表中的文件类型
Python之基于十六进制判断文件类型的更多相关文章
- Python使用filetype精确判断文件类型
Python使用filetype精确判断文件类型 判断文件类型在开发中非常常见的需求,怎样才能准确的判断文件类型呢?首先大家想到的是文件的后缀,但是非常遗憾的是这种方法是非常不靠谱的,因为文件的后缀是 ...
- 【转】python通过文件头判断文件类型
刚刚看到一个好玩的程序,拉过来.原文地址:https://www.ttlsa.com/python/determine-file-type-by-the-file-header/ 侵权删. ===== ...
- Python使用filetype精确判断文件类型 (文件类型获取)
filetype.py Small and dependency free Python package to infer file type and MIME type checking the m ...
- python准确判断文件类型
判断文件类型在开发中非常常见的需求,怎样才能准确的判断文件类型呢?首先大家想到的是文件的后缀,但是非常遗憾的是这种方法是非常不靠谱的,因为文件的后缀是可以随意更改的,而大家都知道后缀在linux系统下 ...
- JavaScript根据文件名判断文件类型
//JavaScript根据文件名判断文件类型 var imgExt = new Array(".png",".jpg",".jpeg",& ...
- 利用PHP取二进制文件头判断文件类型
<?php $files = array('D:\no.jpg', 'D:\no.png','D:\no2.JPEG','D:\no.BMP'); $fileTypes = array( 779 ...
- Linux中用st_mode判断文件类型
Linux中用st_mode判断文件类型 2012-12-11 12:41 14214人阅读 评论(4) 收藏 举报 分类: Linux(8) C/C++(20) 版权声明:本文为博主原创文章, ...
- php 读取文件头判断文件类型的实现代码
php代码实现读取文件头判断文件类型,支持图片.rar.exe等后缀. 例子: <?php $filename = "11.jpg"; //为图片的路径可以用d:/uploa ...
- PHP取二进制文件头快速判断文件类型的实现代码
通过读取文件头信息来识别文件的真实类型. 一般我们都是按照文件扩展名来判断文件类型,但是这个很不靠谱,轻易就通过修改扩展名来躲避了,一般必须要读取文件信息来识别,PHP扩展中提供了类似 exif_im ...
随机推荐
- 论文阅读 | Real-Time Adversarial Attacks
摘要 以前的对抗攻击关注于静态输入,这些方法对流输入的目标模型并不适用.攻击者只能通过观察过去样本点在剩余样本点中添加扰动. 这篇文章提出了针对于具有流输入的机器学习模型的实时对抗攻击. 1 介绍 在 ...
- DatePickerDialog与OnDateSetListener基本用法与常见问题
日期时再显示更改控件一般我们使用构造方法public DatePickerDialog(@NonNull Context context, @Nullable OnDateSetListener li ...
- 浏览器渲染优化4(styles and layout)
你已经学会了查找和解决问题.希望你的js能正常运行了,但这只是制作帧的一小部分.在这节课里,你将处理样式,也就是像开发工具里标记的那样,重新计算样式.学完这节课后,你将学会从样式计算过程中找到性能问题 ...
- 开启httpfs
参考: https://docs.cloudera.com/documentation/enterprise/6/6.2/topics/admin_httpfs.html#xd_583c10bfdbd ...
- aws技术链接
S3: https://docs.aws.amazon.com/s3/?id=docs_gateway emrfs: https://docs.aws.amazon.com/emr/latest/Ma ...
- [Python3] 034 函数式编程 匿名函数
目录 函数式编程 Functional Programming 1. 简介 2. 函数 3. 匿名函数 3.1 lambda 表达式也称"匿名函数" 3.2 lambda 表达式的 ...
- 初次shell编程
虽然说的是初次shell写xhell脚本,但是其实我也写了三.四个简单的脚本了.现在总结下写简单的shell脚本中遇到的一些小问题备忘一下吧. 首先是脚本文件是已.sh作为后缀的,可以先建一个.sh的 ...
- 【洛谷P1816】忠诚——ST表做法
看了两个小时RMQ并位运算,对二进制勉勉强强有了个初步了解,不能说精通(可能今年CSP前都做不到精通),但是记熟板子做做题还是没有问题的 以下是正式题解,相信你看过了题目,我介绍的是ST表的做法(很简 ...
- 打印指针要用%p而不要用%x
注意: 打印指针要用%p而不要用%x 原因: https://boredzo.org/blog/archives/2007-01-23/please-do-not-use-percent-x-for- ...
- 引入DDT
一.大致介绍: DDT-Data Driven Test 是Python的第三方库,提供了创建数据驱动的测试,在线安装为:pip install ddt @data 表示元祖的列表数据 @unpack ...