Python之基于十六进制判断文件类型

核心代码：

#!/usr/bin/env python

# -*- coding: utf-8 -*-

# @Author  : suk

import struct

from io import BytesIO

# 支持文件类型

# 用16进制字符串的目的是可以知道文件头是多少字节

# 各种文件头的长度不一样，少则2字符，长则8字符

def typeList(types):

    type_dict = {'jpg': ['FFD8FFE000104A464946'],

                 'png': ['89504E470D0A1A0A0000'],

                 'gif': ['47494638396126026F01'],

                 'tif': ['49492A00227105008037'],

                 'bmp': ['424D8E1B030000000000'],

                 'dwg': [''],

                 'html': ['3C21444F435459504520'],

                 'htm': ['3C21646F637479706520'],

                 'css': ['48544D4C207B0D0A0942'],

                 'js': ['696B2E71623D696B2E71'],

                 'rtf': ['7B5C727466315C616E73'],

                 'psd': [''],

                 'eml': ['46726F6D3A203D3F6762'],

                 'wps': ['D0CF11E0A1B11AE10000'],

                 'mdb': ['5374616E64617264204A'],

                 'ps': '[252150532D41646F6265]',

                 'pdf': ['255044462D312E'],

                 'rmvb': ['2E524D46000000120001'],

                 'flv': ['464C5601050000000900'],

                 'mp4': ['00000020667479706D70'],

                 'mp3': [''],

                 'mpg': ['000001BA210001000180'],

                 'wmv': ['3026B2758E66CF11A6D9'],

                 'wav': ['52494646E27807005741'],

                 'avi': ['52494646D07D60074156'],

                 'mid': ['4D546864000000060001'],

                 'zip': ['504B0304140000000800', '504B0304140000080800', '504B03040A0000080000'],

                 'rar': ['526172211A0700CF9073'],

                 'ini': ['235468697320636F6E66'],

                 'jar': ['504B03040A0000000000'],

                 'exe': ['4D5A9000030000000400'],

                 'jsp': ['3C25402070616765206C'],

                 'mf': ['4D616E69666573742D56'],

                 'xml': ['3C3F786D6C2076657273'],

                 'sql': ['494E5345525420494E54'],

                 'java': ['7061636B616765207765'],

                 'bat': ['406563686F206F66660D'],

                 'gz': ['1F8B0800000000000000'],

                 'properties': ['6C6F67346A2E726F6F74'],

                 'class': ['CAFEBABE0000002E0041'],

                 'chm': [''],

                 'mxp': [''],

                 'docx': ['504B0304140006000800', '504B03040A0000000000'],

                 'torrent': ['6431303A637265617465'],

                 'mov': ['6D6F6F76'],

                 'wpd': ['FF575043'],

                 'dbx': ['CFAD12FEC5FD746F'],

                 'pst': ['2142444E'],

                 'qdf': ['AC9EBD8F'],

                 'pwl': ['E3828596'],

                 'ram': ['2E7261FD']

                 }

    ret = {}

    for k_hex, v_prefix in type_dict.items():

        if k_hex in types:

            ret[k_hex] = v_prefix

    return ret

# 字节码转16进制字符串

def bytes2hex(bytes):

    num = len(bytes)

    hexstr = u""

    for i in range(num):

        t = u"%x" % bytes[i]

        if len(t) % 2:

            hexstr += u""

        hexstr += t

    return hexstr.upper()

# 获取文件类型

def file_type(filename):

    binfile = open(filename, 'rb')  # 必需二制字读取

    tl = typeList(types=["jpg", "zip", "docx"])

    ftype = None

    for type_name, hcode_list in tl.items():

        flag = False

        for hcode in hcode_list:

            numOfBytes = int(len(hcode) / 2)  # 需要读多少字节

            binfile.seek(0)  # 每次读取都要回到文件头，不然会一直往后读取

            hbytes = struct.unpack_from("B" * numOfBytes, binfile.read(numOfBytes))  # 一个 "B"表示一个字节

            f_hcode = bytes2hex(hbytes)  # 如果判断不出来，打印出这个值，往字典增加即可

            # print("上传数据流hex", s_hcode, '=', "代码字典hex", hcode)  # 如果判断不出来，打印出这个值，往字典增加即可

            if f_hcode == hcode:

                flag = True

                break

        if flag:

            ftype = type_name

            break

    binfile.close()

    return ftype

# 获取字节流类型

def stream_type(stream, types):

    """

    :param stream:流数据

    :param types:需要判断文件类型,格式:["jpg","jpn"]

    :return:

    """

    tl = typeList(types=types)

    ftype = None

    for type_name, hcode_list in tl.items():

        flag = False

        for hcode in hcode_list:

            numOfBytes = int(len(hcode) / 2)  # 需要读多少字节

            hbytes = struct.unpack_from("B" * numOfBytes, stream[0:numOfBytes])  # 一个 "B"表示一个字节

            s_hcode = bytes2hex(hbytes)

            # print("上传数据流hex", s_hcode, '=', "代码字典hex", hcode)  # 如果判断不出来，打印出这个值，往字典增加即可

            if s_hcode == hcode:

                flag = True

                break

        if flag:

            ftype = type_name

            break

    return ftype

def stream_split(stream, count=3):

    """

    主要处理流是分段获取的数据

    :param stream: 块流

    :param count: 取多少段合成来判断类型,默认三段

    :return:

    """

    block_stream = BytesIO()

    temp = 1

    for block in stream:

        block_stream.write(block)

        if temp == count:

            break

        temp += 1

    return block_stream.getvalue()

is_file_type.py

type_dict字典，根据自己上传的文件，来填写，数据来自互联网。

基于Flask的上传示例

@index.route('/upload', methods=['GET', 'POST'])

def upload():

    if request.method == 'GET':

        return render_template('upload.html')

    upload_obj = request.files.get('code_file')

    if not upload_obj:

        return '没有选择文件上传'

    ret = stream_type(stream_split(upload_obj.stream), ["jpg", "png", "pdf"])

    if not ret:

        return '上传失败，文件类型不匹配，类型必须 "jpg" or "png" or "pdf"'

    file_name = upload_obj.filename

    upload_obj.save(os.path.join('files', file_name))

    return '上传文件成功'

upload.html

{% extends 'layout.html' %}

{% block content %}

<h1>上传代码</h1>

<form action="" method="post" enctype="multipart/form-data">

    <input type="file" name="code_file">

    <input type="submit" value="上传"></input>

</form>

{% endblock %}

开始上传文件：

上传不在列表中的文件类型

上传在列表中的文件类型

Python之基于十六进制判断文件类型的更多相关文章

Python使用filetype精确判断文件类型
Python使用filetype精确判断文件类型判断文件类型在开发中非常常见的需求,怎样才能准确的判断文件类型呢?首先大家想到的是文件的后缀,但是非常遗憾的是这种方法是非常不靠谱的,因为文件的后缀是 ...
【转】python通过文件头判断文件类型
刚刚看到一个好玩的程序,拉过来.原文地址:https://www.ttlsa.com/python/determine-file-type-by-the-file-header/ 侵权删. ===== ...
Python使用filetype精确判断文件类型 (文件类型获取)
filetype.py Small and dependency free Python package to infer file type and MIME type checking the m ...
python准确判断文件类型
判断文件类型在开发中非常常见的需求,怎样才能准确的判断文件类型呢?首先大家想到的是文件的后缀,但是非常遗憾的是这种方法是非常不靠谱的,因为文件的后缀是可以随意更改的,而大家都知道后缀在linux系统下 ...
JavaScript根据文件名判断文件类型
//JavaScript根据文件名判断文件类型 var imgExt = new Array(".png",".jpg",".jpeg",& ...
利用PHP取二进制文件头判断文件类型
<?php $files = array('D:\no.jpg', 'D:\no.png','D:\no2.JPEG','D:\no.BMP'); $fileTypes = array( 779 ...
Linux中用st_mode判断文件类型
Linux中用st_mode判断文件类型 2012-12-11 12:41 14214人阅读评论(4) 收藏举报分类: Linux(8) C/C++(20) 版权声明:本文为博主原创文章, ...
php 读取文件头判断文件类型的实现代码
php代码实现读取文件头判断文件类型,支持图片.rar.exe等后缀. 例子: <?php $filename = "11.jpg"; //为图片的路径可以用d:/uploa ...
PHP取二进制文件头快速判断文件类型的实现代码
通过读取文件头信息来识别文件的真实类型. 一般我们都是按照文件扩展名来判断文件类型,但是这个很不靠谱,轻易就通过修改扩展名来躲避了,一般必须要读取文件信息来识别,PHP扩展中提供了类似 exif_im ...

随机推荐

ASP.NET Core EFCore 之DBFirst 自动创建实体类和数据库上下文
通过引用Nuget包添加实体类运行 Install-Package Microsoft.EntityFrameworkCore.SqlServer 运行 Install-Package Micros ...
解决VS2008之后平台(如VS2012/VS2013/VS2015)调试模式下不显示主界面窗口的问题
问题描述:win10操作系统下,VS2008工程调试模式下正常显示主界面窗口,使用VS2012/VS2013/VS2015环境打开VS2008工程,调试模式下应用程序转为后台进程,不显示主界面窗口:另 ...
RFC3550中文
RTP:实时应用程序传输协议摘要本文描述RTP(real-time transport protocol),实时传输协议.RTP在多点传送(多播)或单点传送(单播)的网络服务上,提供端对端的网 ...
docker数据卷学习-利用数据卷实现mysql的快速恢复和迁移
docker数据卷学习一新建带有数据卷的容器 1.从docker hub下载centos7镜像 # docker pull centos 2. 创建container # docker run - ...
Oracle网络相关概念与常用配置文件
监听器(Listener) 监听器是Oracle基于服务端的一种网络服务,主要用于监听客户端向数据库服务器提出的链接请求. 本地服务名(Tnsname) Oracle客户端与服务器端的链接是通过客户端 ...
DFS搜索算法--（1）基础图遍历绝对看！的！懂！
内容总结自<啊哈!算法!> 作为一个都大二的了一个菜鸡,做题的时候DFS怎么可以不会呢!!! 作为一个都大二了的(!!!)菜鸡....<啊哈算法>这本书第四章的搜索,开始那里 ...
CF39H 【Multiplication Table】
这题可以枚举出每个i,j 位置的数>需要用到进制转换 int zh(int x){ long long sum=0,i=0; while(x){ sum=sum+((x%n)*pow(10,i) ...
windows terminal编译实录
直接甩个大佬链接吧 https://www.bilibili.com/video/av52032233?t=835 安装过程中如果出问题了,靠搜索引擎解决下,微软或者vs的问题可以用biying搜索 ...
Hive 教程(三)-DDL基础
DDL,Hive Data Definition Language,数据定义语言: 通俗理解就是数据库与库表相关的操作,本文总结一下基本方法 hive 数据仓库配置 hive 数据仓库默认位置在 hd ...
mongoose操作笔记
一.mongoose文档地址: https://cn.mongoosedoc.top/docs/api.html#update_update https://www.cnblogs.com/web-f ...

Python之基于十六进制判断文件类型

Python之基于十六进制判断文件类型的更多相关文章

随机推荐

热门专题