首頁  >  文章  >  後端開發  >  python準確判斷文件類型

python準確判斷文件類型

高洛峰
高洛峰原創
2016-10-17 17:19:142169瀏覽

判斷文件類型在開發中非常常見的需求,怎麼能準確的判斷文件類型呢?首先大家想到的是文件的後綴,但是非常遺憾的是這種方法是非常不靠譜的,因為文件的後綴是可以隨意更改的,而大家都知道後綴在linux系統下是沒有這個概念的,所以僅靠判斷後綴無法準確判斷一個檔案的類型。還有第二種方法是判斷文件的頭,每個文件在文件的頭中會標識這種文件的類型,下面我們來看看如何用python來判斷文件的類型。

python透過檔案頭判斷檔案類型的方法:

#! /usr/bin/python
# pythontab提醒您注意中文编码问题,指定编码为utf-8
# -*- coding: utf-8 -*- 
import struct
# 支持文件类型 
# 用16进制字符串的目的是可以知道文件头是多少字节 
# 各种文件头的长度不一样,少则2字符,长则8字符 
def typeList(): 
  return { 
    "FFD8FF": "JPEG", 
    "89504E47": "PNG"} 
   
# 字节码转16进制字符串 
def bytes2hex(bytes): 
  num = len(bytes) 
  hexstr = u"" 
  for i in range(num): 
    t = u"%x" % bytes[i] 
    if len(t) % 2: 
      hexstr += u"0"
    hexstr += t 
  return hexstr.upper() 
   
# 获取文件类型 
def filetype(filename): 
  binfile = open(filename, 'rb') # 必需二制字读取 
  tl = typeList() 
  ftype = 'unknown'
  for hcode in tl.keys(): 
    numOfBytes = len(hcode) / 2 # 需要读多少字节 
    binfile.seek(0) # 每次读取都要回到文件头,不然会一直往后读取 
    hbytes = struct.unpack_from("B"*numOfBytes, binfile.read(numOfBytes)) # 一个 "B"表示一个字节 
    f_hcode = bytes2hex(hbytes) 
    if f_hcode == hcode: 
      ftype = tl[hcode] 
      break
  binfile.close() 
  return ftype 
   
if __name__ == '__main__': 
  print filetype('./test.jpg')

   

  

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn