pyc 파일은 Python이 소스 코드를 해석하고 실행할 때 생성하는 바이트코드 파일입니다. Python이 더 빠르게 코드를 실행할 수 있도록 소스 코드의 컴파일 결과와 관련 메타데이터 정보가 포함되어 있습니다.
컴파일된 언어와 다르게 Python은 해석형 언어이므로 소스 코드를 기계어 코드로 직접 컴파일하여 실행하지 않습니다. 코드를 실행하기 전에 Python 인터프리터는 먼저 소스 코드를 바이트코드로 컴파일한 다음 실행을 위해 바이트코드를 해석합니다. .pyc 파일은 이 프로세스 중에 생성된 바이트코드 파일입니다.
Python 인터프리터가 처음으로 .py 파일을 실행할 때, 다음에 파일이 로드될 때 더 빠르게 실행될 수 있도록 동일한 디렉터리에 해당 .pyc 파일을 생성합니다. 소스 파일이 수정되고 다시 로드되면 인터프리터는 .pyc 파일을 다시 생성하여 캐시된 바이트코드를 업데이트합니다.
일반 Python 파일은 컴파일러를 통해 바이트코드로 변환되어야 하며, 그 다음 바이트코드가 Python 가상 머신에 제공되고 Python 가상 머신이 바이트코드를 실행합니다. 전체적인 과정은 다음과 같습니다.
compile all 모듈을 직접 사용하여 해당 파일의 pyc 파일을 생성할 수 있습니다.
➜ pvm ls demo.py hello.py ➜ pvm python -m compileall . Listing '.'... Listing './.idea'... Listing './.idea/inspectionProfiles'... Compiling './demo.py'... Compiling './hello.py'... ➜ pvm ls __pycache__ demo.py hello.py ➜ pvm ls __pycache__ demo.cpython-310.pyc hello.cpython-310.pyc
python -m compileall .
이 명령은 현재 디렉터리 아래의 py 파일을 재귀적으로 검색하고 해당 파일의 pyc 파일을 생성합니다. python -m compileall .
命令将递归扫描当前目录下面的 py 文件,并且生成对应文件的 pyc 文件。
第一部分魔数由两部分组成:
第一部分 魔术是由一个 2 字节的整数和另外两个字符回车换行组成的, "rn" 也占用两个字节,一共是四个字节。这个两个字节的整数在不同的 python 版本还不一样,比如说在 python3.5 当中这个值为 3351 等值,在 python3.9 当中这个值为 3420,3421,3422,3423,3424等值(在 python 3.9 的小版本)。
第二部分 Bit Field 这个字段的主要作用是为了将来能够实现复现编译结果,但是在 python3.9a2 时,这个字段的值还全部是 0 。请参考PEP552-确定性pyc的详细内容。这个字段在 python2 和 python3 早期版本并没有(python3.5 还没有),在 python3 的后期版本这个字段才出现的。
第三部分 就是整个 py 源文件的大小了。
第四部分 也是整个 pyc 文件当中最重要的一个部分,最后一个部分就是一个 CodeObject 对象序列化之后的数据,我们稍后再来仔细分析一下这个对象相关的数据。
我们现在来具体分析一个 pyc 文件,对应的 python 代码为:
def f(): x = 1 return 2
pyc 文件的十六进制形式如下所示:
➜ __pycache__ hexdump -C hello.cpython-310.pyc 00000000 6f 0d 0d 0a 00 00 00 00 b9 48 21 64 20 00 00 00 |o........H!d ...| 00000010 e3 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 |................| 00000020 00 02 00 00 00 40 00 00 00 73 0c 00 00 00 64 00 |.....@...s....d.| 00000030 64 01 84 00 5a 00 64 02 53 00 29 03 63 00 00 00 |d...Z.d.S.).c...| 00000040 00 00 00 00 00 00 00 00 00 01 00 00 00 01 00 00 |................| 00000050 00 43 00 00 00 73 08 00 00 00 64 01 7d 00 64 02 |.C...s....d.}.d.| 00000060 53 00 29 03 4e e9 01 00 00 00 e9 02 00 00 00 a9 |S.).N...........| 00000070 00 29 01 da 01 78 72 03 00 00 00 72 03 00 00 00 |.)...xr....r....| 00000080 fa 0a 2e 2f 68 65 6c 6c 6f 2e 70 79 da 01 66 01 |.../hello.py..f.| 00000090 00 00 00 73 04 00 00 00 04 01 04 01 72 06 00 00 |...s........r...| 000000a0 00 4e 29 01 72 06 00 00 00 72 03 00 00 00 72 03 |.N).r....r....r.| 000000b0 00 00 00 72 03 00 00 00 72 05 00 00 00 da 08 3c |...r....r......<| 000000c0 6d 6f 64 75 6c 65 3e 01 00 00 00 73 02 00 00 00 |module>....s....| 000000d0 0c 00 |..| 000000d2
因为数据使用小端表示方式,因此对于上面的数据来说:
第一部分魔数为:0xa0d0d6f 。
第二部分 Bit Field 为:0x0 。
第三部分最后一次修改日期为:0x642148b9 。
第四部分文件大小为:0x20 字节,也就是说 hello.py 这个文件的大小是 32 字节。
下面是一个小的代码片段用于读取 pyc 文件的头部元信息:
import struct import time import binascii fname = "./__pycache__/hello.cpython-310.pyc" f = open(fname, "rb") magic = struct.unpack('<l', f.read(4))[0] bit_filed = f.read(4) print(f"bit field = {binascii.hexlify(bit_filed)}") moddate = f.read(4) filesz = f.read(4) modtime = time.asctime(time.localtime(struct.unpack('<l', moddate)[0])) filesz = struct.unpack('<L', filesz) print("magic %s" % (hex(magic))) print("moddate (%s)" % (modtime)) print("File Size %d" % filesz) f.close()
上面的代码输出结果如下所示:
bit field = b'00000000'
magic 0xa0d0d6f
moddate (Mon Mar 27 15:41:45 2023)
File Size 32
有关 pyc 文件的详细操作可以查看 python 标准库 importlib/_bootstrap_external.py 文件源代码。
在 CPython 中,CodeObject
是一个对象,它包含了 Python 代码的字节码、常量、变量、位置参数、关键字参数等信息,以及一些用于运行代码的元数据,如文件名、代码行号等。
在 CPython 中,当我们执行一个 Python 模块或函数时,解释器会先将其代码编译为 CodeObject
,然后再执行。在编译过程中,解释器会将 Python 代码转换为字节码,并将其保存在 CodeObject
对象中。此后,每当我们调用该模块或函数时,解释器都会使用 CodeObject
中的字节码来执行代码。
CodeObject
对象是不可变的,一旦创建就不能被修改。这是因为 Python 代码的字节码是不可变的,而 CodeObject
if __name__ == '__main__': a = 100 print(a)🎜 pyc 파일의 16진수 형식은 다음과 같습니다. 🎜
import marshal import dis import struct import time import types import binascii def print_metadata(fp): magic = struct.unpack('<l', fp.read(4))[0] print(f"magic number = {hex(magic)}") bit_field = struct.unpack('<l', fp.read(4))[0] print(f"bit filed = {bit_field}") t = struct.unpack('<l', fp.read(4))[0] print(f"time = {time.asctime(time.localtime(t))}") file_size = struct.unpack('<l', fp.read(4))[0] print(f"file size = {file_size}") def show_code(code, indent=''): print ("%scode" % indent) indent += ' ' print ("%sargcount %d" % (indent, code.co_argcount)) print ("%snlocals %d" % (indent, code.co_nlocals)) print ("%sstacksize %d" % (indent, code.co_stacksize)) print ("%sflags %04x" % (indent, code.co_flags)) show_hex("code", code.co_code, indent=indent) dis.disassemble(code) print ("%sconsts" % indent) for const in code.co_consts: if type(const) == types.CodeType: show_code(const, indent+' ') else: print(" %s%r" % (indent, const)) print("%snames %r" % (indent, code.co_names)) print("%svarnames %r" % (indent, code.co_varnames)) print("%sfreevars %r" % (indent, code.co_freevars)) print("%scellvars %r" % (indent, code.co_cellvars)) print("%sfilename %r" % (indent, code.co_filename)) print("%sname %r" % (indent, code.co_name)) print("%sfirstlineno %d" % (indent, code.co_firstlineno)) show_hex("lnotab", code.co_lnotab, indent=indent) def show_hex(label, h, indent): h = binascii.hexlify(h) if len(h) < 60: print("%s%s %s" % (indent, label, h)) else: print("%s%s" % (indent, label)) for i in range(0, len(h), 60): print("%s %s" % (indent, h[i:i+60])) if __name__ == '__main__': filename = "./__pycache__/pycdemo01.cpython-39.pyc" with open(filename, "rb") as fp: print_metadata(fp) code_object = marshal.load(fp) show_code(code_object)🎜위 데이터에 대해 데이터가 리틀 엔디안 표현을 사용하기 때문입니다.🎜
magic number = 0xa0d0d61 bit filed = 0 time = Tue Mar 28 02:40:20 2023 file size = 54 code argcount 0 nlocals 0 stacksize 2 flags 0040 code b'650064006b02721464015a01650265018301010064025300' 3 0 LOAD_NAME 0 (__name__) 2 LOAD_CONST 0 ('__main__') 4 COMPARE_OP 2 (==) 6 POP_JUMP_IF_FALSE 20 4 8 LOAD_CONST 1 (100) 10 STORE_NAME 1 (a) 5 12 LOAD_NAME 2 (print) 14 LOAD_NAME 1 (a) 16 CALL_FUNCTION 1 18 POP_TOP >> 20 LOAD_CONST 2 (None) 22 RETURN_VALUE consts '__main__' 100 None names ('__name__', 'a', 'print') varnames () freevars () cellvars () filename './pycdemo01.py' name '<module>' firstlineno 3 lnotab b'08010401'🎜위 코드의 출력은 다음과 같습니다: 🎜
🎜bit field = b'00000000'🎜pyc 파일에 대한 자세한 작업을 보려면 Python 표준 라이브러리 importlib를 볼 수 있습니다. /_bootstrap_external.py 파일 소스 코드. 🎜🎜CODEOBJECT🎜🎜CPython에서
magic 0xa0d0d6f
moddate(2023년 3월 27일 월요일 15:41:45)
파일 크기 32🎜
CodeObject
는 바이트코드, 상수, 변수, 위치 매개변수, 키워드 매개변수 및 Python 코드의 기타 정보뿐만 아니라 코드를 실행하는 데 사용되는 일부 정보를 포함하는 객체입니다. 코드 메타데이터(예: 파일 이름, 코드 줄 번호 등) 🎜🎜CPython에서 Python 모듈이나 함수를 실행할 때 인터프리터는 먼저 해당 코드를 CodeObject
로 컴파일한 다음 실행합니다. 컴파일하는 동안 인터프리터는 Python 코드를 바이트코드로 변환하고 이를 CodeObject
객체에 저장합니다. 그런 다음 해당 모듈이나 함수를 호출할 때마다 인터프리터는 CodeObject
의 바이트코드를 사용하여 코드를 실행합니다. 🎜🎜CodeObject
객체는 변경할 수 없으며 일단 생성되면 수정할 수 없습니다. 이는 Python 코드의 바이트코드가 불변이고, CodeObject
객체에 이러한 바이트코드가 포함되어 있으므로 역시 불변이기 때문입니다. 🎜🎜이 글에서는 코드 객체의 주요 내용을 주로 소개하고, 그 기능을 간략하게 소개하겠습니다. 이어지는 글에서는 코드 객체에 해당하는 소스 코드와 해당 필드의 세부 기능을 꼼꼼히 분석하겠습니다. 🎜现在举一个例子来分析一下 pycdemo.py 的 pyc 文件,pycdemo.py 的源程序如下所示:
if __name__ == '__main__': a = 100 print(a)
下面的代码是一个用于加载 pycdemo01.cpython-39.pyc 文件(也就是 hello.py 对应的 pyc 文件)的代码,使用 marshal 读取 pyc 文件里面的 code object 。
import marshal import dis import struct import time import types import binascii def print_metadata(fp): magic = struct.unpack('<l', fp.read(4))[0] print(f"magic number = {hex(magic)}") bit_field = struct.unpack('<l', fp.read(4))[0] print(f"bit filed = {bit_field}") t = struct.unpack('<l', fp.read(4))[0] print(f"time = {time.asctime(time.localtime(t))}") file_size = struct.unpack('<l', fp.read(4))[0] print(f"file size = {file_size}") def show_code(code, indent=''): print ("%scode" % indent) indent += ' ' print ("%sargcount %d" % (indent, code.co_argcount)) print ("%snlocals %d" % (indent, code.co_nlocals)) print ("%sstacksize %d" % (indent, code.co_stacksize)) print ("%sflags %04x" % (indent, code.co_flags)) show_hex("code", code.co_code, indent=indent) dis.disassemble(code) print ("%sconsts" % indent) for const in code.co_consts: if type(const) == types.CodeType: show_code(const, indent+' ') else: print(" %s%r" % (indent, const)) print("%snames %r" % (indent, code.co_names)) print("%svarnames %r" % (indent, code.co_varnames)) print("%sfreevars %r" % (indent, code.co_freevars)) print("%scellvars %r" % (indent, code.co_cellvars)) print("%sfilename %r" % (indent, code.co_filename)) print("%sname %r" % (indent, code.co_name)) print("%sfirstlineno %d" % (indent, code.co_firstlineno)) show_hex("lnotab", code.co_lnotab, indent=indent) def show_hex(label, h, indent): h = binascii.hexlify(h) if len(h) < 60: print("%s%s %s" % (indent, label, h)) else: print("%s%s" % (indent, label)) for i in range(0, len(h), 60): print("%s %s" % (indent, h[i:i+60])) if __name__ == '__main__': filename = "./__pycache__/pycdemo01.cpython-39.pyc" with open(filename, "rb") as fp: print_metadata(fp) code_object = marshal.load(fp) show_code(code_object)
执行上面的程序输出结果如下所示:
magic number = 0xa0d0d61 bit filed = 0 time = Tue Mar 28 02:40:20 2023 file size = 54 code argcount 0 nlocals 0 stacksize 2 flags 0040 code b'650064006b02721464015a01650265018301010064025300' 3 0 LOAD_NAME 0 (__name__) 2 LOAD_CONST 0 ('__main__') 4 COMPARE_OP 2 (==) 6 POP_JUMP_IF_FALSE 20 4 8 LOAD_CONST 1 (100) 10 STORE_NAME 1 (a) 5 12 LOAD_NAME 2 (print) 14 LOAD_NAME 1 (a) 16 CALL_FUNCTION 1 18 POP_TOP >> 20 LOAD_CONST 2 (None) 22 RETURN_VALUE consts '__main__' 100 None names ('__name__', 'a', 'print') varnames () freevars () cellvars () filename './pycdemo01.py' name '<module>' firstlineno 3 lnotab b'08010401'
下面是 code object 当中各个字段的作用:
首先需要了解一下代码块这个概念,所谓代码块就是一个小的 python 代码,被当做一个小的单元整体执行。在 Python 中常见的代码块包括函数体、类的定义和模块。
argcount,这个表示一个代码块的参数个数,这个参数只对函数体代码块有用,因为函数可能会有参数,比如上面的 pycdemo.py 是一个模块而不是一个函数,因此这个参数对应的值为 0 。
co_code,这个对象的具体内容就是一个字节序列,存储真实的 python 字节码,主要是用于 python 虚拟机执行的,在本篇文章当中暂时不详细分析。
co_consts,这个字段是一个列表类型的字段,主要是包含一些字符串常量和数值常量,比如上面的 ";main" 和 100 。
co_filename,这个字段的含义就是对应的源文件的文件名。
co_firstlineno,这个字段的含义为在 python 源文件当中第一行代码出现的行数,这个字段在进行调试的时候非常重要。
主要含义是标识该 code object 的类型的字段是 co_flags。0x0080 表示这个 block 是一个协程,0x0010 表示这个 code object 是嵌套的等等。
co_lnotab,这个字段的含义主要是用于计算每个字节码指令对应的源代码行数。
The main purpose of the field "co_varnames" is to indicate a name defined locally in a code object.。
co_names,和 co_varnames 相反,表示非本地定义但是在 code object 当中使用的名字。
co_nlocals,这个字段表示在一个 code object 当中本地使用的变量个数。
co_stackszie,因为 python 虚拟机是一个栈式计算机,这个参数的值表示这个栈需要的最大的值。
co_cellvars,co_freevars,这两个字段主要和嵌套函数和函数闭包有关。
위 내용은 Python 가상 머신의 pyc 파일 구조는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!