>  기사  >  백엔드 개발  >  Python 가상 머신의 pyc 파일 구조는 무엇입니까?

Python 가상 머신의 pyc 파일 구조는 무엇입니까?

王林
王林앞으로
2023-05-27 21:01:581501검색

    PYC 파일

    pyc 파일은 Python이 소스 코드를 해석하고 실행할 때 생성하는 바이트코드 파일입니다. Python이 더 빠르게 코드를 실행할 수 있도록 소스 코드의 컴파일 결과와 관련 메타데이터 정보가 포함되어 있습니다.

    컴파일된 언어와 다르게 Python은 해석형 언어이므로 소스 코드를 기계어 코드로 직접 컴파일하여 실행하지 않습니다. 코드를 실행하기 전에 Python 인터프리터는 먼저 소스 코드를 바이트코드로 컴파일한 다음 실행을 위해 바이트코드를 해석합니다. .pyc 파일은 이 프로세스 중에 생성된 바이트코드 파일입니다.

    Python 인터프리터가 처음으로 .py 파일을 실행할 때, 다음에 파일이 로드될 때 더 빠르게 실행될 수 있도록 동일한 디렉터리에 해당 .pyc 파일을 생성합니다. 소스 파일이 수정되고 다시 로드되면 인터프리터는 .pyc 파일을 다시 생성하여 캐시된 바이트코드를 업데이트합니다.

    PYC 파일 생성

    일반 Python 파일은 컴파일러를 통해 바이트코드로 변환되어야 하며, 그 다음 바이트코드가 Python 가상 머신에 제공되고 Python 가상 머신이 바이트코드를 실행합니다. 전체적인 과정은 다음과 같습니다.

    Python 가상 머신의 pyc 파일 구조는 무엇입니까?

    compile all 모듈을 직접 사용하여 해당 파일의 pyc 파일을 생성할 수 있습니다.

    ➜  pvm ls
    demo.py  hello.py
    ➜  pvm python -m compileall .
    Listing '.'...
    Listing './.idea'...
    Listing './.idea/inspectionProfiles'...
    Compiling './demo.py'...
    Compiling './hello.py'...
    ➜  pvm ls
    __pycache__ demo.py     hello.py
    ➜  pvm ls __pycache__ 
    demo.cpython-310.pyc  hello.cpython-310.pyc

    python -m compileall . 이 명령은 현재 디렉터리 아래의 py 파일을 재귀적으로 검색하고 해당 파일의 pyc 파일을 생성합니다. python -m compileall . 命令将递归扫描当前目录下面的 py 文件,并且生成对应文件的 pyc 文件。

    PYC 文件布局

    Python 가상 머신의 pyc 파일 구조는 무엇입니까?

    第一部分魔数由两部分组成:

    Python 가상 머신의 pyc 파일 구조는 무엇입니까?

    第一部分 魔术是由一个 2 字节的整数和另外两个字符回车换行组成的, "rn" 也占用两个字节,一共是四个字节。这个两个字节的整数在不同的 python 版本还不一样,比如说在 python3.5 当中这个值为 3351 等值,在 python3.9 当中这个值为 3420,3421,3422,3423,3424等值(在 python 3.9 的小版本)。

    第二部分 Bit Field 这个字段的主要作用是为了将来能够实现复现编译结果,但是在 python3.9a2 时,这个字段的值还全部是 0 。请参考PEP552-确定性pyc的详细内容。这个字段在 python2 和 python3 早期版本并没有(python3.5 还没有),在 python3 的后期版本这个字段才出现的。

    第三部分 就是整个 py 源文件的大小了。

    第四部分 也是整个 pyc 文件当中最重要的一个部分,最后一个部分就是一个 CodeObject 对象序列化之后的数据,我们稍后再来仔细分析一下这个对象相关的数据。

    我们现在来具体分析一个 pyc 文件,对应的 python 代码为:

    def f():
        x = 1
        return 2

    pyc 文件的十六进制形式如下所示:

    ➜  __pycache__ hexdump -C hello.cpython-310.pyc
    00000000  6f 0d 0d 0a 00 00 00 00  b9 48 21 64 20 00 00 00  |o........H!d ...|
    00000010  e3 00 00 00 00 00 00 00  00 00 00 00 00 00 00 00  |................|
    00000020  00 02 00 00 00 40 00 00  00 73 0c 00 00 00 64 00  |.....@...s....d.|
    00000030  64 01 84 00 5a 00 64 02  53 00 29 03 63 00 00 00  |d...Z.d.S.).c...|
    00000040  00 00 00 00 00 00 00 00  00 01 00 00 00 01 00 00  |................|
    00000050  00 43 00 00 00 73 08 00  00 00 64 01 7d 00 64 02  |.C...s....d.}.d.|
    00000060  53 00 29 03 4e e9 01 00  00 00 e9 02 00 00 00 a9  |S.).N...........|
    00000070  00 29 01 da 01 78 72 03  00 00 00 72 03 00 00 00  |.)...xr....r....|
    00000080  fa 0a 2e 2f 68 65 6c 6c  6f 2e 70 79 da 01 66 01  |.../hello.py..f.|
    00000090  00 00 00 73 04 00 00 00  04 01 04 01 72 06 00 00  |...s........r...|
    000000a0  00 4e 29 01 72 06 00 00  00 72 03 00 00 00 72 03  |.N).r....r....r.|
    000000b0  00 00 00 72 03 00 00 00  72 05 00 00 00 da 08 3c  |...r....r......<|
    000000c0  6d 6f 64 75 6c 65 3e 01  00 00 00 73 02 00 00 00  |module>....s....|
    000000d0  0c 00                                             |..|
    000000d2

    因为数据使用小端表示方式,因此对于上面的数据来说:

    • 第一部分魔数为:0xa0d0d6f 。

    • 第二部分 Bit Field 为:0x0 。

    • 第三部分最后一次修改日期为:0x642148b9 。

    • 第四部分文件大小为:0x20 字节,也就是说 hello.py 这个文件的大小是 32 字节。

    下面是一个小的代码片段用于读取 pyc 文件的头部元信息:

    import struct
    import time
    import binascii
    fname = "./__pycache__/hello.cpython-310.pyc"
    f = open(fname, "rb")
    magic = struct.unpack(&#39;<l&#39;, f.read(4))[0]
    bit_filed = f.read(4)
    print(f"bit field = {binascii.hexlify(bit_filed)}")
    moddate = f.read(4)
    filesz = f.read(4)
    modtime = time.asctime(time.localtime(struct.unpack(&#39;<l&#39;, moddate)[0]))
    filesz = struct.unpack(&#39;<L&#39;, filesz)
    print("magic %s" % (hex(magic)))
    print("moddate (%s)" % (modtime))
    print("File Size %d" % filesz)
    f.close()

    上面的代码输出结果如下所示:

    bit field = b'00000000'
    magic 0xa0d0d6f
    moddate (Mon Mar 27 15:41:45 2023)
    File Size 32

    有关 pyc 文件的详细操作可以查看 python 标准库 importlib/_bootstrap_external.py 文件源代码。

    CODEOBJECT

    在 CPython 中,CodeObject 是一个对象,它包含了 Python 代码的字节码、常量、变量、位置参数、关键字参数等信息,以及一些用于运行代码的元数据,如文件名、代码行号等。

    在 CPython 中,当我们执行一个 Python 模块或函数时,解释器会先将其代码编译为 CodeObject,然后再执行。在编译过程中,解释器会将 Python 代码转换为字节码,并将其保存在 CodeObject 对象中。此后,每当我们调用该模块或函数时,解释器都会使用 CodeObject 中的字节码来执行代码。

    CodeObject 对象是不可变的,一旦创建就不能被修改。这是因为 Python 代码的字节码是不可变的,而 CodeObject

    PYC 파일 레이아웃

    파이썬 가상 머신의 pyc 파일 구조는 무엇입니까? 🎜🎜매직넘버의 첫 번째 부분은 두 부분으로 구성됩니다: 🎜🎜python virtual machine pyc file 구조는 무엇인가요?🎜🎜마법의 첫 번째 부분은 2바이트 정수와 다른 두 문자로 구성되며, 캐리지 리턴과 줄 바꿈도 2바이트를 차지합니다. 총 4바이트입니다. 이 2바이트 정수는 Python 버전마다 다릅니다. 예를 들어 python3.5에서는 이 값이 3351 등이고, python3.9에서는 이 값이 3420, 3421, 3422, 3423, 3424 등입니다. Python 3.9의 마이너 버전). 🎜🎜Part 2 Bit Field 이 필드의 주요 목적은 향후 재현 가능한 컴파일 결과를 가능하게 하는 것이지만 python3.9a2에서는 이 필드의 값이 여전히 모두 0입니다. 자세한 내용은 PEP552 - 결정적 pyc를 참조하세요. 이 필드는 python2 및 python3의 초기 버전에는 존재하지 않습니다(python3.5는 아직 사용할 수 없음). 이 필드는 python3의 이후 버전에만 나타납니다. 🎜🎜세 번째 부분은 전체 py 소스 파일의 크기입니다. 🎜🎜네 번째 부분은 전체 pyc 파일에서 가장 중요한 부분이기도 합니다. 마지막 부분은 CodeObject 개체를 직렬화한 후의 데이터입니다. 이 개체와 관련된 데이터는 나중에 자세히 분석해 보겠습니다. 🎜🎜이제 pyc 파일을 자세히 분석해 보겠습니다. 해당 Python 코드는 다음과 같습니다. 🎜
    if __name__ == &#39;__main__&#39;:
        a = 100
        print(a)
    🎜 pyc 파일의 16진수 형식은 다음과 같습니다. 🎜
    import marshal
    import dis
    import struct
    import time
    import types
    import binascii
    def print_metadata(fp):
        magic = struct.unpack(&#39;<l&#39;, fp.read(4))[0]
        print(f"magic number = {hex(magic)}")
        bit_field = struct.unpack(&#39;<l&#39;, fp.read(4))[0]
        print(f"bit filed = {bit_field}")
        t = struct.unpack(&#39;<l&#39;, fp.read(4))[0]
        print(f"time = {time.asctime(time.localtime(t))}")
        file_size = struct.unpack(&#39;<l&#39;, fp.read(4))[0]
        print(f"file size = {file_size}")
    def show_code(code, indent=&#39;&#39;):
        print ("%scode" % indent)
        indent += &#39;   &#39;
        print ("%sargcount %d" % (indent, code.co_argcount))
        print ("%snlocals %d" % (indent, code.co_nlocals))
        print ("%sstacksize %d" % (indent, code.co_stacksize))
        print ("%sflags %04x" % (indent, code.co_flags))
        show_hex("code", code.co_code, indent=indent)
        dis.disassemble(code)
        print ("%sconsts" % indent)
        for const in code.co_consts:
            if type(const) == types.CodeType:
                show_code(const, indent+&#39;   &#39;)
            else:
                print("   %s%r" % (indent, const))
        print("%snames %r" % (indent, code.co_names))
        print("%svarnames %r" % (indent, code.co_varnames))
        print("%sfreevars %r" % (indent, code.co_freevars))
        print("%scellvars %r" % (indent, code.co_cellvars))
        print("%sfilename %r" % (indent, code.co_filename))
        print("%sname %r" % (indent, code.co_name))
        print("%sfirstlineno %d" % (indent, code.co_firstlineno))
        show_hex("lnotab", code.co_lnotab, indent=indent)
    def show_hex(label, h, indent):
        h = binascii.hexlify(h)
        if len(h) < 60:
            print("%s%s %s" % (indent, label, h))
        else:
            print("%s%s" % (indent, label))
            for i in range(0, len(h), 60):
                print("%s   %s" % (indent, h[i:i+60]))
    if __name__ == &#39;__main__&#39;:
        filename = "./__pycache__/pycdemo01.cpython-39.pyc"
        with open(filename, "rb") as fp:
            print_metadata(fp)
            code_object = marshal.load(fp)
            show_code(code_object)
    🎜위 데이터에 대해 데이터가 리틀 엔디안 표현을 사용하기 때문입니다.🎜
  • 🎜 매직 넘버의 첫 번째 부분은 0xa0d0d6f입니다. 🎜
  • 🎜두 번째 부분 비트 필드는 0x0입니다. 🎜
  • 🎜3부 마지막 수정 날짜: 0x642148b9. 🎜
  • 🎜네 번째 부분의 파일 크기는 0x20바이트입니다. 이는 hello.py 파일의 크기가 32바이트라는 의미입니다. 🎜
  • 🎜🎜다음은 pyc 파일의 헤더 메타 정보를 읽기 위한 작은 코드 조각입니다: 🎜
    magic number = 0xa0d0d61
    bit filed = 0
    time = Tue Mar 28 02:40:20 2023
    file size = 54
    code
       argcount 0
       nlocals 0
       stacksize 2
       flags 0040
       code b&#39;650064006b02721464015a01650265018301010064025300&#39;
      3           0 LOAD_NAME                0 (__name__)
                  2 LOAD_CONST               0 (&#39;__main__&#39;)
                  4 COMPARE_OP               2 (==)
                  6 POP_JUMP_IF_FALSE       20
      4           8 LOAD_CONST               1 (100)
                 10 STORE_NAME               1 (a)
      5          12 LOAD_NAME                2 (print)
                 14 LOAD_NAME                1 (a)
                 16 CALL_FUNCTION            1
                 18 POP_TOP
            >>   20 LOAD_CONST               2 (None)
                 22 RETURN_VALUE
       consts
          &#39;__main__&#39;
          100
          None
       names (&#39;__name__&#39;, &#39;a&#39;, &#39;print&#39;)
       varnames ()
       freevars ()
       cellvars ()
       filename &#39;./pycdemo01.py&#39;
       name &#39;<module>&#39;
       firstlineno 3
       lnotab b&#39;08010401&#39;
    🎜위 코드의 출력은 다음과 같습니다: 🎜
    🎜bit field = b'00000000'
    magic 0xa0d0d6f
    moddate(2023년 3월 27일 월요일 15:41:45)
    파일 크기 32🎜
    🎜pyc 파일에 대한 자세한 작업을 보려면 Python 표준 라이브러리 importlib를 볼 수 있습니다. /_bootstrap_external.py 파일 소스 코드. 🎜🎜CODEOBJECT🎜🎜CPython에서 CodeObject는 바이트코드, 상수, 변수, 위치 매개변수, 키워드 매개변수 및 Python 코드의 기타 정보뿐만 아니라 코드를 실행하는 데 사용되는 일부 정보를 포함하는 객체입니다. 코드 메타데이터(예: 파일 이름, 코드 줄 번호 등) 🎜🎜CPython에서 Python 모듈이나 함수를 실행할 때 인터프리터는 먼저 해당 코드를 CodeObject로 컴파일한 다음 실행합니다. 컴파일하는 동안 인터프리터는 Python 코드를 바이트코드로 변환하고 이를 CodeObject 객체에 저장합니다. 그런 다음 해당 모듈이나 함수를 호출할 때마다 인터프리터는 CodeObject의 바이트코드를 사용하여 코드를 실행합니다. 🎜🎜CodeObject 객체는 변경할 수 없으며 일단 생성되면 수정할 수 없습니다. 이는 Python 코드의 바이트코드가 불변이고, CodeObject 객체에 이러한 바이트코드가 포함되어 있으므로 역시 불변이기 때문입니다. 🎜🎜이 글에서는 코드 객체의 주요 내용을 주로 소개하고, 그 기능을 간략하게 소개하겠습니다. 이어지는 글에서는 코드 객체에 해당하는 소스 코드와 해당 필드의 세부 기능을 꼼꼼히 분석하겠습니다. 🎜

    现在举一个例子来分析一下 pycdemo.py 的 pyc 文件,pycdemo.py 的源程序如下所示:

    if __name__ == &#39;__main__&#39;:
        a = 100
        print(a)

    下面的代码是一个用于加载 pycdemo01.cpython-39.pyc 文件(也就是 hello.py 对应的 pyc 文件)的代码,使用 marshal 读取 pyc 文件里面的 code object 。

    import marshal
    import dis
    import struct
    import time
    import types
    import binascii
    def print_metadata(fp):
        magic = struct.unpack(&#39;<l&#39;, fp.read(4))[0]
        print(f"magic number = {hex(magic)}")
        bit_field = struct.unpack(&#39;<l&#39;, fp.read(4))[0]
        print(f"bit filed = {bit_field}")
        t = struct.unpack(&#39;<l&#39;, fp.read(4))[0]
        print(f"time = {time.asctime(time.localtime(t))}")
        file_size = struct.unpack(&#39;<l&#39;, fp.read(4))[0]
        print(f"file size = {file_size}")
    def show_code(code, indent=&#39;&#39;):
        print ("%scode" % indent)
        indent += &#39;   &#39;
        print ("%sargcount %d" % (indent, code.co_argcount))
        print ("%snlocals %d" % (indent, code.co_nlocals))
        print ("%sstacksize %d" % (indent, code.co_stacksize))
        print ("%sflags %04x" % (indent, code.co_flags))
        show_hex("code", code.co_code, indent=indent)
        dis.disassemble(code)
        print ("%sconsts" % indent)
        for const in code.co_consts:
            if type(const) == types.CodeType:
                show_code(const, indent+&#39;   &#39;)
            else:
                print("   %s%r" % (indent, const))
        print("%snames %r" % (indent, code.co_names))
        print("%svarnames %r" % (indent, code.co_varnames))
        print("%sfreevars %r" % (indent, code.co_freevars))
        print("%scellvars %r" % (indent, code.co_cellvars))
        print("%sfilename %r" % (indent, code.co_filename))
        print("%sname %r" % (indent, code.co_name))
        print("%sfirstlineno %d" % (indent, code.co_firstlineno))
        show_hex("lnotab", code.co_lnotab, indent=indent)
    def show_hex(label, h, indent):
        h = binascii.hexlify(h)
        if len(h) < 60:
            print("%s%s %s" % (indent, label, h))
        else:
            print("%s%s" % (indent, label))
            for i in range(0, len(h), 60):
                print("%s   %s" % (indent, h[i:i+60]))
    if __name__ == &#39;__main__&#39;:
        filename = "./__pycache__/pycdemo01.cpython-39.pyc"
        with open(filename, "rb") as fp:
            print_metadata(fp)
            code_object = marshal.load(fp)
            show_code(code_object)

    执行上面的程序输出结果如下所示:

    magic number = 0xa0d0d61
    bit filed = 0
    time = Tue Mar 28 02:40:20 2023
    file size = 54
    code
       argcount 0
       nlocals 0
       stacksize 2
       flags 0040
       code b&#39;650064006b02721464015a01650265018301010064025300&#39;
      3           0 LOAD_NAME                0 (__name__)
                  2 LOAD_CONST               0 (&#39;__main__&#39;)
                  4 COMPARE_OP               2 (==)
                  6 POP_JUMP_IF_FALSE       20
      4           8 LOAD_CONST               1 (100)
                 10 STORE_NAME               1 (a)
      5          12 LOAD_NAME                2 (print)
                 14 LOAD_NAME                1 (a)
                 16 CALL_FUNCTION            1
                 18 POP_TOP
            >>   20 LOAD_CONST               2 (None)
                 22 RETURN_VALUE
       consts
          &#39;__main__&#39;
          100
          None
       names (&#39;__name__&#39;, &#39;a&#39;, &#39;print&#39;)
       varnames ()
       freevars ()
       cellvars ()
       filename &#39;./pycdemo01.py&#39;
       name &#39;<module>&#39;
       firstlineno 3
       lnotab b&#39;08010401&#39;

    下面是 code object 当中各个字段的作用:

    • 首先需要了解一下代码块这个概念,所谓代码块就是一个小的 python 代码,被当做一个小的单元整体执行。在 Python 中常见的代码块包括函数体、类的定义和模块。

    • argcount,这个表示一个代码块的参数个数,这个参数只对函数体代码块有用,因为函数可能会有参数,比如上面的 pycdemo.py 是一个模块而不是一个函数,因此这个参数对应的值为 0 。

    • co_code,这个对象的具体内容就是一个字节序列,存储真实的 python 字节码,主要是用于 python 虚拟机执行的,在本篇文章当中暂时不详细分析。

    • co_consts,这个字段是一个列表类型的字段,主要是包含一些字符串常量和数值常量,比如上面的 ";main" 和 100 。

    • co_filename,这个字段的含义就是对应的源文件的文件名。

    • co_firstlineno,这个字段的含义为在 python 源文件当中第一行代码出现的行数,这个字段在进行调试的时候非常重要。

    • 主要含义是标识该 code object 的类型的字段是 co_flags。0x0080 表示这个 block 是一个协程,0x0010 表示这个 code object 是嵌套的等等。

    • co_lnotab,这个字段的含义主要是用于计算每个字节码指令对应的源代码行数。

    • The main purpose of the field "co_varnames" is to indicate a name defined locally in a code object.。

    • co_names,和 co_varnames 相反,表示非本地定义但是在 code object 当中使用的名字。

    • co_nlocals,这个字段表示在一个 code object 当中本地使用的变量个数。

    • co_stackszie,因为 python 虚拟机是一个栈式计算机,这个参数的值表示这个栈需要的最大的值。

    • co_cellvars,co_freevars,这两个字段主要和嵌套函数和函数闭包有关。

    위 내용은 Python 가상 머신의 pyc 파일 구조는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

    성명:
    이 기사는 yisu.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제