>  기사  >  Java  >  Java에서 클래스 파서를 구현하는 방법의 예

Java에서 클래스 파서를 구현하는 방법의 예

黄舟
黄舟원래의
2017-09-15 10:16:001257검색

이 글에서는 주로 클래스 파일 분석을 통해 Java 클래스 파서 구현 방법의 예를 소개합니다. 이는 특정 참조 값이 있으며 필요한 친구가 이에 대해 배울 수 있습니다.

저는 현재 ClassAnalyzer라는 개인 프로젝트를 작성 중입니다. ClassAnalyzer의 목적은 Java 클래스 파일의 디자인과 구조에 대한 심층적인 이해를 제공하는 것입니다. 주요 프레임워크와 기본 기능은 완성되었으며, 향후 일부 세부 기능이 추가될 예정입니다. 실제로 JDK는 클래스 파일을 디컴파일하기 위한 명령줄 도구인 javap를 이미 제공하고 있지만 이 기사에서는 파서 구현에 대한 내 아이디어를 명확히 설명할 것입니다.

클래스 파일

클래스 또는 인터페이스 정보의 전달자로서 각 클래스 파일은 클래스를 완전히 정의합니다. Java 프로그램을 "한 번 작성하면 어디서나 실행"할 수 있도록 Java 가상 머신 사양에는 클래스 파일에 대한 엄격한 규정이 있습니다. 클래스 파일을 구성하는 기본 데이터 단위는 바이트이며, 이로 인해 전체 클래스 파일에 저장되는 내용은 단일 바이트로 표현할 수 없는 거의 모든 데이터로 표시됩니다. 배수 연속된 바이트로 표현됩니다.

Java Virtual Machine 사양에 따르면 클래스 파일은 C 언어 구조와 유사한 의사 구조를 사용하여 데이터를 저장합니다. 이 의사 구조에는 부호 없는 숫자와 테이블이라는 두 가지 데이터 유형만 있습니다. JVM(Java Virtual Machine) 사양은 u1, u2, u4 및 u8을 각각 1바이트, 2바이트, 4바이트 및 8바이트의 부호 없는 숫자를 나타내도록 정의합니다. 부호 없는 숫자는 참조, 수량 또는 문자열을 설명하는 데 사용할 수 있습니다. 테이블은 여러 개의 부호 없는 숫자 또는 기타 테이블을 데이터 항목으로 구성한 복합 데이터 유형입니다. 테이블은 계층적 복합 구조로 데이터를 설명하는 데 사용되므로 전체 클래스 파일은 본질적으로 테이블입니다. ClassAnalyzer에서는 byte, short, int, long이 각각 u1, u2, u4, u8 데이터 유형에 해당합니다. Class 파일은 다음과 같은 Java 클래스로 설명됩니다.


public class ClassFile {
 public U4 magic;       // magic
 public U2 minorVersion;      // minor_version
 public U2 majorVersion;      // major_version
 public U2 constantPoolCount;    // constant_pool_count
 public ConstantPoolInfo[] cpInfo;   // cp_info
 public U2 accessFlags;      // access_flags
 public U2 thisClass;      // this_class
 public U2 superClass;      // super_class
 public U2 interfacesCount;     // interfaces_count
 public U2[] interfaces;      // interfaces
 public U2 fieldsCount;      // fields_count
 public FieldInfo[] fields;     // fields
 public U2 methodsCount;      // methods_count
 public MethodInfo[] methods;    // methods
 public U2 attributesCount;     // attributes_count
 public BasicAttributeInfo[] attributes;  // attributes
}

클래스 파일을 구성하는 각 데이터 항목(매직 넘버, 클래스 파일 버전 및 기타 데이터 항목, 액세스 플래그, 클래스 인덱스, 부모 클래스 인덱스 등)을 구문 분석하는 방법

각 클래스 파일에 있습니다. 각각은 고정된 바이트 수를 차지하며 구문 분석 중에 해당 바이트 수만 읽어야 합니다. 또한 유연하게 처리해야 하는 부분은 주로 상수 풀, 필드 테이블 컬렉션, 메서드 테이블 컬렉션, 속성 테이블 컬렉션의 네 가지 부분입니다. 필드와 메소드는 고유한 속성을 가질 수 있으며 클래스 자체에도 해당 속성이 있으므로 필드 테이블 컬렉션과 메소드 테이블 컬렉션을 구문 분석하면 속성 테이블도 구문 분석됩니다.

상수 풀은 클래스 파일 데이터의 큰 부분을 차지하며 숫자 및 문자열 상수, 클래스 이름, 인터페이스 이름, 필드 이름, 메서드 이름 등을 포함한 모든 상수 정보를 저장하는 데 사용됩니다. JVM(Java Virtual Machine) 사양은 각각 고유한 구조를 갖는 여러 상수 유형을 정의합니다. 상수 풀 자체는 테이블이며, 이를 구문 분석할 때 주의해야 할 몇 가지 사항이 있습니다.

각 상수 유형은 u1 유형 태그로 식별됩니다.

테이블 헤더에 제공된 상수 풀 크기(constantPoolCount)는 실제 값보다 1 더 큽니다. 예를 들어, ConstantPoolCount가 47과 같다면 상수 풀에는 46개의 상수가 있습니다.

상수 풀의 인덱스 범위는 1부터 시작합니다. 예를 들어, ConstantPoolCount가 47이면 상수 풀의 인덱스 범위는 1~46입니다. 항목 0을 비워 두는 디자이너의 목적은 "상수 풀 항목을 참조하지 않음"을 표현하는 것입니다.

CONSTANT_Utf8_info 상수의 구조에는 u1 유형의 태그, u2 유형의 길이 및 u1 유형의 길이 바이트가 포함됩니다. 길이 바이트의 연속 데이터는 MUTF-8(수정된 UTF-8) 문자열을 사용하여 인코딩됩니다. MUTF-8은 UTF-8과 호환되지 않습니다. 첫째, 널 문자가 2바이트(0xC0 및 0x80)로 인코딩되고, 둘째, 보조 문자가 서로게이트 쌍으로 분할되어 UTF에 따라 별도로 인코딩됩니다. -16, 관련 세부 정보는 여기(변종 UTF-8)에서 확인할 수 있습니다.

속성 테이블은 특정 시나리오에 특정한 정보를 설명하는 데 사용됩니다. 클래스 파일, 필드 테이블 및 메서드 테이블에는 모두 해당 속성 테이블 세트가 있습니다. JVM(Java Virtual Machine) 사양은 다양한 속성을 정의하며, ClassAnalyzer는 현재 일반적으로 사용되는 속성에 대한 분석을 구현합니다. 상수 유형 데이터 항목과 달리 속성에는 속성 유형을 식별하는 태그가 없지만 각 속성에는 u2 유형의 attribute_name_index가 포함되어 있습니다. Attribute_name_index는 속성 이름이 포함된 상수 풀의 CONSTANT_Utf8_info 유형의 상수를 가리킵니다. 속성을 구문 분석할 때 ClassAnalyzer는 attribute_name_index가 가리키는 상수에 해당하는 속성 이름을 통해 속성의 유형을 알고 있습니다.

필드 테이블은 클래스나 인터페이스에서 선언된 변수를 설명하는 데 사용됩니다. 필드에는 클래스 수준 변수와 인스턴스 수준 변수가 포함됩니다. 필드 테이블의 구조는 u2 유형 access_flags, u2 유형 name_index, u2 유형 descriptor_index, u2 유형 속성_count 및 attribute_count 속성_info 유형 속성을 포함합니다. 우리는 이미 속성 테이블의 구문 분석을 소개했습니다. 속성의 구문 분석 방법은 속성 테이블의 구문 분석 방법과 일치합니다.

Class的文件方法表采用了和字段表相同的存储格式,只是access_flags对应的含义有所不同。方法表包含着一个重要的属性:Code属性。Code属性存储了Java代码编译成的字节码指令,在ClassAnalyzer中,Code对应的Java类如下所示(仅列出了类属性)


public class Code extends BasicAttributeInfo {
 private short maxStack;
 private short maxLocals;
 private long codeLength;
 private byte[] code;
 private short exceptionTableLength;
 private ExceptionInfo[] exceptionTable;
 private short attributesCount;
 private BasicAttributeInfo[] attributes;
 ...
 private class ExceptionInfo {
  public short startPc;
  public short endPc;
  public short handlerPc;
  public short catchType;
   ...
 }
}

在Code属性中,codeLength和code分别用于存储字节码长度和字节码指令,每条指令即一个字节(u1类型)。在虚拟机执行时,通过读取code中的一个个字节码,并将字节码翻译成相应的指令。另外,虽然codeLength是一个u4类型的值,但是实际上一个方法不允许超过65535条字节码指令。

代码实现

ClassAnalyzer的源码已放在了GitHub上。在ClassAnalyzer的README中,我以一个类的Class文件为例,对该Class文件的每个字节进行了分析,希望对大家的理解有所帮助。

위 내용은 Java에서 클래스 파서를 구현하는 방법의 예의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.