집 >백엔드 개발 >파이썬 튜토리얼 >바이너리 데이터를 처리하기 위해 구조체를 사용하는 Python의 방법에 대한 자세한 설명

바이너리 데이터를 처리하기 위해 구조체를 사용하는 Python의 방법에 대한 자세한 설명

巴扎黑원래의: 2017-09-13 10:05:342383검색

이 글은 Python 구조체를 사용하여 바이너리를 처리하는 예제에 대한 자세한 설명을 주로 소개합니다. 필요한 친구들은 이 글을 통해 모두가 이 부분을 숙지할 수 있기를 바랍니다.

자세한 설명 바이너리를 처리하기 위해 구조체를 사용하는 Python의 예

Yes 파일에 액세스하거나 소켓 작업을 수행할 때와 같이 바이너리 데이터를 처리하기 위해 Python을 사용해야 하는 경우 Python의 구조체 모듈을 사용하여 완료할 수 있습니다.

struct 모듈 가장 중요한 세 가지 함수는 pack(), unpack(), calcsize()
pack(fmt, v1, v2, ...)입니다. 데이터를 주어진 형식(fmt)에 따라 문자열로 변환합니다. (실제로는 C 구조와 유사한 바이트 스트림입니다.)
unpack(fmt, string) 주어진 형식(fmt)에 따라 바이트 스트림 문자열을 구문 분석하고 반환합니다. 구문 분석된 튜플
calcsize(fmt ) 구조체에서 지원되는 메모리 바이트 수를 계산합니다. 다음과 같습니다:

패드 바이트값 없음길이가 1111122444 참고 2. 이전에 각 형식을 사용할 수 있습니다. 숫자를 나타내는 숫자가 있습니다참고 4.P 포인터의 길이를 변환하는 데 사용됩니다. 이는 기계어 길이와 관련이 있습니다c의 구조와 데이터를 교환하려면, 또한 일부 C 또는 C++ 컴파일러는 단어를 사용한다는 점을 고려해야 합니다. 섹션 정렬은 32비트 시스템의 경우 일반적으로 4바이트이므로 구조체는 로컬 시스템 바이트 순서에 따라 변환됩니다. 형식의 첫 번째 문자를 사용하여 변경할 수 있습니다. 정의는 다음과 같습니다. 문자바이트 순서크기 및 정렬@nativenative 구성 4바이트=네이티브

1		c	char
	b	서명된 문자	integer
	B	부호 없는 문자	정수
	?	_Bool	bool
	h	short	int eger
	H	unsigned short	정수
	i	int	integer
	I	unsigned int	integer 또는 long
	l	long	integer
	H 에드 롱 롱	long	8
f	float	float	4
d	double	float	8
s	char[]	string	1
p	char[]	string	1
P	void *	long
	참고 1.q 및 Q는 컴퓨터가 64비트 작업을 지원할 때만 유용합니다	참고 3. s 형식은 특정 길이의 문자열을 나타내고, 4s는 길이 4의 문자열을 나타내지만 p는 파스칼 문자열을 나타냅니다.	참고 5. 마지막 것은 포인터 유형을 나타내는 데 사용할 수 있으며, 4바이트를 차지합니다.


			standard 원래 바이트 수에 따라

< ; TlitTLE-Endian

원래 바이트에 따른

& gt

Big-Endian

standard;

! Network (= Big-Endian)

사용방법은 '@5s6sif'처럼 fmt의 첫 번째 위치에 놓는 것입니다.

예1:

예를 들어 소켓을 통해 받은

struct Header
{
  unsigned short id;
  char[4] tag;
  unsigned int version;
  unsigned int count;
}

구조체가 있습니다 .recv 문자열 s에 구조 데이터가 있습니다. 이제 unpack() 함수를 사용할 수 있습니다.

import struct id, tag, version, count = struct.unpack("!H4s2I", s)

위 형식 문자열에서 !는 네트워크 바이트를 사용한다는 의미입니다. 우리의 데이터는 네트워크에서 수신되기 때문에 네트워크를 통해 전송될 때 네트워크 바이트 순서로 되어 있습니다. 다음 H는 unsigned short id를 나타내고, 4s는 4바이트 길이의 문자열을 나타내고, 2I는 두 개의 Unsigned int 유형을 나타냅니다.

압축 해제를 통해 이제 정보가 ID, 태그, 버전, 개수로 저장되었습니다.

마찬가지로 로컬 데이터를 구조체 형식으로 압축하는 것도 매우 편리합니다. 함수는 지정된 형식에 따라 ID, 태그, 버전, 개수를 헤더 구조로 변환합니다. ss는 이제 문자열(실제로는 c 구조와 유사한 바이트 스트림)이며, 이 문자열은 소켓.send(ss)를 통해 전송될 수 있습니다.

예 2:

ss = struct.pack("!H4s2I", id, tag, version, count);

이때 bytes는 문자열 문자열이고, 바이트별 문자열은 .

그런 다음 역연산을 수행합니다

기존 바이너리 데이터 바이트(실제로는 문자열)를 Python 데이터 유형으로 변환합니다.

import struct
a=12.34
#将a变为二进制
bytes=struct.pack(&#39;i&#39;,a)

unpack은 튜플을 반환합니다

그렇다면 변수는 단 하나입니다:

a,=struct.unpack(&#39;i&#39;,bytes)

그러면

bytes=struct.pack(&#39;i&#39;,a)

를 디코딩할 때 다음과 같아야 합니다. a=struct.unpack('i', bytes)를 직접 사용하면 a=( 12.34, ) 는 원래 부동 소수점 숫자 대신 튜플입니다.

여러 개의 데이터로 구성된 경우 다음과 같을 수 있습니다.

a,=struct.unpack(&#39;i&#39;,bytes) 或者 (a,)=struct.unpack('i',bytes)

이때의 바이트는 바이너리 형태의 데이터로, binfile.write(bytes)와 같은 파일에 직접 쓸 수 있습니다.

그런 다음 필요할 때 읽을 수 있게 되면 bytes=binfile.read()

하고 struct.unpack()

a=&#39;hello&#39;
b=&#39;world!&#39;
c=2
d=45.123
bytes=struct.pack(&#39;5s6sif&#39;,a,b,c,d)

'5s6sif'을 통해 Python 변수로 디코딩합니다. fmt는 숫자와 문자로 구성됩니다. 5s는 5자의 문자열을 의미하고, 2i는 2개의 정수를 의미합니다. 다음은 사용 가능한 문자와 유형입니다. 파이썬.

참고: 바이너리 파일을 처리할 때 발생하는 문제

바이너리 파일을 처리할 때 다음 방법을 사용해야 합니다

a,b,c,d=struct.unpack(&#39;5s6sif&#39;,bytes)

binfile=open(filepath,'r')의 결과는 무엇입니까? 차이점은 무엇입니까?

두 가지 차이점이 있습니다.

첫째, 'r' 사용 시 '0x1A'를 만나면 파일의 끝, 즉 EOF로 간주됩니다. 'rb'를 사용하면 이 문제가 발생하지 않습니다. 즉, 바이너리로 쓰고 텍스트로 읽는 경우 '0X1A'가 있으면 파일의 일부만 읽혀지게 됩니다. 'rb'를 사용하면 파일 끝까지 읽습니다.

둘째, 문자열 x='abcndef'에 대해 len(x)를 사용하여 길이를 7로 만들 수 있습니다. n을 개행 문자라고 부르는데 실제로는 '0X0A'입니다. 텍스트 모드인 'w'로 쓰면 '0X0A'는 윈도우 플랫폼에서는 자동으로 '0X0D', '0X0A'라는 두 글자로 변경된다. 즉, 실제로 파일 길이는 8이 된다. 'r' 텍스트 모드로 읽으면 자동으로 원래 개행 문자로 변환됩니다. 쓰기 위해 'wb' 바이너리 모드로 변경하면 한 문자는 그대로 유지되며, 읽을 때 그대로 읽혀지게 됩니다. 따라서 텍스트 모드로 쓰고 바이너리 모드로 읽는 경우 이 추가 바이트를 고려해야 합니다. '0X0D'는 캐리지 리턴 문자라고도 합니다. Linux에서는 변경되지 않습니다. 리눅스는 줄바꿈을 표현하기 위해 '0X0A'만을 사용하기 때문입니다.

		표준 원래 바이트 수 기준

위 내용은 바이너리 데이터를 처리하기 위해 구조체를 사용하는 Python의 방법에 대한 자세한 설명의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명：

이전 기사：Python에서 Numpy와 Pandas 사용 소개다음 기사：Python에서 Numpy와 Pandas 사용 소개