Python의 텍스트 처리는 자주 접하는 문제입니다. 다음 글에서는 주로 Python파일 읽기의 여러 가지 방법을 비교하여 소개합니다. 자세한 샘플 코드는 다음과 같습니다. 모든 사람이 이해하고 배울 수 있도록 기사에 나와 있습니다. 필요한 친구는 아래를 살펴볼 수 있습니다.
서문
파이썬에는 파일을 읽는 방법이 다양하다는 것은 누구나 알고 있지만, 대용량 파일을 읽어야 할 경우에는 다양한 읽기 방법을 사용합니다. 다른 효과가 있습니다. 아래에서 자세한 소개를 살펴보겠습니다.
시나리오
2.9G 대용량 파일을 한줄씩 읽기
CPU i7 6820HQ
RAM 32G
방식
각 줄의 읽기를 한 번 분할String작업
다음 메소드는 모두 with...as 메소드를 사용하여 파일을 엽니다.
with 문은 사용 중 예외 발생 여부에 관계없이 사용 후 파일 자동 닫기, 자동 획득 등 리소스를 해제하는 데 필요한 "정리" 작업이 수행되도록 리소스에 액세스하는 데 적합합니다. 스레드의 잠금 및 해제 등.
방법 1 파일을 읽는 가장 일반적인 방법
with open(file, 'r') as fh: for line in fh.readlines(): line.split("|")
실행 결과: 15.4346568584초 소요
시스템 모니터에 메모리가 4.8G에서 8.4G로 갑자기 증가한 것으로 표시됩니다. fh.readlines()는 읽은 모든 라인 데이터를 메모리에 저장합니다.
방법 2
with open(file, 'r') as fh: line = fh.readline() while line: line.split("|")
실행 결과: 22.3531990051초 걸렸습니다
메모리에는 거의 변화가 없습니다. 메모리는 한 행의 데이터만 액세스하지만 시간은 분명히 이전 시간보다 길어서 추가 데이터 처리에 효율적이지 않습니다.
방법 3
with open(file) as fh: for line in fh: line.split("|")
실행 결과: 13.9956979752초 걸렸습니다
메모리에는 거의 변화가 없습니다. , 속도도 두 번째 방법보다 빠릅니다.
for line in fh는 객체 fh 파일을 반복 가능 항목으로 처리합니다. 이는 자동으로 버퍼링된 IO 및 메모리 관리를 사용하므로 대용량 파일에 대해 걱정할 필요가 없습니다. 이것은 매우 파이썬적인 방법입니다!
방법 4 파일 입력 모듈
for line in fileinput.input(file): line.split("|")
실행 결과: 26.1103110313초 소요
메모리 200 증가 - 300MB, 위 중에서 가장 느립니다.
요약
위의 방법은 참고용일 뿐입니다. 대용량 파일을 읽을 때 인식되는 세 가지 방법이 여전히 가장 좋습니다. 그러나 구체적인 상황은 여전히 기계 성능과 데이터 처리의 복잡성에 따라 달라집니다.
[관련 권장 사항]
위 내용은 Python에서 파일을 읽는 네 가지 방법 비교의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!