PyMuPDFM 및 평가를 사용하여 PDF를 마크다운으로 변환하는 방법-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

PyMuPDFM 및 평가를 사용하여 PDF를 마크다운으로 변환하는 방법

Linda Hamilton

Oct 07, 2024 pm 06:12 PM

PyMuPDF4LLM은 PDF를 마크다운 형식으로 변환하도록 설계된 라이브러리입니다. 여기에서는 이 라이브러리를 테스트한 경험을 공유하겠습니다.

설치

다음 명령을 사용하여 라이브러리 설치를 시작하세요.


pip install pymupdf4llm

용법

기본 사용법은 매우 간단하여 PDF를 Markdown으로 변환하는 데 단 세 줄의 코드만 필요합니다.


import pymupdf4llm
md_text = pymupdf4llm.to_markdown("input.pdf")
print(md_text)

인수를 지정하여 콘텐츠 추출 방법을 조정할 수 있습니다.

페이지별 텍스트 추출

기본적으로 전체 PDF는 단일 텍스트 출력으로 변환됩니다. 그러나 page_chunks=True를 지정하면 페이지 단위로 텍스트를 추출할 수 있습니다.


md_text = pymupdf4llm.to_markdown("input.pdf", page_chunks=True)

이미지 추출

이미지를 파일로 추출하려면 write_images=True 옵션을 사용하세요.


md_text = pymupdf4llm.to_markdown("input.pdf", write_images=True)

base64 인코딩을 사용하여 Markdown에 이미지를 직접 삽입할 수도 있습니다.


md_text = pymupdf4llm.to_markdown("input.pdf", embed_images=True)

변환 결과 평가

테스트에는 다양한 마크다운 요소가 포함된 다양한 PDF가 사용되었습니다.

How to Convert PDFs to Markdown Using PyMuPDFM and Its Evaluation

헤더 변환

헤더가 Markdown 형식으로 올바르게 변환됩니다. 결과의 일부는 다음과 같습니다.


# Sample Markdown Guide

This is a sample markdown file that includes various features for quick reference.

## 1. Headers

...

## 3. Lists

볼드체 및 이탤릭체 텍스트

굵게 및 기울임꼴 형식도 올바르게 변환됩니다.


**Bold: **Bold Text****

_Italic: *Italic Text*_

**_Bold and Italic: ***Bold and Italic***_**

목록 변환

첫 번째 수준의 정렬된 목록은 문제 없이 변환되지만 중첩된 목록과 정렬되지 않은 목록은 정확하게 변환되지 않습니다.

How to Convert PDFs to Markdown Using PyMuPDFM and Its Evaluation


## 3. Lists

### Unordered List

Item 1

Item 2

Sub-item 1

Sub-item 2

### Ordered List

1. First item

2. Second item

1. Sub-item A

2. Sub-item B

링크 변환

링크의 URL은 추출되지만 해당 링크가 포함된 줄 전체가 하이퍼링크가 되어 원래 형식에서 벗어납니다.

How to Convert PDFs to Markdown Using PyMuPDFM and Its Evaluation


## 4. Links and Images

[You can add links using [Link Text](URL).](https://www.example.com/)

이미지 추출

이미지는 기본적으로 추출되지 않지만 write_images=True를 사용하여 로컬에 저장할 수 있습니다.


md_text = pymupdf4llm.to_markdown("input.pdf", write_images=True)

저장된 이미지는 다음과 같이 Markdown에서 참조됩니다.


<p>### Image Example</p>

<p>![](input.pdf-1-0.png)</p>

테이블 변환

세로 테두리가 없는 단순한 테이블은 정확하게 변환되지 않습니다(모호한 열 경계로 인해 테이블이 일반 텍스트로 처리되기 때문일 수 있음).

How to Convert PDFs to Markdown Using PyMuPDFM and Its Evaluation


<p>## 5. Tables</p>

<p>**Column 1** **Column 2** **Column 3**</p>

<p>Row 1 Data A Data B</p>

<p>Row 2 Data C Data D</p>

코드 변환

코드 블록은 올바르게 변환되지만 언어 사양(예: Python)은 유지되지 않습니다. 인라인 코드 변환에도 문제가 있습니다.

How to Convert PDFs to Markdown Using PyMuPDFM and Its Evaluation


<p>## 6. Code</p>

<p>### Inline Code</p>

<p>Use backticks for inline code: print("Hello, world!")</p>

<p>### Code Block</p>

<p>Use triple backticks for code blocks:</p>

<p>```<br>
def greet(name):<br>
  return f"Hello, {name}!"<br>
print(greet("Markdown"))<br>
```</p>

여러 줄 텍스트

여러 줄의 텍스트의 경우 줄 바꿈은 원본 PDF에 표시된 대로 유지됩니다.

How to Convert PDFs to Markdown Using PyMuPDFM and Its Evaluation


<p>Markdown is a lightweight and versatile markup language favored by developers, writers, and bloggers alike</p>

<p>due to its simplicity in formatting text, enabling users to create readable and well-structured documents—</p>

<p>whether for documentation, blog posts, or articles—without the complexity of HTML, while also offering the</p>

<p>ability to convert content seamlessly into other formats like HTML, PDF, and even slideshows, making it an</p>

<p>ideal choice for projects that require both clarity and flexibility in presentation.</p>

결론

목록과 링크를 정확하게 변환하는 데 어려움이 있음에도 불구하고 PyMuPDF4LLM은 PDF를 Markdown으로 변환하는 데 유용한 도구입니다. 외부 언어 모델 없이 로컬에서 작동할 수 있어 인터넷 접속이 불가능한 환경에 적합합니다.

위 내용은 PyMuPDFM 및 평가를 사용하여 PDF를 마크다운으로 변환하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

목록과 배열 사이의 선택은 큰 데이터 세트를 다루는 파이썬 응용 프로그램의 전반적인 성능에 어떤 영향을 미칩니 까?May 03, 2025 am 12:11 AM

forhandlinglargedatasetsinpython, usenumpyarraysforbetterperformance.1) numpyarraysarememory-effic andfasterfornumericaloperations.2) leveragevectorization foredtimecomplexity.4) managemoryusage withorfications data

Python의 목록 대 배열에 대한 메모리가 어떻게 할당되는지 설명하십시오.May 03, 2025 am 12:10 AM

inpython, listsusedyammoryAllocation과 함께 할당하고, whilempyarraysallocatefixedMemory.1) listsAllocatemememorythanneedInitiality.

파이썬 어레이에서 요소의 데이터 유형을 어떻게 지정합니까?May 03, 2025 am 12:06 AM

Inpython, youcansspecthedatatypeyfelemeremodelerernspant.1) usenpynernrump.1) usenpynerp.dloatp.ploatm64, 포모 선례 전분자.

Numpy 란 무엇이며 Python의 수치 컴퓨팅에 중요한 이유는 무엇입니까?May 03, 2025 am 12:03 AM

numpyissentialfornumericalcomputinginpythonduetoitsspeed, memory-efficiency 및 comperniveMathematicaticaltions

'연속 메모리 할당'의 개념과 배열의 중요성에 대해 토론하십시오.May 03, 2025 am 12:01 AM

contiguousUousUousUlorAllocationScrucialForraysbecauseItAllowsOfficationAndFastElementAccess.1) ItenableSconstantTimeAccess, o (1), DuetodirectAddressCalculation.2) Itimprovesceeffiency theMultipleementFetchespercacheline.3) Itsimplififiesmomorym

파이썬 목록을 어떻게 슬라이스합니까?May 02, 2025 am 12:14 AM

slicepaythonlistisdoneusingthesyntaxlist [start : step : step] .here'showitworks : 1) startistheindexofthefirstelementtoinclude.2) stopistheindexofthefirstelemement.3) stepisincrementbetwetweentractionsoftortionsoflists

Numpy Array에서 수행 할 수있는 일반적인 작업은 무엇입니까?May 02, 2025 am 12:09 AM

NumpyAllowsForVariousOperationsOnArrays : 1) BasicArithmeticLikeadDition, Subtraction, A 및 Division; 2) AdvancedOperationsSuchasmatrixmultiplication; 3) extrayintondsfordatamanipulation; 5) Ag

파이썬으로 데이터 분석에 어레이가 어떻게 사용됩니까?May 02, 2025 am 12:09 AM

Arraysinpython, 특히 Stroughnumpyandpandas, areestentialfordataanalysis, setingspeedandefficiency

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.