찾다
백엔드 개발파이썬 튜토리얼PyMuPDFM 및 평가를 사용하여 PDF를 마크다운으로 변환하는 방법

PyMuPDF4LLM은 PDF를 마크다운 형식으로 변환하도록 설계된 라이브러리입니다. 여기에서는 이 라이브러리를 테스트한 경험을 공유하겠습니다.

설치

다음 명령을 사용하여 라이브러리 설치를 시작하세요.


pip install pymupdf4llm


용법

기본 사용법은 매우 간단하여 PDF를 Markdown으로 변환하는 데 단 세 줄의 코드만 필요합니다.


import pymupdf4llm
md_text = pymupdf4llm.to_markdown("input.pdf")
print(md_text)


인수를 지정하여 콘텐츠 추출 방법을 조정할 수 있습니다.

페이지별 텍스트 추출

기본적으로 전체 PDF는 단일 텍스트 출력으로 변환됩니다. 그러나 page_chunks=True를 지정하면 페이지 단위로 텍스트를 추출할 수 있습니다.


md_text = pymupdf4llm.to_markdown("input.pdf", page_chunks=True)


이미지 추출

이미지를 파일로 추출하려면 write_images=True 옵션을 사용하세요.


md_text = pymupdf4llm.to_markdown("input.pdf", write_images=True)


base64 인코딩을 사용하여 Markdown에 이미지를 직접 삽입할 수도 있습니다.


md_text = pymupdf4llm.to_markdown("input.pdf", embed_images=True)


변환 결과 평가

테스트에는 다양한 마크다운 요소가 포함된 다양한 PDF가 사용되었습니다.

How to Convert PDFs to Markdown Using PyMuPDFM and Its Evaluation

헤더 변환

헤더가 Markdown 형식으로 올바르게 변환됩니다. 결과의 일부는 다음과 같습니다.


# Sample Markdown Guide

This is a sample markdown file that includes various features for quick reference.

## 1. Headers

...

## 3. Lists


볼드체 및 이탤릭체 텍스트

굵게 및 기울임꼴 형식도 올바르게 변환됩니다.


**Bold: **Bold Text****

_Italic: *Italic Text*_

**_Bold and Italic: ***Bold and Italic***_**


목록 변환

첫 번째 수준의 정렬된 목록은 문제 없이 변환되지만 중첩된 목록과 정렬되지 않은 목록은 정확하게 변환되지 않습니다.

How to Convert PDFs to Markdown Using PyMuPDFM and Its Evaluation


## 3. Lists

### Unordered List

Item 1

Item 2

Sub-item 1

Sub-item 2

### Ordered List

1. First item

2. Second item

1. Sub-item A

2. Sub-item B


링크 변환

링크의 URL은 추출되지만 해당 링크가 포함된 줄 전체가 하이퍼링크가 되어 원래 형식에서 벗어납니다.

How to Convert PDFs to Markdown Using PyMuPDFM and Its Evaluation


## 4. Links and Images

[You can add links using [Link Text](URL).](https://www.example.com/)


이미지 추출

이미지는 기본적으로 추출되지 않지만 write_images=True를 사용하여 로컬에 저장할 수 있습니다.


md_text = pymupdf4llm.to_markdown("input.pdf", write_images=True)


저장된 이미지는 다음과 같이 Markdown에서 참조됩니다.


<p>### Image Example</p>

<p>![](input.pdf-1-0.png)</p>




테이블 변환

세로 테두리가 없는 단순한 테이블은 정확하게 변환되지 않습니다(모호한 열 경계로 인해 테이블이 일반 텍스트로 처리되기 때문일 수 있음).

How to Convert PDFs to Markdown Using PyMuPDFM and Its Evaluation


<p>## 5. Tables</p>

<p>**Column 1** **Column 2** **Column 3**</p>

<p>Row 1 Data A Data B</p>

<p>Row 2 Data C Data D</p>




코드 변환

코드 블록은 올바르게 변환되지만 언어 사양(예: Python)은 유지되지 않습니다. 인라인 코드 변환에도 문제가 있습니다.

How to Convert PDFs to Markdown Using PyMuPDFM and Its Evaluation


<p>## 6. Code</p>

<p>### Inline Code</p>

<p>Use backticks for inline code: print("Hello, world!")</p>

<p>### Code Block</p>

<p>Use triple backticks for code blocks:</p>

<p>```<br>
def greet(name):<br>
  return f"Hello, {name}!"<br>
print(greet("Markdown"))<br>
```</p>




여러 줄 텍스트

여러 줄의 텍스트의 경우 줄 바꿈은 원본 PDF에 표시된 대로 유지됩니다.

How to Convert PDFs to Markdown Using PyMuPDFM and Its Evaluation


<p>Markdown is a lightweight and versatile markup language favored by developers, writers, and bloggers alike</p>

<p>due to its simplicity in formatting text, enabling users to create readable and well-structured documents—</p>

<p>whether for documentation, blog posts, or articles—without the complexity of HTML, while also offering the</p>

<p>ability to convert content seamlessly into other formats like HTML, PDF, and even slideshows, making it an</p>

<p>ideal choice for projects that require both clarity and flexibility in presentation.</p>




결론

목록과 링크를 정확하게 변환하는 데 어려움이 있음에도 불구하고 PyMuPDF4LLM은 PDF를 Markdown으로 변환하는 데 유용한 도구입니다. 외부 언어 모델 없이 로컬에서 작동할 수 있어 인터넷 접속이 불가능한 환경에 적합합니다.

위 내용은 PyMuPDFM 및 평가를 사용하여 PDF를 마크다운으로 변환하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
목록과 배열 사이의 선택은 큰 데이터 세트를 다루는 파이썬 응용 프로그램의 전반적인 성능에 어떤 영향을 미칩니 까?목록과 배열 사이의 선택은 큰 데이터 세트를 다루는 파이썬 응용 프로그램의 전반적인 성능에 어떤 영향을 미칩니 까?May 03, 2025 am 12:11 AM

forhandlinglargedatasetsinpython, usenumpyarraysforbetterperformance.1) numpyarraysarememory-effic andfasterfornumericaloperations.2) leveragevectorization foredtimecomplexity.4) managemoryusage withorfications data

Python의 목록 대 배열에 대한 메모리가 어떻게 할당되는지 설명하십시오.Python의 목록 대 배열에 대한 메모리가 어떻게 할당되는지 설명하십시오.May 03, 2025 am 12:10 AM

inpython, listsusedyammoryAllocation과 함께 할당하고, whilempyarraysallocatefixedMemory.1) listsAllocatemememorythanneedInitiality.

파이썬 어레이에서 요소의 데이터 유형을 어떻게 지정합니까?파이썬 어레이에서 요소의 데이터 유형을 어떻게 지정합니까?May 03, 2025 am 12:06 AM

Inpython, youcansspecthedatatypeyfelemeremodelerernspant.1) usenpynernrump.1) usenpynerp.dloatp.ploatm64, 포모 선례 전분자.

Numpy 란 무엇이며 Python의 수치 컴퓨팅에 중요한 이유는 무엇입니까?Numpy 란 무엇이며 Python의 수치 컴퓨팅에 중요한 이유는 무엇입니까?May 03, 2025 am 12:03 AM

numpyissentialfornumericalcomputinginpythonduetoitsspeed, memory-efficiency 및 comperniveMathematicaticaltions

'연속 메모리 할당'의 개념과 배열의 중요성에 대해 토론하십시오.'연속 메모리 할당'의 개념과 배열의 중요성에 대해 토론하십시오.May 03, 2025 am 12:01 AM

contiguousUousUousUlorAllocationScrucialForraysbecauseItAllowsOfficationAndFastElementAccess.1) ItenableSconstantTimeAccess, o (1), DuetodirectAddressCalculation.2) Itimprovesceeffiency theMultipleementFetchespercacheline.3) Itsimplififiesmomorym

파이썬 목록을 어떻게 슬라이스합니까?파이썬 목록을 어떻게 슬라이스합니까?May 02, 2025 am 12:14 AM

slicepaythonlistisdoneusingthesyntaxlist [start : step : step] .here'showitworks : 1) startistheindexofthefirstelementtoinclude.2) stopistheindexofthefirstelemement.3) stepisincrementbetwetweentractionsoftortionsoflists

Numpy Array에서 수행 할 수있는 일반적인 작업은 무엇입니까?Numpy Array에서 수행 할 수있는 일반적인 작업은 무엇입니까?May 02, 2025 am 12:09 AM

NumpyAllowsForVariousOperationsOnArrays : 1) BasicArithmeticLikeadDition, Subtraction, A 및 Division; 2) AdvancedOperationsSuchasmatrixmultiplication; 3) extrayintondsfordatamanipulation; 5) Ag

파이썬으로 데이터 분석에 어레이가 어떻게 사용됩니까?파이썬으로 데이터 분석에 어레이가 어떻게 사용됩니까?May 02, 2025 am 12:09 AM

Arraysinpython, 특히 Stroughnumpyandpandas, areestentialfordataanalysis, setingspeedandefficiency

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 Linux 새 버전

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

VSCode Windows 64비트 다운로드

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

mPDF

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.