PyMuPDFM を使用して PDF を Markdown に変換する方法とその評価-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

PyMuPDFM を使用して PDF を Markdown に変換する方法とその評価

Linda Hamilton

Oct 07, 2024 pm 06:12 PM

PyMuPDF4LLM は、PDF を Markdown 形式に変換するために設計されたライブラリです。ここでは、このライブラリをテストした私の経験を共有します。

インストール

次のコマンドを使用してライブラリをインストールすることから始めます:


pip install pymupdf4llm

使用法

基本的な使用法は非常に簡単で、PDF を Markdown に変換するのに必要なコードは 3 行だけです。


import pymupdf4llm
md_text = pymupdf4llm.to_markdown("input.pdf")
print(md_text)

引数を指定してコンテンツの抽出方法を調整できます。

ページごとのテキストの抽出

デフォルトでは、PDF 全体が 1 つのテキスト出力に変換されます。ただし、page_chunks=True を指定すると、ページごとにテキストを抽出できます。


md_text = pymupdf4llm.to_markdown("input.pdf", page_chunks=True)

画像の抽出

画像をファイルとして抽出するには、write_images=True オプションを使用します。


md_text = pymupdf4llm.to_markdown("input.pdf", write_images=True)

base64 エンコードを使用してマークダウンに画像を直接埋め込むこともできます。


md_text = pymupdf4llm.to_markdown("input.pdf", embed_images=True)

変換結果の評価

テストには、異なる Markdown 要素を含むさまざまな PDF が使用されました。

How to Convert PDFs to Markdown Using PyMuPDFM and Its Evaluation

ヘッダー変換

ヘッダーは Markdown 形式に正しく変換されます。以下は結果の一部です:


# Sample Markdown Guide

This is a sample markdown file that includes various features for quick reference.

## 1. Headers

...

## 3. Lists

太字と斜体のテキスト

太字と斜体の書式も適切に変換されます:


**Bold: **Bold Text****

_Italic: *Italic Text*_

**_Bold and Italic: ***Bold and Italic***_**

リスト変換

最初のレベルの順序付きリストは問題なく変換されますが、入れ子になったリストと順序なしリストは正確に変換されません。

How to Convert PDFs to Markdown Using PyMuPDFM and Its Evaluation


## 3. Lists

### Unordered List

Item 1

Item 2

Sub-item 1

Sub-item 2

### Ordered List

1. First item

2. Second item

1. Sub-item A

2. Sub-item B

リンク変換

リンクの URL は抽出されますが、リンクを含む行全体がハイパーリンクになり、元の形式から逸脱します。

How to Convert PDFs to Markdown Using PyMuPDFM and Its Evaluation


## 4. Links and Images

[You can add links using [Link Text](URL).](https://www.example.com/)

画像抽出

画像はデフォルトでは抽出されませんが、write_images=True を使用してローカルに保存できます。


md_text = pymupdf4llm.to_markdown("input.pdf", write_images=True)

保存された画像は、次のようにマークダウンで参照されます。


<p>### Image Example</p>

<p>![](input.pdf-1-0.png)</p>

テーブル変換

垂直方向の境界線のない単純なテーブルは正確に変換されません (おそらく、列の境界があいまいなため、テーブルがプレーンテキストとして扱われるためです)。

How to Convert PDFs to Markdown Using PyMuPDFM and Its Evaluation


<p>## 5. Tables</p>

<p>**Column 1** **Column 2** **Column 3**</p>

<p>Row 1 Data A Data B</p>

<p>Row 2 Data C Data D</p>

コード変換

コードブロックは正しく変換されますが、言語仕様 (Python など) は保持されません。インラインコード変換にも問題があります。

How to Convert PDFs to Markdown Using PyMuPDFM and Its Evaluation


<p>## 6. Code</p>

<p>### Inline Code</p>

<p>Use backticks for inline code: print("Hello, world!")</p>

<p>### Code Block</p>

<p>Use triple backticks for code blocks:</p>

<p>```<br>
def greet(name):<br>
  return f"Hello, {name}!"<br>
print(greet("Markdown"))<br>
```</p>

複数行のテキスト

複数行のテキストの場合、改行は元の PDF に表示されるとおりに保持されます。

How to Convert PDFs to Markdown Using PyMuPDFM and Its Evaluation


<p>Markdown is a lightweight and versatile markup language favored by developers, writers, and bloggers alike</p>

<p>due to its simplicity in formatting text, enabling users to create readable and well-structured documents—</p>

<p>whether for documentation, blog posts, or articles—without the complexity of HTML, while also offering the</p>

<p>ability to convert content seamlessly into other formats like HTML, PDF, and even slideshows, making it an</p>

<p>ideal choice for projects that require both clarity and flexibility in presentation.</p>

結論

リストやリンクを正確に変換するのは困難ですが、PyMuPDF4LLM は PDF を Markdown に変換するのに便利なツールです。外部言語モデルを必要とせずにローカルで動作できるため、インターネットアクセスが利用できない環境に適しています。

以上がPyMuPDFM を使用して PDF を Markdown に変換する方法とその評価の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Pythonの融合リスト：適切な方法を選択しますMay 14, 2025 am 12:11 AM

Tomergelistsinpython、あなたはオペレーター、extendmethod、listcomfulting、olitertools.chain、それぞれの特異的advantages：1）operatorissimplebutlessforlargelist;

Python 3の2つのリストを連結する方法は？May 14, 2025 am 12:09 AM

Python 3では、2つのリストをさまざまな方法で接続できます。1）小さなリストに適したオペレーターを使用しますが、大きなリストには非効率的です。 2）メモリ効率が高い大規模なリストに適した拡張方法を使用しますが、元のリストは変更されます。 3）元のリストを変更せずに、複数のリストをマージするのに適した *オペレーターを使用します。 4）Itertools.chainを使用します。これは、メモリ効率が高い大きなデータセットに適しています。

Python Concatenateリスト文字列May 14, 2025 am 12:08 AM

Join（）メソッドを使用することは、Pythonのリストから文字列を接続する最も効率的な方法です。 1）join（）メソッドを使用して、効率的で読みやすくなります。 2）サイクルは、大きなリストに演算子を非効率的に使用します。 3）リスト理解とJoin（）の組み合わせは、変換が必要なシナリオに適しています。 4）redoce（）メソッドは、他のタイプの削減に適していますが、文字列の連結には非効率的です。完全な文は終了します。

Pythonの実行、それは何ですか？May 14, 2025 am 12:06 AM

pythonexexecutionistheprocessoftransforningpythoncodeintoexecutabletructions.1）interpreterreadSthecode、変換intobytecode、thepythonvirtualmachine（pvm）executes.2）theglobalinterpreeterlock（gil）管理委員会、

Python：重要な機能は何ですかMay 14, 2025 am 12:02 AM

Pythonの主な機能には次のものがあります。1。構文は簡潔で理解しやすく、初心者に適しています。 2。動的タイプシステム、開発速度の向上。 3。複数のタスクをサポートするリッチ標準ライブラリ。 4.強力なコミュニティとエコシステム、広範なサポートを提供する。 5。スクリプトと迅速なプロトタイピングに適した解釈。 6.さまざまなプログラミングスタイルに適したマルチパラダイムサポート。

Python：コンパイラまたはインタープリター？May 13, 2025 am 12:10 AM

Pythonは解釈された言語ですが、コンパイルプロセスも含まれています。 1）Pythonコードは最初にBytecodeにコンパイルされます。 2）ByteCodeは、Python Virtual Machineによって解釈および実行されます。 3）このハイブリッドメカニズムにより、Pythonは柔軟で効率的になりますが、完全にコンパイルされた言語ほど高速ではありません。

ループvs whileループ用のpython：いつ使用するか？May 13, 2025 am 12:07 AM

useaforloopwhenteratingoverasequenceor foraspificnumberoftimes; useawhileloopwhentinuninguntinuntilaConditionismet.forloopsareidealforknownownownownownownoptinuptinuptinuptinuptinutionsituations whileoopsuitsituations withinterminedationations。

Pythonループ：最も一般的なエラーMay 13, 2025 am 12:07 AM

pythonloopscanleadtoErrorslikeinfiniteloops、ModifiningListsDuringiteration、Off-Oneerrors、Zero-dexingissues、およびNestededLoopinefficiencies.toavoidhese：1）use'i

See all articles