ホームページ >バックエンド開発 >Python チュートリアル >PythonでPDFを処理する:PyMuPDFのインストールと使い方!
皆さんこんにちは、私は Python 人工知能テクノロジーです。
PyMuPDF を紹介する前に、まず MuPDF について理解しましょう 名前の形式からわかるように、PyMuPDF は MuPDF の Python インターフェイス形式です。
MuPDF
MuPDF は、軽量の PDF、XPS、および電子書籍ビューアです。 MuPDF は、ソフトウェア ライブラリ、コマンド ライン ツール、およびさまざまなプラットフォーム用のビューアで構成されています。
MuPDF のレンダラーは、高品質のアンチエイリアス処理されたグラフィックス向けにカスタマイズされています。画面上で印刷されたページの外観を最大限に忠実に再現するために、ピクセルの何分の一以内の正確な寸法と間隔でテキストをレンダリングします。
このオブザーバーは小型で高速ですが、完全な機能を備えています。 PDF、XPS、OpenXPS、CBZ、EPUB、FictionBook 2 などの複数のドキュメント形式をサポートしています。モバイル ビューアを使用して、PDF ドキュメントのフォームに注釈を付けたり、入力したりできます (この機能はデスクトップ ビューアでも間もなく利用できるようになる予定です)。
コマンド ライン ツールを使用すると、ドキュメントに注釈を付けたり、編集したり、HTML、SVG、PDF、CBZ などの他の形式に変換したりできます。 Javascript を使用してスクリプトを作成し、ドキュメントを操作することもできます。
PyMuPDF
PyMuPDF (現在のバージョン 1.18.17) は、MuPDF (現在のバージョン 1.18.*) をサポートする Python バインディングです。
PyMuPDF を使用すると、拡張子「.pdf」、「.xps」、「.oxps」、「.cbz」、「.fb2」、または「.epub」を持つファイルにアクセスできます。さらに、「.png」、「.jpg」、「.bmp」、「.tiff」など、約 10 種類の一般的な画像形式もドキュメントと同様に処理できます。
サポートされているすべてのドキュメント タイプ:
新機能: レイアウト保存のテキスト抽出!
スクリプト fitzcliy.py は、サブコマンド「gettext」を介してさまざまな形式でのテキスト抽出を提供します。特に興味深いのは、もちろんレイアウトの保存です。これは、画像の周囲の領域や表内のテキストのコピー、および複数列のテキストを含む、元の物理レイアウトにできるだけ近いテキストを生成します。 3. インストールPyMuPDF は、ソース コードまたはホイールからインストールできます。 Windows、Linux、Mac OSX プラットフォームの場合、ホイールは PyPI のダウンロード セクションで入手できます。これには、Python 64 ビット バージョン 3.6 ~ 3.9 が含まれます。 Windows 用の 32 ビット バージョンもあります。最近、Linux ARM アーキテクチャにいくつかの問題が発生しています。プラットフォーム タグ manylinux2014_aarch64 を探してください。 標準ライブラリ以外に必須の外部依存関係はありません。特定のパッケージがインストールされている場合にのみ、いくつかの優れたメソッドがあります。pip インストール コマンドを使用します。
pip install PyMuPDFインポート ライブラリ:
import fitzfitz の命名方法このライブラリの標準 Python インポート ステートメントは import fitz です。これには歴史的な理由があります。MuPDF の元のレンダリング ライブラリは Libart と呼ばれていました。 Artifex Software が MuPDF プロジェクトを買収した後、開発の焦点は「Fitz」と呼ばれる新しい最新グラフィックス ライブラリの作成に移りました。 Fitz は、老朽化した Ghostscript グラフィックス ライブラリを置き換える R&D プロジェクトとして始まりましたが、MuPDF のレンダリング エンジンになりました (Wikipedia より引用)。 4. 使用方法1. ライブラリをインポートしてバージョンを確認します
import fitz print(fitz.__doc__) PyMuPDF 1.18.16: Python bindings for the MuPDF 1.18.0 library. Version date: 2021-08-05 00:00:01. Built for Python 3.8 on linux (64-bit).
doc = fitz.open(filename)
#メソッド/プロパティ | 説明 | |||||||||||||||||||||
## Document.page_count | ページ番号(int) ||||||||||||||||||||||
|
||||||||||||||||||||||
|
## Document.load_page() | |||||||||||||||||||||
#ページを読む | #
Key |
Value |
producer |
producer (producing software) |
format |
format: ‘PDF-1.4’, ‘EPUB’, etc. |
encryption |
encryption method used if any |
author |
author |
modDate |
date of last modification |
keywords |
keywords |
#title | title |
creationDate | 作成日 |
作成者 | アプリケーションの作成 |
#件名 | ## |
以上がPythonでPDFを処理する:PyMuPDFのインストールと使い方!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。