皆さんこんにちは、私は Python 人工知能テクノロジーです。
1. PyMuPDF の概要
1. はじめに
PyMuPDF を紹介する前に、まず MuPDF について理解しましょう 名前の形式からわかるように、PyMuPDF は MuPDF の Python インターフェイス形式です。
MuPDF
MuPDF は、軽量の PDF、XPS、および電子書籍ビューアです。 MuPDF は、ソフトウェア ライブラリ、コマンド ライン ツール、およびさまざまなプラットフォーム用のビューアで構成されています。
MuPDF のレンダラーは、高品質のアンチエイリアス処理されたグラフィックス向けにカスタマイズされています。画面上で印刷されたページの外観を最大限に忠実に再現するために、ピクセルの何分の一以内の正確な寸法と間隔でテキストをレンダリングします。
このオブザーバーは小型で高速ですが、完全な機能を備えています。 PDF、XPS、OpenXPS、CBZ、EPUB、FictionBook 2 などの複数のドキュメント形式をサポートしています。モバイル ビューアを使用して、PDF ドキュメントのフォームに注釈を付けたり、入力したりできます (この機能はデスクトップ ビューアでも間もなく利用できるようになる予定です)。
コマンド ライン ツールを使用すると、ドキュメントに注釈を付けたり、編集したり、HTML、SVG、PDF、CBZ などの他の形式に変換したりできます。 Javascript を使用してスクリプトを作成し、ドキュメントを操作することもできます。
PyMuPDF
PyMuPDF (現在のバージョン 1.18.17) は、MuPDF (現在のバージョン 1.18.*) をサポートする Python バインディングです。
PyMuPDF を使用すると、拡張子「.pdf」、「.xps」、「.oxps」、「.cbz」、「.fb2」、または「.epub」を持つファイルにアクセスできます。さらに、「.png」、「.jpg」、「.bmp」、「.tiff」など、約 10 種類の一般的な画像形式もドキュメントと同様に処理できます。
2. 機能
サポートされているすべてのドキュメント タイプ:
- ファイルの復号化
- メタ情報、リンク、ブックマークへのアクセス
- ラスター形式 (PNG およびその他の形式) またはベクター形式 SVG でページをレンダリングします
- テキストを検索します
- テキストと画像を抽出します
- 他の形式に変換します: PDF、( X)HTML、XML、JSON、テキスト
- PDF ドキュメントには、作成、結合、分割などの追加機能が多数あります。ページは、さまざまな方法 (コメントやフォーム フィールドを含む) で挿入、削除、再配置、または変更できます。
- 画像とフォントは抽出または挿入可能
- 埋め込みファイルの完全サポート
- PDF ファイルを再フォーマットして両面印刷、トーン分離、ロゴやウォーターマークの適用をサポート
- パスワード保護のフルサポート: 復号化、暗号化、暗号化方法の選択、権限レベルおよびユーザー/所有者のパスワード設定
- 画像、テキスト、図面の PDF オプションコンテンツコンセプトをサポート #できる低レベル PDF 構造へのアクセスと変更
- コマンド ライン モジュール「python -m fitz...」次の機能を備えた多機能ユーティリティ
- 暗号化/復号化/最適化
- サブドキュメントの作成
- ドキュメント接続
- 画像/フォント抽出
- 埋め込みファイルの完全サポート
- 保存されたレイアウトのテキスト抽出 (すべてドキュメント)
新機能: レイアウト保存のテキスト抽出!
スクリプト fitzcliy.py は、サブコマンド「gettext」を介してさまざまな形式でのテキスト抽出を提供します。特に興味深いのは、もちろんレイアウトの保存です。これは、画像の周囲の領域や表内のテキストのコピー、および複数列のテキストを含む、元の物理レイアウトにできるだけ近いテキストを生成します。 3. インストールPyMuPDF は、ソース コードまたはホイールからインストールできます。 Windows、Linux、Mac OSX プラットフォームの場合、ホイールは PyPI のダウンロード セクションで入手できます。これには、Python 64 ビット バージョン 3.6 ~ 3.9 が含まれます。 Windows 用の 32 ビット バージョンもあります。最近、Linux ARM アーキテクチャにいくつかの問題が発生しています。プラットフォーム タグ manylinux2014_aarch64 を探してください。 標準ライブラリ以外に必須の外部依存関係はありません。特定のパッケージがインストールされている場合にのみ、いくつかの優れたメソッドがあります。- Pillow: Pixmap.pil_save() および Pixmap.pil_tobytes() を使用する場合に必須です。
- fontTools : Document を使用する場合に必要です。 subset_fonts()
- pymupdf-fonts は、テキスト出力メソッドに使用できる適切なフォントの選択です。
pip インストール コマンドを使用します。
pip install PyMuPDFインポート ライブラリ:
import fitzfitz の命名方法このライブラリの標準 Python インポート ステートメントは import fitz です。これには歴史的な理由があります。MuPDF の元のレンダリング ライブラリは Libart と呼ばれていました。 Artifex Software が MuPDF プロジェクトを買収した後、開発の焦点は「Fitz」と呼ばれる新しい最新グラフィックス ライブラリの作成に移りました。 Fitz は、老朽化した Ghostscript グラフィックス ライブラリを置き換える R&D プロジェクトとして始まりましたが、MuPDF のレンダリング エンジンになりました (Wikipedia より引用)。 4. 使用方法1. ライブラリをインポートしてバージョンを確認します
import fitz
print(fitz.__doc__)
PyMuPDF 1.18.16: Python bindings for the MuPDF 1.18.0 library.
Version date: 2021-08-05 00:00:01.
Built for Python 3.8 on linux (64-bit).
2. ドキュメントを開きますdoc = fitz.open(filename)
これによりドキュメントが作成されますオブジェクトドキュメント。ファイル名は、すでに存在する Python 文字列である必要があります。 メモリ データからドキュメントを開いたり、新しい空の PDF を作成したりすることもできます。ドキュメントをコンテキスト マネージャーとして使用することもできます。
3. メソッドとプロパティを文書化する
#メソッド/プロパティ | 説明 | |||||||||||||||||||||
## Document.page_count | ページ番号(int) ||||||||||||||||||||||
|
||||||||||||||||||||||
|
## Document.load_page() | |||||||||||||||||||||
#ページを読む | #
Key |
Value |
producer |
producer (producing software) |
format |
format: ‘PDF-1.4’, ‘EPUB’, etc. |
encryption |
encryption method used if any |
author |
author |
modDate |
date of last modification |
keywords |
keywords |
#title | title |
creationDate | 作成日 |
作成者 | アプリケーションの作成 |
#件名 | ## |
以上がPythonでPDFを処理する:PyMuPDFのインストールと使い方!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Pythonの柔軟性は、マルチパラダイムサポートと動的タイプシステムに反映されていますが、使いやすさはシンプルな構文とリッチ標準ライブラリに由来しています。 1。柔軟性:オブジェクト指向、機能的および手続き的プログラミングをサポートし、動的タイプシステムは開発効率を向上させます。 2。使いやすさ:文法は自然言語に近く、標準的なライブラリは幅広い機能をカバーし、開発プロセスを簡素化します。

Pythonは、初心者から上級開発者までのすべてのニーズに適した、そのシンプルさとパワーに非常に好まれています。その汎用性は、次のことに反映されています。1)学習と使用が簡単、シンプルな構文。 2)Numpy、Pandasなどの豊富なライブラリとフレームワーク。 3)さまざまなオペレーティングシステムで実行できるクロスプラットフォームサポート。 4)作業効率を向上させるためのスクリプトおよび自動化タスクに適しています。

はい、1日2時間でPythonを学びます。 1.合理的な学習計画を作成します。2。適切な学習リソースを選択します。3。実践を通じて学んだ知識を統合します。これらの手順は、短時間でPythonをマスターするのに役立ちます。

Pythonは迅速な開発とデータ処理に適していますが、Cは高性能および基礎となる制御に適しています。 1)Pythonは、簡潔な構文を備えた使いやすく、データサイエンスやWeb開発に適しています。 2)Cは高性能で正確な制御を持ち、ゲームやシステムのプログラミングでよく使用されます。

Pythonを学ぶのに必要な時間は、人によって異なり、主に以前のプログラミングの経験、学習の動機付け、学習リソースと方法、学習リズムの影響を受けます。現実的な学習目標を設定し、実用的なプロジェクトを通じて最善を尽くします。

Pythonは、自動化、スクリプト、およびタスク管理に優れています。 1)自動化:OSやShutilなどの標準ライブラリを介してファイルバックアップが実現されます。 2)スクリプトの書き込み:Psutilライブラリを使用してシステムリソースを監視します。 3)タスク管理:スケジュールライブラリを使用してタスクをスケジュールします。 Pythonの使いやすさと豊富なライブラリサポートにより、これらの分野で優先ツールになります。

限られた時間でPythonの学習効率を最大化するには、PythonのDateTime、時間、およびスケジュールモジュールを使用できます。 1. DateTimeモジュールは、学習時間を記録および計画するために使用されます。 2。時間モジュールは、勉強と休息の時間を設定するのに役立ちます。 3.スケジュールモジュールは、毎週の学習タスクを自動的に配置します。

PythonはゲームとGUI開発に優れています。 1)ゲーム開発は、2Dゲームの作成に適した図面、オーディオ、その他の機能を提供し、Pygameを使用します。 2)GUI開発は、TKINTERまたはPYQTを選択できます。 TKINTERはシンプルで使いやすく、PYQTは豊富な機能を備えており、専門能力開発に適しています。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

WebStorm Mac版
便利なJavaScript開発ツール

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境
