Python の PyPDF2 モジュールを使用して PDF ドキュメントを分割する方法-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Python の PyPDF2 モジュールを使用して PDF ドキュメントを分割する方法

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 09, 2023 pm 03:34 PM

pythonpdfpypdf2

PyPDF2 モジュールのインストール

# このモジュールでは大文字と小文字が厳密に区別され、y は小文字、残りは大文字です

pip3 install PyPDF2

Python の PyPDF2 モジュールを使用して PDF ドキュメントを分割する方法

インストールが完了したら、ローカルハードディスク上にこのプロジェクトを保存するための専用フォルダーを作成します。ここでの保存パスは F:\Python\PyPDF2 です。F ドライブには Python フォルダーがあります。このモジュールを別個に保存し、他のプロジェクトと区別するために、このモジュールにちなんで名付けられたフォルダー。

ファイルを作成して PDF ドキュメントを準備する

Python の PyPDF2 モジュールを使用して PDF ドキュメントを分割する方法

練習用に大きな PDF ドキュメントを探して、Django 公式 Web サイトからダウンロードしました。このドキュメントは 1,900 ページを超える十分な量であり、練習には十分です。必要に応じて、公式 Web サイトにアクセスしてダウンロードするか、公式アカウントに直接「pdf」と返信してダウンロードリンクを取得し、 PDFCF.py プロジェクトファイル。

書き込み開始

プログラムは 2 行で始まり、上下 2 つの文を書きます。最初の文は、このファイルの実行プログラムを指定することを意味します. 2 番目の文この文はこのファイルの説明です。このファイルの機能はまだわかりませんが、プログラムをバッチですばやく実行する方法を知っていれば、その機能がわかるでしょう。ここでは詳しく説明しません。

#! python# PDFCF.py - pdf文件拆分程序

ドキュメント分割の考え方

文書が何個の部分に分割されるかは固定されていませんが、各パートが何ページで構成されるかを固定し、分割数を動的に計算します。分割のアイデアが得られたら、次のステップは計算式をリストすることです。

拆分的份数= 文档总页数 / 拆份每个pdf组成的页数

例:

合計 35 ページの PDF ドキュメントを分割したい場合、PDF ドキュメントは 10 ページで構成されます。新しい文書を何分割できるかの計算式は次のとおりです:

3.5 = 35 / 10

このとき、全員が注目します。余りが 0.5 なら、何それは意味ですか？この例を使用すると、3 つの部分に分割した後に 5 ページが残ることを意味します。この場合、残りが何であっても、分割全体を完了するには 1 つ進む必要があります。この文書の分割結果は次のようになります。最初の 3 つの文書各文書は 10 ページで構成され、4 番目の文書は最後の 5 ページで構成され、割り切れる場合、結果はそのまま分割部数になります。

Pythonの分割計算式：

if 35 % 10:   # 判断是否有余数  35 // 10 + 1   # 取余数整数部分加1else:  0         # 能整除则直接返回0  # 将这个循环写到一行4 = 35 // 10 + 1 if 35 % 10 else 0

具体的にはどのように分割するのでしょうか？

この 35 ページのドキュメント分割を例として考えてみましょう:

データの各ページを num に対してループします。 range(35) の で各ページのデータを取得し、分割する分割ページ範囲を指定します。

最初のドキュメントは 0- -10 から始まります。、10 を除く
2 番目のドキュメントは 10 ～ 20、20 を除く
3 番目のドキュメントは 20 ～ 30、20 は含まない30
4 番目の文書は 30--35 であり、35 は含まれません

ルールをたどるたびにパターンが見つかりました。数値の値は文書内のページ数であり、その文書が属する数値を掛けることで得られます。 2 番目の数値にはパターンがないことがわかりました。実際、注意深く観察するとパターンがあります。分割数を並べ替えると、この例は 1 ～ 4 になります。2 番目の数値は、現在の分割数を乗算したものです。 by each 文書が構成するページ数 (ページ数は 10 に固定)。

しかし、初めてトラバースするときは 0 から開始するため、num は使用できなくなります。その後、それを変更して、1、range(1,35) からトラバースを開始し、最初からトラバースします。 range にはそれ自体の最後の特性が含まれていないため、走査後にドキュメントの 1 ページが失われます。その後、それに 1 を加えて

for num in range( 1,35 1 )
最初のドキュメントは 10*(1-1)--10*1 から始まり、10 を除きます
2 つのドキュメントは 10*(2-1)--10*2 であり、20 は含まれません
3 番目のドキュメントは 10*(3-1)-10* です3、ではありません。 30
## を含む 4 番目のドキュメントは 10(4-1)--35

からの特定のトラバーサルコードです。

for num in range(1,35+1):  pass  for i in range(10 * (num-1), 10 * num if num != 4 else 35):    pass

注: num = 4 (ドキュメントの最後のソート番号) までトラバースする場合は、ページの合計数 35 とトラバースを返すだけです。ここで終わります。ここの総ページ数が 35 1 ではなく 35 なのはなぜですか?これは、今回は 0 からトラバースしており、ページ番号は 0 から始まるため、1 を加算する必要がないからです。

完全な分割手順:

import PyPDF2

注: 個人的には、上記の分割の考え方は少し複雑だと感じています。 Python リストのエッジトリミングとステップサイズの概念を十分に理解している場合は、それほど複雑にする必要はないと思います。総ページ数の大きなリストを生成し、分割するだけで済みます。スライス法を使用してリストを複数の小さなリストに分割し、各リストを分割します。分割された PDF ページ番号の範囲は、各小さなリストの最初の番号から最後の番号 1 です。また、リストメソッドを使用して実装したコードも投稿しました。参照。

PDFを分割する分割リスト方法:

#! python

使い方は？

Python の PyPDF2 モジュールを使用して PDF ドキュメントを分割する方法

プロジェクトフォルダー内で Shift キーを押したままマウスを右クリックし、ここでコマンドウィンドウを開くことを選択し、PDFCF.py と入力し、Enter キーを押して、必要に応じて変更します。 nの値が必要です。

Python の PyPDF2 モジュールを使用して PDF ドキュメントを分割する方法

以上がPython の PyPDF2 モジュールを使用して PDF ドキュメントを分割する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は亿速云で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Python vs. C：曲線と使いやすさの学習Apr 19, 2025 am 12:20 AM

Pythonは学習と使用が簡単ですが、Cはより強力ですが複雑です。 1。Python構文は簡潔で初心者に適しています。動的なタイピングと自動メモリ管理により、使いやすくなりますが、ランタイムエラーを引き起こす可能性があります。 2.Cは、高性能アプリケーションに適した低レベルの制御と高度な機能を提供しますが、学習しきい値が高く、手動メモリとタイプの安全管理が必要です。

Python vs. C：メモリ管理とコントロールApr 19, 2025 am 12:17 AM

PythonとCは、メモリ管理と制御に大きな違いがあります。 1。Pythonは、参照カウントとガベージコレクションに基づいて自動メモリ管理を使用し、プログラマーの作業を簡素化します。 2.Cには、メモリの手動管理が必要であり、より多くの制御を提供しますが、複雑さとエラーのリスクが増加します。どの言語を選択するかは、プロジェクトの要件とチームテクノロジースタックに基づいている必要があります。

科学コンピューティングのためのPython：詳細な外観Apr 19, 2025 am 12:15 AM

科学コンピューティングにおけるPythonのアプリケーションには、データ分析、機械学習、数値シミュレーション、視覚化が含まれます。 1.numpyは、効率的な多次元配列と数学的関数を提供します。 2。ScipyはNumpy機能を拡張し、最適化と線形代数ツールを提供します。 3. Pandasは、データ処理と分析に使用されます。 4.matplotlibは、さまざまなグラフと視覚的な結果を生成するために使用されます。

PythonとC：適切なツールを見つけるApr 19, 2025 am 12:04 AM

PythonまたはCを選択するかどうかは、プロジェクトの要件に依存するかどうかは次のとおりです。1）Pythonは、簡潔な構文とリッチライブラリのため、迅速な発展、データサイエンス、スクリプトに適しています。 2）Cは、コンピレーションと手動メモリ管理のため、システムプログラミングやゲーム開発など、高性能および基礎となる制御を必要とするシナリオに適しています。

データサイエンスと機械学習のためのPythonApr 19, 2025 am 12:02 AM

Pythonは、データサイエンスと機械学習で広く使用されており、主にそのシンプルさと強力なライブラリエコシステムに依存しています。 1）Pandasはデータ処理と分析に使用され、2）Numpyが効率的な数値計算を提供し、3）SCIKIT-LEARNは機械学習モデルの構築と最適化に使用されます。これらのライブラリは、Pythonをデータサイエンスと機械学習に理想的なツールにします。

Pythonの学習：2時間の毎日の研究で十分ですか？Apr 18, 2025 am 12:22 AM

Pythonを1日2時間学ぶだけで十分ですか？それはあなたの目標と学習方法に依存します。 1）明確な学習計画を策定し、2）適切な学習リソースと方法を選択します。3）実践的な実践とレビューとレビューと統合を練習および統合し、統合すると、この期間中にPythonの基本的な知識と高度な機能を徐々に習得できます。

Web開発用のPython：主要なアプリケーションApr 18, 2025 am 12:20 AM

Web開発におけるPythonの主要なアプリケーションには、DjangoおよびFlaskフレームワークの使用、API開発、データ分析と視覚化、機械学習とAI、およびパフォーマンスの最適化が含まれます。 1。DjangoandFlask Framework：Djangoは、複雑な用途の迅速な発展に適しており、Flaskは小規模または高度にカスタマイズされたプロジェクトに適しています。 2。API開発：フラスコまたはdjangorestFrameworkを使用して、Restfulapiを構築します。 3。データ分析と視覚化：Pythonを使用してデータを処理し、Webインターフェイスを介して表示します。 4。機械学習とAI：Pythonは、インテリジェントWebアプリケーションを構築するために使用されます。 5。パフォーマンスの最適化：非同期プログラミング、キャッシュ、コードを通じて最適化

Python vs. C：パフォーマンスと効率の探索Apr 18, 2025 am 12:20 AM

Pythonは開発効率でCよりも優れていますが、Cは実行パフォーマンスが高くなっています。 1。Pythonの簡潔な構文とリッチライブラリは、開発効率を向上させます。 2.Cのコンピレーションタイプの特性とハードウェア制御により、実行パフォーマンスが向上します。選択を行うときは、プロジェクトのニーズに基づいて開発速度と実行効率を比較検討する必要があります。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 中国語版

中国語版、とても使いやすい

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

ドリームウィーバー CS6

ビジュアル Web 開発ツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。