ホームページ >バックエンド開発 >Python チュートリアル >NLP 用 Python を使用して PDF ファイル内の表形式データを処理するにはどうすればよいですか?
NLP 用 Python を使用して PDF ファイル内の表形式データを処理するにはどうすればよいですか?
要約: 自然言語処理 (NLP) は、コンピューター サイエンスと人工知能に関連する重要な分野であり、PDF ファイル内の表形式データの処理は NLP の一般的なタスクです。この記事では、Python といくつかの一般的に使用されるライブラリを使用して、表形式データの抽出、データの前処理、変換など、PDF ファイル内の表形式データを処理する方法を紹介します。
キーワード: Python、NLP、PDF、表形式データ
1. はじめに
テクノロジーの発展に伴い、PDF ファイルは一般的なドキュメント形式になりました。これらの PDF ファイルでは、表形式のデータが金融、医療、データ分析などのさまざまな分野で広く使用されています。したがって、PDF ファイルからこれらの表データをどのように抽出して処理するかが一般的な問題となっています。
Python は、さまざまな問題を解決するための豊富なライブラリとツールを提供する強力なプログラミング言語です。 NLP の分野では、Python には PDFMiner、Tabula、Pandas などの優れたライブラリが多数あります。これらのライブラリは、PDF ファイル内の表形式データの処理に役立ちます。
2. ライブラリのインストール
Python を使用して PDF ファイル内の表形式データを処理し始める前に、必要なライブラリをいくつかインストールする必要があります。 pip パッケージ マネージャーを使用してこれらのライブラリをインストールできます。ターミナルまたはコマンド ライン ウィンドウを開き、次のコマンドを入力します:
pip install pdfminer.six pip install tabula-py pip install pandas
3. テーブル データの抽出
まず、PDF ファイル内のテーブル データを抽出する必要があります。 PDFMiner ライブラリを使用して、この機能を実現できます。 PDFMiner ライブラリを使用してテーブル データを抽出するサンプル コードを次に示します。
import pdfminer import io from pdfminer.converter import TextConverter from pdfminer.pdfinterp import PDFPageInterpreter from pdfminer.pdfinterp import PDFResourceManager from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage def extract_text_from_pdf(pdf_path): resource_manager = PDFResourceManager() output_string = io.StringIO() laparams = LAParams() with TextConverter(resource_manager, output_string, laparams=laparams) as converter: with open(pdf_path, 'rb') as file: interpreter = PDFPageInterpreter(resource_manager, converter) for page in PDFPage.get_pages(file): interpreter.process_page(page) text = output_string.getvalue() output_string.close() return text pdf_path = "example.pdf" pdf_text = extract_text_from_pdf(pdf_path) print(pdf_text)
この例では、最初に PDFResourceManager
オブジェクト、TextConverter
オブジェクト、およびその他のオブジェクトを作成します。その他の必要なオブジェクト。次に、PDF ファイルを開き、PDFPageInterpreter
を使用してファイルをページごとに解釈します。最後に、抽出したテキストデータを変数に格納して返します。
4. データの前処理
テーブル データを抽出した後、データをより適切に処理するために、データの前処理を実行する必要があります。一般的な前処理タスクには、スペースの削除、データのクリーニング、欠損値の処理などが含まれます。ここでは、データの前処理に Pandas ライブラリを使用します。
以下は、Pandas ライブラリを使用したデータ前処理のサンプル コードです。
import pandas as pd def preprocess_data(data): df = pd.DataFrame(data) df = df.applymap(lambda x: x.strip()) df = df.dropna() df = df.reset_index(drop=True) return df data = [ ["Name", "Age", "Gender"], ["John", "25", "Male"], ["Lisa", "30", "Female"], ["Mike", "28", "Male"], ] df = preprocess_data(data) print(df)
この例では、まず、抽出されたデータを 2 次元のリストに格納します。次に、Pandas DataFrame オブジェクトを作成し、スペースの削除、データのクリーニング、欠損値の処理などの一連の前処理操作を実行します。最後に、前処理されたデータを出力します。
5. データ変換
データの前処理の後、表形式のデータを、JSON、CSV、Excel などの他の一般的なデータ構造に変換できます。以下は、Pandas ライブラリを使用してデータを CSV ファイルに変換するサンプル コードです:
def convert_data_to_csv(df, csv_path): df.to_csv(csv_path, index=False) csv_path = "output.csv" convert_data_to_csv(df, csv_path)
この例では、Pandas の to_csv()
関数を使用してデータを CSV ファイルに変換します。をクリックし、指定したパスに保存します。
6. 概要
この記事の導入部を通じて、Python といくつかの一般的に使用されるライブラリを使用して PDF ファイル内の表形式データを処理する方法を学びました。まず PDFMiner ライブラリを使用して PDF ファイル内のテキスト データを抽出し、次に Pandas ライブラリを使用して抽出されたデータを前処理および変換します。
もちろん、PDF ファイル内の表形式データは異なる構造や形式を持つ場合があるため、特定の状況に応じて適切な調整や処理を行う必要があります。この記事が、PDF ファイル内の表形式データを処理する際の助けとガイダンスになれば幸いです。
参考資料:
以上がNLP 用 Python を使用して PDF ファイル内の表形式データを処理するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。