NLP 用 Python: PDF ファイルから表形式データを識別して処理する方法
要約:
デジタル時代の到来により、大量のデータが PDF 形式でコンピュータに保存されます。これには、自然言語処理 (NLP) の研究と応用にとって非常に価値のある大量の表形式のデータが含まれています。この記事では、Python といくつかの一般的に使用されるライブラリを使用して、PDF ファイルから表形式データを識別して処理する方法を紹介します。この記事では、具体的なコード例を例と組み合わせて説明します。
pip コマンドを使用してインストールできます:
pip install PyPDF2 pip install tabula-py pip install pandas
PDF ファイルの読み取り
PDF ファイルは、PyPDF2 ライブラリを使用して簡単に読み取ることができます。 PDF ファイルからテキストを読み取って印刷するサンプル コードを次に示します。
import PyPDF2 def read_pdf(file_path): with open(file_path, 'rb') as file: pdf_reader = PyPDF2.PdfFileReader(file) num_pages = pdf_reader.getNumPages() for page in range(num_pages): page_content = pdf_reader.getPage(page).extractText() print(page_content)
表形式データの抽出
PDF ファイルから表形式データを抽出するには、tabula-py を使用できます。図書館 。 PDF ファイルの最初のテーブルのデータを抽出し、CSV ファイルとして保存するサンプル コードを次に示します。
import tabula def extract_table(file_path, page_num): dfs = tabula.read_pdf(file_path, pages=page_num, multiple_tables=True) table = dfs[0] # 假设第一个表格是我们想要提取的表格 table.to_csv('table.csv', index=False) # 将表格数据保存为CSV文件
テーブル データの処理
table data をさらに処理するには、pandas ライブラリを使用できます。 CSV ファイルから表形式のデータを読み取り、各列の平均を計算するサンプル コードを次に示します。
import pandas as pd def process_table(csv_file): table = pd.read_csv(csv_file) average_values = table.mean(axis=0) print(average_values)
結論:
Python といくつかの一般的に使用されるライブラリを使用することで、次のことができます。 PDF ファイルから表形式データを簡単に識別して処理します。今回は、必要なライブラリのインストール、PDFファイルの読み込み、表形式データの抽出、表形式データの加工方法を紹介しました。これらの操作は、さらなる自然言語処理の研究と応用のための基礎と参考資料を提供します。この記事がお役に立てば幸いです!
以上がNLP 用の Python: PDF ファイルから表形式データを識別して処理する方法は?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。