NLP 用 Python: 複数のキーワードを含む PDF テキストを処理するには?
はじめに:
自然言語処理 (NLP) の分野では、複数のキーワードを含む PDF テキストを処理することが一般的な要件です。この記事では、Python ライブラリを使用してこの機能を実現する方法と、具体的なコード例を紹介します。
これらのライブラリは、次のコマンドでインストールできます:
pip install PyPDF2
import PyPDF2 def read_pdf(file_path): with open(file_path, 'rb') as file: reader = PyPDF2.PdfReader(file) text = '' for page in reader.pages: text += page.extract_text() return text
上記のコードは関数 read_pdf
を定義します。この関数は PDF ファイルのパスを入力として受け取り、ファイル内のテキスト コンテンツを返します。
import re def search_keywords(text, keywords): matches = [] for keyword in keywords: pattern = re.compile(r'' + keyword + r'', re.IGNORECASE) matches.extend(pattern.findall(text)) return matches
上記のコードは、テキスト文字列とキーワード リストを入力として受け取り、検索されたキーワードのテキスト リストを返す関数 search_keywords
を定義します。 。
pdf_file = 'example.pdf' keywords = ['Python', 'NLP', '文本处理'] text = read_pdf(pdf_file) matches = search_keywords(text, keywords) print("关键字搜索结果:") for match in matches: print(match)
上記のコードでは、まず、処理対象の PDF ファイル example.pdf
と一連のキーワード リスト (実際の状況 )。次に、read_pdf
関数を呼び出してテキストを読み取り、search_keywords
関数を使用してテキスト内のキーワードを検索します。最後に、すべての検索結果を出力します。
結論:
PyPDF2 と re ライブラリを使用すると、複数のキーワードを含む PDF テキストを簡単に処理できます。上記の例は、実際のニーズに応じてさらに変更および拡張できる基本的なフレームワークを提供します。
注:
参考資料:
以上がNLP 用 Python: 複数のキーワードを含む PDF テキストを処理するには?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。