NLP 用 Python: PDF ファイルからキーワードを自動的に抽出するにはどうすればよいですか?
自然言語処理 (NLP) では、キーワードの抽出は重要なタスクです。テキストから最も代表的で有益な単語やフレーズを識別できます。この記事では、Pythonを使ってPDFファイルからキーワードを抽出する方法と、具体的なコード例を紹介します。
依存ライブラリのインストール
始める前に、必要な Python ライブラリをいくつかインストールする必要があります。これらのライブラリは、PDF ファイルの処理やキーワード抽出の実行に役立ちます。ターミナルで次のコマンドを実行して、必要なライブラリをインストールしてください:
pip install PyPDF2 pip install nltk
ライブラリとモジュールのインポート
コードを書き始める前に、必要なライブラリとモジュールをインポートする必要があります。以下は、インポートする必要があるライブラリとモジュールのサンプル コードです。
import PyPDF2 from nltk.corpus import stopwords from nltk.tokenize import word_tokenize from nltk.probability import FreqDist
PDF ファイルの読み取り
まず、PyPDF2 ライブラリを使用して PDF ファイルを読み取る必要があります。以下は、PDF ファイルを読み取ってテキストに変換するサンプル コードです。
def extract_text_from_pdf(file_path): pdf_file = open(file_path, 'rb') reader = PyPDF2.PdfFileReader(pdf_file) num_pages = reader.numPages text = "" for page in range(num_pages): text += reader.getPage(page).extract_text() return text
テキスト データの処理
キーワードを抽出する前に、テキスト データの前処理を行う必要があります。 。これには、ストップワードの削除、単語の分割、出現頻度の計算などが含まれます。サンプル コードは次のとおりです。
def preprocess_text(text): stop_words = set(stopwords.words('english')) tokens = word_tokenize(text.lower()) filtered_tokens = [token for token in tokens if token.isalnum() and token not in stop_words] fdist = FreqDist(filtered_tokens) return fdist
キーワードの抽出
これで、前処理されたテキスト データを使用してキーワードを抽出できます。サンプル コードは次のとおりです。
def extract_keywords(file_path, top_n): text = extract_text_from_pdf(file_path) fdist = preprocess_text(text) keywords = [pair[0] for pair in fdist.most_common(top_n)] return keywords
コードを実行して結果を出力します
最後に、コードを実行して、抽出されたキーワードを出力します。以下はサンプル コードです:
file_path = 'example.pdf' # 替换为你的PDF文件路径 top_n = 10 # 希望提取的关键词数量 keywords = extract_keywords(file_path, top_n) print("提取到的关键词:") for keyword in keywords: print(keyword)
上記の手順により、Python を使用して PDF ファイルからキーワードを自動的に抽出することに成功しました。必要に応じてコードを調整し、抽出するキーワードの数を増減できます。
上記は、Python を使用して PDF ファイルからキーワードを自動的に抽出する方法の簡単な紹介とコード例です。この記事が NLP でのキーワード抽出に役立つことを願っています。ご質問がございましたら、お気軽にお問い合わせください。
以上がNLP 用 Python: PDF ファイルからキーワードを自動的に抽出するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。