ホームページ >バックエンド開発 >Python チュートリアル >NLP 用 Python を使用して PDF ファイル内のテキストを翻訳するにはどうすればよいですか?
NLP 用 Python を使用して PDF ファイル内のテキストを翻訳するにはどうすればよいですか?
グローバル化のプロセスが深まるにつれて、言語を越えた翻訳の需要も高まっています。一般的な文書形式として、PDF ファイルには大量のテキスト情報が含まれる場合があります。 PDF ファイル内のテキスト コンテンツを翻訳したい場合は、Python の自然言語処理 (NLP) テクノロジを使用してそれを実現できます。この記事では、Python for NLP を使用して PDF テキストを翻訳する方法と具体的なコード例を紹介します。
PyPDF2
: PDF ファイルを解析し、テキスト コンテンツを抽出するために使用されます。 googletrans
: Google 翻訳サービスを利用したテキストの機械翻訳に使用されます。 インストール方法は次のとおりです:
pip install PyPDF2 pip install googletrans==3.1.0a0
PDF ファイルを解析してテキストを抽出する
まず、PDF ファイルを解析する関数を記述する必要があります。そしてその中のテキストコンテンツを抽出します。コードは次のとおりです。
import PyPDF2 def extract_text_from_pdf(filename): with open(filename, "rb") as file: pdf_reader = PyPDF2.PdfFileReader(file) text = "" for page_num in range(pdf_reader.numPages): page = pdf_reader.getPage(page_num) text += page.extractText() return text
この関数はファイル名をパラメータとして受け取り、PDF ファイル内のテキスト コンテンツを返します。
テキスト翻訳の実装
次に、googletrans
ライブラリを使用して、抽出されたテキスト コンテンツを翻訳します。コードは次のとおりです。
from googletrans import Translator def translate_text(text, target_lang="en"): translator = Translator(service_urls=['translate.google.cn']) translation = translator.translate(text, dest=target_lang) return translation.text
この関数は、翻訳対象のテキストとターゲット言語 (デフォルトは英語) をパラメータとして受け取り、翻訳されたテキストの内容を返します。
完全なコード例
次は、Python for NLP を使用して PDF ファイル内のテキストを翻訳する方法を示す完全なコード例です:
import PyPDF2 from googletrans import Translator def extract_text_from_pdf(filename): with open(filename, "rb") as file: pdf_reader = PyPDF2.PdfFileReader(file) text = "" for page_num in range(pdf_reader.numPages): page = pdf_reader.getPage(page_num) text += page.extractText() return text def translate_text(text, target_lang="en"): translator = Translator(service_urls=['translate.google.cn']) translation = translator.translate(text, dest=target_lang) return translation.text if __name__ == "__main__": # 读取PDF文件并提取文本 pdf_filename = "example.pdf" extracted_text = extract_text_from_pdf(pdf_filename) # 将提取的文本翻译为英语 translated_text = translate_text(extracted_text, target_lang="en") # 打印翻译后的文本 print(translated_text)
保存してくださいコードを Python スクリプト ファイルとして記述し、同じディレクトリにある翻訳対象の PDF ファイルに「example.pdf」という名前を付けます。スクリプトを実行すると、プログラムは翻訳されたテキストの内容を出力します。
概要:
この記事では、Python for NLP を使用して PDF ファイル内のテキストを翻訳する方法を紹介します。 PyPDF2
ライブラリを使用して PDF ファイルを解析し、googletrans
ライブラリを使用してテキスト翻訳を行うことで、PDF ファイル内のテキスト コンテンツを他の言語に簡単に変換して、ニーズを満たすことができます。異言語コミュニケーションが必要です。この方法が PDF テキストを翻訳する必要がある読者に役立つことを願っています。
以上がNLP 用 Python を使用して PDF ファイル内のテキストを翻訳するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。