ホームページ  >  記事  >  バックエンド開発  >  PHP で Word、Excel、PowerPoint ファイルからテキストを抽出する方法

PHP で Word、Excel、PowerPoint ファイルからテキストを抽出する方法

Linda Hamilton
Linda Hamiltonオリジナル
2024-11-17 14:15:02544ブラウズ

How to Extract Text from Word, Excel, and PowerPoint Files in PHP?

PHP で Word ファイル .doc、.docx、.xlsx、.pptx からテキストを抽出する方法

アップロードされた Word 文書からのテキストの抽出これは、文書内の検索などのタスク、特に履歴書や履歴書が関係するシナリオでは非常に重要です。この記事では、この一般的な問題に対する包括的な解決策を提供します。

Doc/Docx ファイルの抽出

Doc/Docx ファイルはバイナリ BLOB です。 .doc ファイルの場合は fopen 関数を使用でき、.docx ファイルの場合は zip_open 関数を利用できます。これは、docx ファイルは本質的に XML ファイルを含む ZIP ファイルであるためです。

Excel ファイルの抽出

XLSX ファイルからテキストを抽出するには、特定の XML ファイル xl/sharedStrings.xml。このファイルからコンテンツを抽出し、プレーン テキストの HTML タグを取り除きます。

PowerPoint ファイルの抽出

PPTX ファイルも同様のアプローチに従います。スライド XML ファイルを繰り返し処理し、その内容を抽出して連結します。

クラス実装

これらの抽出をカプセル化する

DocxConversion という名前の PHP クラスを提供します。方法。このクラスは引数としてファイル パスを受け取り、次の関数を持ちます:

  • read_doc(): .doc ファイルの抽出を処理します。
  • read_docx (): .docx ファイルを処理しますextension.
  • xlsx_to_text(): .xlsx ファイルの抽出を処理します。
  • pptx_to_text(): .pptx ファイルを処理しますextract.
  • convertToText(): ファイル拡張子に基づいて適切な抽出方法を選択します。

使用法

このクラスを使用するには、ファイル パスを使用してインスタンスを作成し、

convertToText() メソッド。このメソッドは、抽出されたテキストを文字列として返します。

例:

$docObj = new DocxConversion("test.docx");
$docText = $docObj->convertToText();
echo $docText;
このスクリプトは、指定された .docx ファイルからテキストを抽出して表示します。

以上がPHP で Word、Excel、PowerPoint ファイルからテキストを抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。