ホームページ  >  記事  >  バックエンド開発  >  PHP で Microsoft Office ファイルからテキストを抽出する方法

PHP で Microsoft Office ファイルからテキストを抽出する方法

Mary-Kate Olsen
Mary-Kate Olsenオリジナル
2024-11-21 01:57:10423ブラウズ

How to Extract Text from Microsoft Office Files in PHP?

PHP で Microsoft Office ファイルからテキストを抽出する

アップロードされた Word 文書からテキストを取得するのは難しい場合があります。この記事では、さまざまな Microsoft Office ファイル形式 (.doc、.docx、.xlsx、.pptx) からテキストを効率的に抽出し、検索に便利なようにデータベースに保存するためのソリューションを紹介します。

.doc のソリューションおよび .docx ファイル

ファイル拡張子 .doc または .docx を持つドキュメントは、DocxConversion クラスを使用して処理できます。これは 2 つのメソッドを提供します: .doc ファイル用の

read_doc()。これは fopen を使用してファイルをバイナリ BLOB として読み取ります。

read_docx() .docx ファイルの場合、XML ファイルを含む圧縮 zip ファイルとして解釈されます。

.xlsx ファイルのソリューション (Excel)

Excel ファイル (.xlsx) の場合では、xlsx_to_text() 関数が使用されます。ファイルを zip アーカイブとして開き、テキスト データを含むsharedStrings.xml ファイルを抽出します。

.pptx ファイルのソリューション (PowerPoint)

同様に、 pptx_to_text() は PowerPoint ファイル (.pptx) を処理します。ファイルを zip アーカイブとして開き、個々のスライド XML ファイルを反復処理してテキストを抽出します。

使用法

これらの関数を利用するには、次の新しいインスタンスを作成します。 DocxConversion クラスを呼び出して、convertToText() メソッドを呼び出します。ファイルの種類を判断し、適切なテキスト抽出方法を適用します。

使用例:

$docObj = new DocxConversion("test.docx");
$docText = $docObj->convertToText();
echo $docText;

利点

このソリューションにはいくつかの利点があります。

  • さまざまな Office ファイル形式からテキストを効率的に抽出します。
  • 抽出されたテキストをデータベースに保存し、迅速な検索を可能にします。
  • ハンドルバイナリ (.doc) と圧縮 (.docx) の両方の Word ドキュメント。
  • Excel および PowerPoint ファイルにも対応します。

以上がPHP で Microsoft Office ファイルからテキストを抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。