PHP で Microsoft Office ファイルからテキストを抽出する
アップロードされた Word 文書からテキストを取得するのは難しい場合があります。この記事では、さまざまな Microsoft Office ファイル形式 (.doc、.docx、.xlsx、.pptx) からテキストを効率的に抽出し、検索に便利なようにデータベースに保存するためのソリューションを紹介します。
.doc のソリューションおよび .docx ファイル
ファイル拡張子 .doc または .docx を持つドキュメントは、DocxConversion クラスを使用して処理できます。これは 2 つのメソッドを提供します: .doc ファイル用の
read_doc()。これは fopen を使用してファイルをバイナリ BLOB として読み取ります。
read_docx() .docx ファイルの場合、XML ファイルを含む圧縮 zip ファイルとして解釈されます。
.xlsx ファイルのソリューション (Excel)
Excel ファイル (.xlsx) の場合では、xlsx_to_text() 関数が使用されます。ファイルを zip アーカイブとして開き、テキスト データを含むsharedStrings.xml ファイルを抽出します。
.pptx ファイルのソリューション (PowerPoint)
同様に、 pptx_to_text() は PowerPoint ファイル (.pptx) を処理します。ファイルを zip アーカイブとして開き、個々のスライド XML ファイルを反復処理してテキストを抽出します。
使用法
これらの関数を利用するには、次の新しいインスタンスを作成します。 DocxConversion クラスを呼び出して、convertToText() メソッドを呼び出します。ファイルの種類を判断し、適切なテキスト抽出方法を適用します。
使用例:
$docObj = new DocxConversion("test.docx"); $docText = $docObj->convertToText(); echo $docText;
利点
このソリューションにはいくつかの利点があります。
以上がPHP で Microsoft Office ファイルからテキストを抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。