首頁 >後端開發 >php教程 >如何用 PHP 從 Word、Excel 和 PowerPoint 文件中提取文字?

如何用 PHP 從 Word、Excel 和 PowerPoint 文件中提取文字?

Linda Hamilton
Linda Hamilton原創
2024-11-17 14:15:02640瀏覽

How to Extract Text from Word, Excel, and PowerPoint Files in PHP?

如何在PHP 中從Word 文件.doc、.docx、.xlsx、.pptx 中提取文字

從上傳的Word 文檔中提取文字對於文件內搜尋等任務至關重要,特別是在涉及簡歷/簡歷的場景中。本文為這個常見問題提供了全面的解決方案。

Doc/Docx 檔案擷取

Doc/Docx 檔案是二進位 blob。對於 .doc 文件,您可以使用 fopen 函數,而對於 .docx 文件,您可以使用 zip_open 函數。這是因為 docx 檔案本質上是包含 XML 檔案的 ZIP 檔案。

Excel 文件提取

要從 XLSX 文件中提取文本,我們關注特定的 XML 文件,xl/sharedStrings.xml。我們從此文件中提取內容,並去除純文字的 HTML 標籤。

PowerPoint 檔案擷取

PPTX 檔案遵循類似的方法。我們迭代幻燈片 XML 文件,提取並連接它們的內容。

類別實作

我們提供一個名為 DocxConversion 的 PHP 類別來封裝這些擷取方法。此類別接受檔案路徑作為參數,並具有以下函數:

  • read_doc():處理 .doc 檔案擷取。
  • read_docx ():處理 .docx 檔案
  • xlsx_to_text():處理 .xlsx 檔案擷取。
  • pptx_to_text():處理 .pptx 檔案擷取。
  • convertToText():依照檔案副檔名選擇適當的擷取方法。

用法

要使用此類,請使用檔案路徑實例化它並呼叫convertToText() 方法。該方法以字串形式傳回提取的文字。

範例:

$docObj = new DocxConversion("test.docx");
$docText = $docObj->convertToText();
echo $docText;

此腳本將從指定的 .docx 檔案中提取文字並顯示它。

以上是如何用 PHP 從 Word、Excel 和 PowerPoint 文件中提取文字?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn