使用 PHP 從 Microsoft Office 文件中提取文字
從上傳的 Word 文件中檢索文字可能具有挑戰性。本文介紹了從不同 Microsoft Office 文件格式(.doc、.docx、.xlsx、.pptx)中高效提取文字並將其儲存在資料庫中以便於搜尋的解決方案。
.doc 的解決方案和 .docx 檔案
檔案副檔名為 .doc 或 .docx 的文件可以使用DocxConversion 類別。它提供了兩種方法:
read_doc() 用於 .doc 文件,它使用 fopen 將檔案作為二進位 blob 讀取。
read_docx() 對於.docx 文件,它將它們解釋為包含XML 的壓縮zip 文件
.xlsx 文件的解決方案(Excel)
對於Excel 檔案(.xlsx),使用xlsx_to_text() 函數。它將檔案作為 zip 存檔打開,並提取包含文字資料的 sharedStrings.xml 檔案。
.pptx 檔案的解決方案 (PowerPoint)
類似地, pptx_to_text() 處理 PowerPoint 檔案 (.pptx)。它將文件作為 zip 存檔打開,並迭代各個幻燈片 XML 文件,提取文字。
用法
要使用這些函數,請建立一個新實例DocxConversion 類別並呼叫 ConvertToText() 方法。它將確定文件類型並應用適當的文本提取方法。
用法示例:
$docObj = new DocxConversion("test.docx"); $docText = $docObj->convertToText(); echo $docText;
優點
該解決方案具有多項優勢:
以上是如何用 PHP 從 Microsoft Office 文件中提取文字?的詳細內容。更多資訊請關注PHP中文網其他相關文章!