Heim >Backend-Entwicklung >PHP-Tutorial >Wie extrahiere ich Text aus Microsoft Office-Dateien in PHP?

Wie extrahiere ich Text aus Microsoft Office-Dateien in PHP?

Mary-Kate Olsen
Mary-Kate OlsenOriginal
2024-11-21 01:57:10492Durchsuche

How to Extract Text from Microsoft Office Files in PHP?

Text aus Microsoft Office-Dateien in PHP extrahieren

Das Abrufen von Text aus hochgeladenen Word-Dokumenten kann eine Herausforderung sein. In diesem Artikel werden Lösungen zum effizienten Extrahieren von Text aus verschiedenen Microsoft Office-Dateiformaten (.doc, .docx, .xlsx, .pptx) und zum Speichern in einer Datenbank für eine bequeme Suche vorgestellt.

Lösung für .doc und .docx-Dateien

Dokumente mit den Dateierweiterungen .doc oder .docx können mit der DocxConversion verarbeitet werden Klasse. Es bietet zwei Methoden:

read_doc() für .doc-Dateien, die die Datei als binäres Blob mit fopen liest.

read_docx() für .docx-Dateien, die sie als komprimierte ZIP-Dateien mit XML-Dateien interpretiert.

Lösung für .xlsx-Dateien (Excel)

Für Excel-Dateien (.xlsx) wird die Funktion xlsx_to_text() verwendet. Es öffnet die Datei als ZIP-Archiv und extrahiert die Datei sharedStrings.xml, die die Textdaten enthält.

Lösung für .pptx-Dateien (PowerPoint)

Ähnlich: pptx_to_text() verarbeitet PowerPoint-Dateien (.pptx). Es öffnet die Datei als ZIP-Archiv und durchläuft die einzelnen XML-Foliendateien, wobei der Text extrahiert wird.

Verwendung

Um diese Funktionen zu nutzen, erstellen Sie eine neue Instanz von die DocxConversion-Klasse und rufen Sie die Methode „convertToText()“ auf. Es ermittelt den Dateityp und wendet die entsprechende Textextraktionsmethode an.

Beispielverwendung:

$docObj = new DocxConversion("test.docx");
$docText = $docObj->convertToText();
echo $docText;

Vorteile

Diese Lösung bietet mehrere Vorteile:

  • Extrahiert effizient Text aus verschiedenen Office-Dateien Formate.
  • Speichert den extrahierten Text in einer Datenbank und ermöglicht so eine schnelle Suche.
  • Verarbeitet sowohl binäre (.doc) als auch komprimierte (.docx) Word-Dokumente.
  • Unterstützt Excel und auch PowerPoint-Dateien.

Das obige ist der detaillierte Inhalt vonWie extrahiere ich Text aus Microsoft Office-Dateien in PHP?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn