Maison > Article > développement back-end > Comment extraire du texte à partir de fichiers Microsoft Office en PHP ?
Extraire du texte à partir de fichiers Microsoft Office en PHP
Récupérer du texte à partir de documents Word téléchargés peut être difficile. Cet article présente des solutions pour extraire efficacement du texte de différents formats de fichiers Microsoft Office (.doc, .docx, .xlsx, .pptx) et le stocker dans une base de données pour une recherche pratique.
Solution pour .doc et Fichiers .docx
Les documents avec les extensions de fichier .doc ou .docx peuvent être gérés à l'aide de la classe DocxConversion. Il propose deux méthodes :
read_doc() pour les fichiers .doc, qui lit le fichier comme un blob binaire à l'aide de fopen.
read_docx() pour les fichiers .docx, qui les interprète comme des fichiers zip compressés contenant des fichiers XML.
Solution pour Fichiers .xlsx (Excel)
Pour les fichiers Excel (.xlsx), la fonction xlsx_to_text() est utilisée. Il ouvre le fichier sous forme d'archive zip et extrait le fichier sharedStrings.xml, qui contient les données texte.
Solution pour les fichiers .pptx (PowerPoint)
De même, pptx_to_text() gère les fichiers PowerPoint (.pptx). Il ouvre le fichier sous forme d'archive zip et parcourt les fichiers XML de diapositives individuels, en extrayant le texte.
Utilisation
Pour utiliser ces fonctions, créez une nouvelle instance de la classe DocxConversion et appelez la méthode convertToText(). Il déterminera le type de fichier et appliquera la méthode d'extraction de texte appropriée.
Exemple d'utilisation :
$docObj = new DocxConversion("test.docx"); $docText = $docObj->convertToText(); echo $docText;
Avantages
Cette solution offre plusieurs avantages :
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!