Maison  >  Article  >  développement back-end  >  Comment extraire du texte à partir de fichiers Microsoft Office en PHP ?

Comment extraire du texte à partir de fichiers Microsoft Office en PHP ?

Mary-Kate Olsen
Mary-Kate Olsenoriginal
2024-11-21 01:57:10447parcourir

How to Extract Text from Microsoft Office Files in PHP?

Extraire du texte à partir de fichiers Microsoft Office en PHP

Récupérer du texte à partir de documents Word téléchargés peut être difficile. Cet article présente des solutions pour extraire efficacement du texte de différents formats de fichiers Microsoft Office (.doc, .docx, .xlsx, .pptx) et le stocker dans une base de données pour une recherche pratique.

Solution pour .doc et Fichiers .docx

Les documents avec les extensions de fichier .doc ou .docx peuvent être gérés à l'aide de la classe DocxConversion. Il propose deux méthodes :

read_doc() pour les fichiers .doc, qui lit le fichier comme un blob binaire à l'aide de fopen.

read_docx() pour les fichiers .docx, qui les interprète comme des fichiers zip compressés contenant des fichiers XML.

Solution pour Fichiers .xlsx (Excel)

Pour les fichiers Excel (.xlsx), la fonction xlsx_to_text() est utilisée. Il ouvre le fichier sous forme d'archive zip et extrait le fichier sharedStrings.xml, qui contient les données texte.

Solution pour les fichiers .pptx (PowerPoint)

De même, pptx_to_text() gère les fichiers PowerPoint (.pptx). Il ouvre le fichier sous forme d'archive zip et parcourt les fichiers XML de diapositives individuels, en extrayant le texte.

Utilisation

Pour utiliser ces fonctions, créez une nouvelle instance de la classe DocxConversion et appelez la méthode convertToText(). Il déterminera le type de fichier et appliquera la méthode d'extraction de texte appropriée.

Exemple d'utilisation :

$docObj = new DocxConversion("test.docx");
$docText = $docObj->convertToText();
echo $docText;

Avantages

Cette solution offre plusieurs avantages :

  • Extrait efficacement le texte de divers fichiers Office formats.
  • Stocke le texte extrait dans une base de données, permettant des recherches rapides.
  • Gère les documents Word binaires (.doc) et compressés (.docx).
  • Prend en charge Excel. et des fichiers PowerPoint également.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn