Maison  >  Article  >  développement back-end  >  Comment extraire du texte à partir de fichiers Word, Excel et PowerPoint en PHP ?

Comment extraire du texte à partir de fichiers Word, Excel et PowerPoint en PHP ?

Linda Hamilton
Linda Hamiltonoriginal
2024-11-17 14:15:02542parcourir

How to Extract Text from Word, Excel, and PowerPoint Files in PHP?

Comment extraire le texte d'un fichier Word .doc, .docx, .xlsx, .pptx en PHP

Extraire du texte à partir de documents Word téléchargés est crucial pour des tâches telles que la recherche dans des documents, en particulier dans les scénarios impliquant des CV. Cet article fournit une solution complète à ce problème courant.

Extraction de fichiers Doc/Docx

Les fichiers Doc/Docx sont des blobs binaires. Pour les fichiers .doc, vous pouvez utiliser la fonction fopen, tandis que pour les fichiers .docx, vous pouvez utiliser la fonction zip_open. En effet, les fichiers docx sont essentiellement des fichiers ZIP contenant des fichiers XML.

Extraction de fichiers Excel

Pour extraire le texte des fichiers XLSX, nous nous concentrons sur un fichier XML spécifique,

🎜>xl/sharedStrings.xml

. Nous extrayons le contenu de ce fichier et supprimons les balises HTML pour le texte brut.

Extraction de fichiers PowerPoint

Les fichiers PPTX suivent une approche similaire. Nous parcourons les fichiers XML de diapositives, extrayons et concaténons leur contenu.

Implémentation de classe

Nous fournissons une classe PHP nommée

DocxConversion
    qui encapsule ces extractions. méthodes. La classe accepte un chemin de fichier comme argument et a les fonctions suivantes :
  • read_doc
  • () : gère l'extraction du fichier .doc.
  • read_docx
  • () : gère le fichier .docx extraction.
  • xlsx_to_text
  • () : gère l'extraction du fichier .xlsx.
  • pptx_to_text
  • () : gère l'extraction du fichier .pptx.
  • convertToText
() : choisit l'extraction appropriée méthode basée sur l'extension du fichier.

Usage

Pour utiliser cette classe, instanciez-la avec le chemin du fichier et appelez

convertToText

() méthode. La méthode renvoie le texte extrait sous forme de chaîne.

$docObj = new DocxConversion("test.docx");
$docText = $docObj->convertToText();
echo $docText;
Exemple :

Ce script extraira le texte du fichier .docx spécifié et l'affichera.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn