Maison >développement back-end >tutoriel php >Comment lire et extraire du texte à partir de fichiers DOCX en PHP ?
Lecture de fichiers DOCX en PHP
Lorsqu'ils tentent de lire des fichiers DOCX en PHP, les utilisateurs peuvent rencontrer des difficultés avec des caractères tronqués apparaissant dans la sortie. Ce problème se pose principalement parce que les fichiers DOCX sont des packages compressés qui nécessitent une gestion spécialisée. Le code suivant montre comment lire et traiter les fichiers DOCX en PHP :
<code class="php">function read_file_docx($filename){ $striped_content = ''; $content = ''; if(!$filename || !file_exists($filename)) return false; $zip = zip_open($filename); if (!$zip || is_numeric($zip)) return false; while ($zip_entry = zip_read($zip)) { if (zip_entry_open($zip, $zip_entry) == FALSE) continue; if (zip_entry_name($zip_entry) != "word/document.xml") continue; $content .= zip_entry_read($zip_entry, zip_entry_filesize($zip_entry)); zip_entry_close($zip_entry); }// end while zip_close($zip); //echo $content; //echo "<hr>"; //file_put_contents('1.xml', $content); $content = str_replace('</w:r></w:p></w:tc><w:tc>', " ", $content); $content = str_replace('</w:r></w:p>', "\r\n", $content); $striped_content = strip_tags($content); return $striped_content; } $filename = "filepath";// or /var/www/html/file.docx $content = read_file_docx($filename); if($content !== false) { echo nl2br($content); } else { echo 'Couldn\'t the file. Please check that file.'; }</code>
Ce code utilise l'extension PHP ZIP pour ouvrir le fichier DOCX sous forme de package zip. Il localise ensuite le fichier « word/document.xml » dans le package zip, qui contient le contenu textuel du document. Le contenu est ensuite extrait et nettoyé en remplaçant les balises et en supprimant les balises HTML. Le texte résultant peut ensuite être affiché ou traité selon les besoins.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!