Maison  >  Article  >  développement back-end  >  Comment lire et extraire du texte à partir de fichiers DOCX en PHP ?

Comment lire et extraire du texte à partir de fichiers DOCX en PHP ?

Mary-Kate Olsen
Mary-Kate Olsenoriginal
2024-10-28 17:43:29210parcourir

How to Read and Extract Text from DOCX Files in PHP?

Lecture de fichiers DOCX en PHP

Lorsqu'ils tentent de lire des fichiers DOCX en PHP, les utilisateurs peuvent rencontrer des difficultés avec des caractères tronqués apparaissant dans la sortie. Ce problème se pose principalement parce que les fichiers DOCX sont des packages compressés qui nécessitent une gestion spécialisée. Le code suivant montre comment lire et traiter les fichiers DOCX en PHP :

<code class="php">function read_file_docx($filename){

    $striped_content = '';
    $content = '';

    if(!$filename || !file_exists($filename)) return false;

    $zip = zip_open($filename);

    if (!$zip || is_numeric($zip)) return false;

    while ($zip_entry = zip_read($zip)) {

        if (zip_entry_open($zip, $zip_entry) == FALSE) continue;

        if (zip_entry_name($zip_entry) != "word/document.xml") continue;

        $content .= zip_entry_read($zip_entry, zip_entry_filesize($zip_entry));

        zip_entry_close($zip_entry);
    }// end while

    zip_close($zip);

    //echo $content;
    //echo "<hr>";
    //file_put_contents('1.xml', $content);

    $content = str_replace('</w:r></w:p></w:tc><w:tc>', " ", $content);
    $content = str_replace('</w:r></w:p>', "\r\n", $content);
    $striped_content = strip_tags($content);

    return $striped_content;
}
$filename = "filepath";// or /var/www/html/file.docx

$content = read_file_docx($filename);
if($content !== false) {

    echo nl2br($content);
}
else {
    echo 'Couldn\'t the file. Please check that file.';
}</code>

Ce code utilise l'extension PHP ZIP pour ouvrir le fichier DOCX sous forme de package zip. Il localise ensuite le fichier « word/document.xml » dans le package zip, qui contient le contenu textuel du document. Le contenu est ensuite extrait et nettoyé en remplaçant les balises et en supprimant les balises HTML. Le texte résultant peut ensuite être affiché ou traité selon les besoins.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn