Heim >Backend-Entwicklung >PHP-Tutorial >Wie kann ich .DOC-Dateien in PHP richtig analysieren und Fehler bei der Zeicheninterpretation vermeiden?

Wie kann ich .DOC-Dateien in PHP richtig analysieren und Fehler bei der Zeicheninterpretation vermeiden?

Mary-Kate Olsen
Mary-Kate OlsenOriginal
2024-10-30 06:21:28918Durchsuche

How to Properly Parse .DOC Files in PHP and Avoid Character Interpretation Errors?

Lesen von .DOC-Dateien in PHP

Das Lesen von .DOC-Dateien in PHP kann aufgrund ihres Binärformats eine Herausforderung sein. Sie können sie jedoch mit dem von jemandem bereitgestellten Code analysieren, dies kann jedoch zu einer falschen Zeicheninterpretation führen.

Um dieses Problem zu beheben, müssen Sie die folgende Änderung vornehmen:

<code class="php">$line = @fread($fileHandle, filesize($userDoc));
$lines = explode(chr(0x0A),$line);</code>

Durch diese Änderung wird das Zeichen chr(0x0D) durch chr(0x0A) ersetzt. Windows speichert Zeilenumbrüche als rn (Wagenrücklauf plus Zeilenvorschub), während UNIX-Systeme n (nur Zeilenvorschub) verwenden. Durch die Verwendung von chr(0x0D) behandeln Sie das DOS/Windows-Neuzeilenzeichen, aber die Datei wird im Unix-Format gespeichert.

Berücksichtigen Sie außerdem den folgenden Code, um .docx-Dateien in PHP zu lesen:

<code class="php">function read_file_docx($filename){

    $striped_content = '';
    $content = '';

    if(!$filename || !file_exists($filename)) return false;

    $zip = zip_open($filename);

    if (!$zip || is_numeric($zip)) return false;

    while ($zip_entry = zip_read($zip)) {

        if (zip_entry_open($zip, $zip_entry) == FALSE) continue;

        if (zip_entry_name($zip_entry) != "word/document.xml") continue;

        $content .= zip_entry_read($zip_entry, zip_entry_filesize($zip_entry));

        zip_entry_close($zip_entry);
    }// end while

    zip_close($zip);

    $content = str_replace('</w:r></w:p></w:tc><w:tc>', " ", $content);
    $content = str_replace('</w:r></w:p>', "\r\n", $content);
    $striped_content = strip_tags($content);

    return $striped_content;
}</code>

Dieser Code:

  • Öffnet die .docx-Datei als ZIP-Archiv.
  • Extrahiert die Datei „word/document.xml“.
  • Parst den XML-Inhalt.
  • Entfernt unnötige Tags und Zeichen.
  • Gibt den analysierten Textinhalt zurück.

Das obige ist der detaillierte Inhalt vonWie kann ich .DOC-Dateien in PHP richtig analysieren und Fehler bei der Zeicheninterpretation vermeiden?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn