Heim >Backend-Entwicklung >PHP-Tutorial >Wie kann ich .DOC-Dateien in PHP richtig analysieren und Fehler bei der Zeicheninterpretation vermeiden?
Das Lesen von .DOC-Dateien in PHP kann aufgrund ihres Binärformats eine Herausforderung sein. Sie können sie jedoch mit dem von jemandem bereitgestellten Code analysieren, dies kann jedoch zu einer falschen Zeicheninterpretation führen.
Um dieses Problem zu beheben, müssen Sie die folgende Änderung vornehmen:
<code class="php">$line = @fread($fileHandle, filesize($userDoc)); $lines = explode(chr(0x0A),$line);</code>
Durch diese Änderung wird das Zeichen chr(0x0D) durch chr(0x0A) ersetzt. Windows speichert Zeilenumbrüche als rn (Wagenrücklauf plus Zeilenvorschub), während UNIX-Systeme n (nur Zeilenvorschub) verwenden. Durch die Verwendung von chr(0x0D) behandeln Sie das DOS/Windows-Neuzeilenzeichen, aber die Datei wird im Unix-Format gespeichert.
Berücksichtigen Sie außerdem den folgenden Code, um .docx-Dateien in PHP zu lesen:
<code class="php">function read_file_docx($filename){ $striped_content = ''; $content = ''; if(!$filename || !file_exists($filename)) return false; $zip = zip_open($filename); if (!$zip || is_numeric($zip)) return false; while ($zip_entry = zip_read($zip)) { if (zip_entry_open($zip, $zip_entry) == FALSE) continue; if (zip_entry_name($zip_entry) != "word/document.xml") continue; $content .= zip_entry_read($zip_entry, zip_entry_filesize($zip_entry)); zip_entry_close($zip_entry); }// end while zip_close($zip); $content = str_replace('</w:r></w:p></w:tc><w:tc>', " ", $content); $content = str_replace('</w:r></w:p>', "\r\n", $content); $striped_content = strip_tags($content); return $striped_content; }</code>
Dieser Code:
Das obige ist der detaillierte Inhalt vonWie kann ich .DOC-Dateien in PHP richtig analysieren und Fehler bei der Zeicheninterpretation vermeiden?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!