首頁 >後端開發 >php教程 >為什麼 PHP DOMDocument 的 loadHTML 在使用 UTF-8 編碼時失敗,如何修復?

為什麼 PHP DOMDocument 的 loadHTML 在使用 UTF-8 編碼時失敗,如何修復?

Barbara Streisand
Barbara Streisand原創
2024-12-30 16:48:09839瀏覽

Why Does PHP DOMDocument's loadHTML Fail with UTF-8 Encoding, and How Can I Fix It?

PHP DOMDocument loadHTML 無法正確編碼UTF-8

DOMDocument 的loadHTML 方法假設您的輸入值可以導致UTF-8 字元編碼不正確。

DOMDocument 使用的底層解析器需要 HTML4 輸入,這可能會對 HTML5 文件造成挑戰。

解決方案:

要解決此問題,請使用指定HTML 的字元編碼以下方法之一:

XML編碼聲明:

ContentType 標頭:

XML編碼前綴:

未知HTML 內容的解決方法:

如果如果您無法製作關於編碼的假設,請採用類似SmartDOMDocument 的解決方法或以下PHP程式碼:

$profile = '<p>イリノイ州シカゴにて、アイルランド系の家庭に、9</p>';
$dom = new DOMDocument();
$dom->loadHTML(mb_convert_encoding($profile, 'HTML-ENTITIES', 'UTF-8'));
echo $dom->saveHTML();

PHP 8.2 注意:

在 PHP 8.2 中, mb_convert_encoding 函式會產生棄用警告。作為替代方案:

$dom->loadHTML(mb_encode_numericentity($profile, [0x80, 0x10FFFF, 0, ~0], 'UTF-8'));

雖然不理想,但此方法可確保安全編碼,因為所有字元都可以用 ISO-8859-1 表示。

以上是為什麼 PHP DOMDocument 的 loadHTML 在使用 UTF-8 編碼時失敗,如何修復?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn