Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Mengapakah DOMDocument gagal mengendalikan aksara UTF-8 dengan betul semasa memuatkan HTML?

Mengapakah DOMDocument gagal mengendalikan aksara UTF-8 dengan betul semasa memuatkan HTML?

Mary-Kate Olsen
Mary-Kate Olsenasal
2024-11-04 10:12:30339semak imbas

Why does DOMDocument fail to handle UTF-8 characters correctly when loading HTML?

Ketidakupayaan DOMDocument untuk Mengendalikan Aksara UTF-8

Dalam senario di mana pelayan web menghantar respons dengan pengekodan UTF-8, semua fail adalah begitu juga disimpan dalam UTF-8, dan semua tetapan yang berkaitan telah dikonfigurasikan untuk pengekodan UTF-8, isu timbul. Program ujian yang direka untuk mengesahkan fungsi output menunjukkan tingkah laku yang tidak teratur.

Setelah melaksanakan program, output dipaparkan seperti berikut:

<!DOCTYPE html>
<html><head><meta charset="utf-8"><title>Test!</title></head><body>
    <h1>☆ Hello ☆ World ☆</h1>    
</body></html>

yang ditunjukkan sebagai:

< ;h1>☆ Hello ☆ Dunia ☆


Program:

<code class="php">$html = <<<HTML
<!doctype html>
<html>
<head>
    <meta charset="utf-8">
    <title>Test!</title>
</head>
<body>
    <h1>☆ Hello ☆ World ☆</h1>
</body>
</html>
HTML;

$dom = new DOMDocument("1.0", "utf-8");
$dom->loadHTML($html);

header("Content-Type: text/html; charset=utf-8");
echo($dom->saveHTML());</code>

Sebab

Punca asas ialah DOMDocument::loadHTML() menjangka rentetan dalam format HTML. HTML sememangnya menggunakan ISO-8859-1 (ISO Latin Alphabet No. 1) sebagai pengekodan aksara lalainya. Akibatnya, apabila penghurai HTML yang direka untuk HTML 4.0 menemui aksara yang melebihi pengekodan ini, ia mungkin menunjukkan tingkah laku yang tidak dapat diramalkan.

Penyelesaian

Menukar Aksara Bukan ASCII kepada Entiti

Untuk membetulkan isu ini, semua aksara di luar julat ASCII (127 / h7F) hendaklah ditukar kepada entiti HTML. Proses ini boleh dicapai dengan menggunakan mb_convert_encoding dengan pengekodan sasaran HTML-ENTITIES:

<code class="php">$html = mb_convert_encoding($html, "HTML-ENTITIES", "UTF-8");</code>

Menambah Tag Meta Jenis Kandungan

Sebagai alternatif, isu ini boleh diselesaikan dengan menggabungkan teg ke dalam dokumen itu sendiri, menyatakan charset sebagai UTF-8:

<code class="html"><meta http-equiv="content-type" content="text/html; charset=utf-8"></code>

Kaedah ini berfungsi sebagai pembayang kepada DOMDocument, memaksanya untuk mentafsir input sebagai UTF-8 yang dikodkan. Walaupun diletakkan di luar bahagian, spesifikasi HTML 2.0 menentukan bahawa elemen tersebut akan dipindahkan secara automatik dalam pengepala.

Atas ialah kandungan terperinci Mengapakah DOMDocument gagal mengendalikan aksara UTF-8 dengan betul semasa memuatkan HTML?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn