>백엔드 개발 >PHP 튜토리얼 >UTF-8 인코딩으로 인해 PHP DOMDocument의 loadHTML이 실패하는 이유는 무엇이며 어떻게 해결할 수 있습니까?

UTF-8 인코딩으로 인해 PHP DOMDocument의 loadHTML이 실패하는 이유는 무엇이며 어떻게 해결할 수 있습니까?

Barbara Streisand
Barbara Streisand원래의
2024-12-30 16:48:09857검색

Why Does PHP DOMDocument's loadHTML Fail with UTF-8 Encoding, and How Can I Fix It?

PHP DOMDocument loadHTML은 UTF-8을 올바르게 인코딩할 수 없습니다

DOMDocument의 loadHTML 메소드는 입력이 ISO-8859-1로 인코딩되어 있다고 가정합니다. UTF-8의 잘못된 인코딩으로 이어짐 문자.

DOMDocument에서 사용하는 기본 파서는 HTML4 입력을 예상하므로 HTML5 문서에 문제를 일으킬 가능성이 있습니다.

해결책:

이 문제를 해결하려면, 다음 방법 중 하나를 사용하여 HTML의 문자 인코딩을 지정합니다.

XML 인코딩 선언:

ContentType 헤더:

XML 인코딩 접두어:

알 수 없는 HTML 콘텐츠에 대한 해결 방법:

만들 수 없는 경우 인코딩에 대한 가정을 고려하여 SmartDOMDocument 또는 다음 PHP 코드와 같은 해결 방법을 사용하세요.

$profile = '<p>イリノイ州シカゴにて、アイルランド系の家庭に、9</p>';
$dom = new DOMDocument();
$dom->loadHTML(mb_convert_encoding($profile, 'HTML-ENTITIES', 'UTF-8'));
echo $dom->saveHTML();

PHP 8.2에 대한 주의 사항:

PHP 8.2에서 mb_convert_encoding 함수는 지원 중단 경고를 생성합니다. 대안:

$dom->loadHTML(mb_encode_numericentity($profile, [0x80, 0x10FFFF, 0, ~0], 'UTF-8'));

이상적이지는 않지만 이 방법은 모든 문자가 ISO-8859-1로 표현될 수 있으므로 안전한 인코딩을 보장합니다.

위 내용은 UTF-8 인코딩으로 인해 PHP DOMDocument의 loadHTML이 실패하는 이유는 무엇이며 어떻게 해결할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.