PHP DOMDocument 문서에서는 기본적으로 UTF-8 인코딩을 지원한다고 제안하지만 제공된 코드 샘플에서 알 수 있듯이 항상 그런 것은 아닙니다. 사건. 이 문제는 DOMDocument::loadHTML()이 역사적으로 ISO-8859-1(Latin-1)인 특정 인코딩의 HTML 문자열을 기대하기 때문에 발생합니다.
이 문제를 해결하려면 문자열을 DOMDocument가 처리할 수 있는 인코딩으로 변환해야 합니다. 한 가지 옵션은 ASCII가 아닌 문자를 HTML 엔터티로 변환하여 효과적으로 이스케이프하는 것입니다. 이는 'HTML-ENTITIES' 대상 인코딩과 함께 mb_convert_encoding() 함수를 사용하여 달성할 수 있습니다.
또 다른 접근 방식은 문서 인코딩을 암시하는 것입니다. HTML 문자열의 시작 부분에 태그를 추가합니다. 이 태그는 문자 세트를 지정합니다(이 경우 UTF-8).
<meta http-equiv="content-type" content="text/html; charset=utf-8">
이 메타 태그는 자동으로
섹션을 참조하여 DOMDocument가 인코딩을 올바르게 인식하는지 확인합니다.다음은 HTML 엔터티 사용을 보여주는 예입니다.
$html = '<meta http-equiv="content-type" content="text/html; charset=utf-8">
<html><head><title>Test!</title></head><body><h1>☆ Hello ☆ World ☆</h1></body></html>';
$dom = new DOMDocument('1.0', 'utf-8');
$dom->loadHTML($html);
header('Content-Type: text/html; charset=utf-8');
echo($dom->saveHTML());
사용하여 두 방법 모두 DOMDocument가 UTF-8 문자를 올바르게 처리하여 프로그램이 원하는 결과를 출력할 수 있도록 보장할 수 있습니다.
<meta http-equiv="content-type" content="text/html; charset=utf-8">Test! ☆ Hello ☆ World ☆
위 내용은 PHP에서 HTML 문자열을 로드할 때 DOMDocument가 UTF-8 인코딩으로 인해 어려움을 겪는 이유는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!