집 >백엔드 개발 >PHP 튜토리얼 >내 PHP DOMDocument loadHTML 함수가 UTF-8 인코딩을 올바르게 처리하지 못하는 이유는 무엇입니까?

내 PHP DOMDocument loadHTML 함수가 UTF-8 인코딩을 올바르게 처리하지 못하는 이유는 무엇입니까?

Patricia Arquette원래의: 2024-12-11 19:59:151079검색

Why is my PHP DOMDocument loadHTML function not handling UTF-8 encoding correctly?

PHP DOMDocument loadHTML이 UTF-8을 올바르게 인코딩하지 않음

문제

DOMDocument를 사용하여 HTML을 구문 분석하고 있지만 인코딩이 손실된 것 같습니다. HTML을 로드할 때. HTML의 일본어 문자는 잘못된 텍스트로 대체되지만, echo를 통해 HTML 문자열을 직접 출력할 때는 올바르게 표시됩니다.

원인

DOMDocument에서는 입력 문자열이 ISO-8859-1에 있다고 가정합니다. (HTTP/1.1 기본 문자 집합)이 기본적으로 사용됩니다. UTF-8 문자열을 구문 분석할 때 이 잘못된 가정으로 인해 잘못된 해석이 발생하여 문자가 깨질 수 있습니다.

해결책

DOMDocument가 HTML 문자열을 올바른 인코딩으로 로드하도록 하려면 다음과 같은 몇 가지 옵션이 있습니다.

XML 인코딩 선언 또는 메타 문자 집합 앞에 추가 선언: HTML 문자열을 로드하기 전에 또는 . 이렇게 하면 문자열이 UTF-8로 처리됩니다.
SmartDOMDocument 사용: 이 외부 라이브러리는 올바른 인코딩을 자동으로 감지하고 처리하는 loadHTMLCharset 함수를 제공합니다.
문자열을 HTML 엔터티로 변환: PHP의 mb_convert_encoding 함수는 HTML 문자열을 다음으로 변환할 수 있습니다. UTF-8 인코딩을 사용하는 HTML 엔터티. 이 변환된 문자열을 DOMDocument에 로드합니다.
mb_encode_numericentity 사용: 이 함수는 숫자 엔터티로 상위 ASCII 바이트를 인코딩하여 ISO-8859-1 제한 사항( PHP 8.2 만).

예

다음은 메타 문자 집합 선언을 사용하는 예입니다.

$profile = '<p>イリノイ州シカゴにて、アイルランド系の家庭に、9</p>';
$dom = new DOMDocument();

// Add meta charset declaration
$contentType = '<meta http-equiv="Content-Type" content="text/html; charset=utf-8">';
$dom->loadHTML($contentType . $profile);

echo $dom->saveHTML();

이렇게 하면 올바른 UTF-8 인코딩으로 HTML 문자열이 로드됩니다. , 원래 일본어 문자를 보존합니다.

위 내용은 내 PHP DOMDocument loadHTML 함수가 UTF-8 인코딩을 올바르게 처리하지 못하는 이유는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

php html echo String while xml using function default this display input ASCII http

성명：

이전 기사：mysqli_select_db()가 PHP에서 "매개변수 불일치" 경고를 발생시키는 이유는 무엇입니까?다음 기사：mysqli_select_db()가 PHP에서 "매개변수 불일치" 경고를 발생시키는 이유는 무엇입니까?