>백엔드 개발 >PHP 튜토리얼 >UTF-8 지원에도 불구하고 preg_match() 오프셋이 문자가 아닌 바이트 단위인 이유는 무엇입니까?

UTF-8 지원에도 불구하고 preg_match() 오프셋이 문자가 아닌 바이트 단위인 이유는 무엇입니까?

DDD
DDD원래의
2024-12-06 05:35:19161검색

Why are preg_match() Offsets in Bytes, Not Characters, Even with UTF-8 Support?

PREG_OFFSET_CAPTURE 및 UTF-8 문자열: 바이트 계산 불일치

preg_match()와 PREG_OFFSET_CAPTURE 매개변수를 사용하여 UTF-8 문자열을 일치시킬 때 사용자는 예상치 못한 문제를 겪을 수 있습니다. 오프셋이 문자 대신 바이트 단위로 계산되는 동작입니다. 패턴과 주제 모두에 대해 UTF-8 지원을 활성화하는 u 수정자를 사용함에도 불구하고 캡처된 오프셋은 바이트 기반으로 유지됩니다.

바이트 계산 문제 해결

이 불일치를 해결하고 문자 기반 오프셋의 경우 mb_strlen과 관련된 해결 방법을 사용할 수 있습니다. 이 함수는 지정된 하위 문자열에 대한 UTF-8 문자 수를 제공합니다. 캡처된 일치 항목 앞의 제목 문자열의 하위 문자열에서 mb_strlen을 활용하면 정확한 문자 오프셋을 얻을 수 있습니다.

수정된 예는 다음과 같습니다.

$str = "\xC2\xA1Hola!";
preg_match('/H/u', $str, $a_matches, PREG_OFFSET_CAPTURE);
echo mb_strlen(substr($str, 0, $a_matches[0][1])); // Outputs 1

mb_strlen을 통합하여 다음을 보장합니다. 오프셋은 UTF-8 문자열 내의 문자 위치를 나타내며 정확하고 예상되는 결과를 제공합니다.

위 내용은 UTF-8 지원에도 불구하고 preg_match() 오프셋이 문자가 아닌 바이트 단위인 이유는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.