>백엔드 개발 >PHP 튜토리얼 >PREG_OFFSET_CAPTURE를 사용하여 preg_match()를 수행한 후 UTF-8 문자열에서 올바른 문자 오프셋을 얻는 방법은 무엇입니까?

PREG_OFFSET_CAPTURE를 사용하여 preg_match()를 수행한 후 UTF-8 문자열에서 올바른 문자 오프셋을 얻는 방법은 무엇입니까?

Linda Hamilton
Linda Hamilton원래의
2024-12-03 01:01:091046검색

How to Get the Correct Character Offset in UTF-8 Strings After a preg_match() with PREG_OFFSET_CAPTURE?

preg_match()를 사용하여 일치 전 멀티바이트 문자 수 가져오기

문제:

수행할 때 preg_match()를 사용하여 UTF-8로 인코딩된 문자열에 대한 정규식 일치 PREG_OFFSET_CAPTURE 매개변수에서 결과 오프셋은 문자 수가 아닌 바이트 단위로 계산됩니다. 멀티바이트 문자를 일치시킬 때 바이트 길이가 문자 길이와 다를 수 있으므로 문제가 될 수 있습니다.

예를 들어 다음 코드를 사용하여 UTF-8로 인코딩된 문자열에서 "H" 문자를 일치시키면 결과는 다음과 같습니다. 문자 "H"가 인덱스에 있더라도 오프셋은 2입니다. 1:

$str = "\xC2\xA1Hola!";
preg_match('/H/u', $str, $a_matches, PREG_OFFSET_CAPTURE);
echo $a_matches[0][1];

해결 방법:

올바른 문자 수 오프셋을 얻으려면 mb_strlen()을 사용하여 일치하는 부분 문자열의 길이를 확인하세요.

$str = "\xC2\xA1Hola!";
preg_match('/H/u', $str, $a_matches, PREG_OFFSET_CAPTURE);
echo mb_strlen(substr($str, 0, $a_matches[0][1]));

이것은 UTF-8 문자로 오프셋을 계산하여 올바른 결과를 제공합니다.

위 내용은 PREG_OFFSET_CAPTURE를 사용하여 preg_match()를 수행한 후 UTF-8 문자열에서 올바른 문자 오프셋을 얻는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.