PHP 4 또는 5에서 UTF-8 문자열에 대한 UCS-2 코드 포인트 얻기
UTF에 대한 UCS-2 코드 포인트를 얻으려면 -8 문자열을 사용하면 PHP에서 사용 가능한 기존 유틸리티를 활용할 수 있습니다. 이 변환을 용이하게 하려면 iconv와 같은 라이브러리를 사용하는 것이 좋습니다.
맞춤형 솔루션을 선호하는 경우 UTF-8 형식을 이해하는 것이 중요합니다. 각 코드 포인트는 해당 값을 기준으로 1~4바이트로 저장됩니다. 다음 범위가 적용됩니다:
문자의 바이트 수를 확인하려면 첫 번째 바이트를 검사하세요. 접두사 0은 1바이트 문자를 나타내고, 110은 2바이트, 1110은 3바이트 문자, 11110은 4바이트 문자를 나타냅니다.
문자 크기를 알고 나면 비트 연산을 수행하여 변환할 수 있습니다. 그것. UCS-2는 U FFFF 위의 문자를 표현할 수 없습니다.
참고로 사용할 수 있는 PHP 4 또는 5 함수는 다음과 같습니다.
<code class="php">function get_ucs2_codepoint($char) { $byte = ord($char); if ($byte < 128) { return $byte; } elseif ($byte < 224) { return (($byte & 63) << 6) | (ord($char[1]) & 63); } elseif ($byte < 240) { return (($byte & 31) << 12) | ((ord($char[1]) & 63) << 6) | (ord($char[2]) & 63); } else { return 0; // UCS-2 cannot handle code points this high } }</code>
이 함수는 다음을 처리하지 않습니다. 모든 유니코드 문자(UCS-2로 표현할 수 있는 문자만) 전체 유니코드를 처리해야 하는 경우 대체 라이브러리나 PHP 6 함수를 사용해야 합니다.
위 내용은 PHP 4 또는 5에서 UTF-8 문자열을 UCS-2 코드 포인트로 변환하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!