char 데이터형 사용 시 주의사항
Java에서는 char 데이터형을 사용하여 문자를 표현하지만, char 데이터형이 모든 문자를 표현할 수는 없습니다.
유니코드 문자 집합
먼저 Java에서 유니코드 문자 집합을 사용하고 있다는 것을 알아야 합니다. 등장하기 전에는 ANSI, GB2312 등과 같은 많은 문자 세트가 있었습니다. 서로 다른 표준을 가진 많은 문자 집합이 있기 때문에 이는 두 가지 문제로 이어집니다.
주어진 코드 값에 대해 서로 다른 문자는 서로 다른 문자 집합의 서로 다른 문자에 해당할 수 있습니다. 🎜>
유니코드 문자 집합을 만든 후 고려해야 할 것은 이러한 문자를 어떻게 전송하고 저장하는지입니다. 이를 유니코드 변환 형식(Unicode Transformation Format)이라고 합니다. 익숙한 UTF-8, UTF-16 등은 서로 다른 유니코드 인코딩 구현 방법입니다.
유니코드 문자 집합 탄생 초기에는 유니코드 문자 집합을 인코딩하는 데 고정 길이 인코딩 방법인 UCS-2(2바이트 범용 문자 집합)가 사용되었습니다. 16비트 문자 인코딩이므로 최대 2^16 = 65536자를 인코딩할 수 있습니다(인코딩 범위는 U+0000 ~ U+FFFF). 이런 상황에서 디자이너들은 모든 문자를 인코딩하는데 절반 이하의 숫자를 사용했고, 남은 공간은 앞으로 새로운 문자를 인코딩하는데 충분하다고 믿었다.
안타깝게도 중국어, 일본어, 한국어 및 기타 표의 문자가 계속 추가되면서 유니코드 문자 집합의 문자 수가 16비트로 인코딩할 수 있는 최대 문자 수를 빠르게 초과했기 때문에 디자이너들은 캐릭터 세트의 디자인이 변경되었습니다.
새로운 디자인은 문자 집합의 모든 문자를 17개의 코드 평면으로 나눕니다. 그 중 코드 포인트 범위 U+0000 ~ U+FFFF는 Basic Multilingual Plane(약칭 BMP)으로 지정되며, 나머지 문자는 16개의 보조 평면(보조 평면)으로 구분됩니다. U+10FFFF, 보조 평면의 이러한 문자를 보조 문자라고 합니다.
유니코드 문자 집합의 문자를 다른 평면으로 재분류한 후에는 다음 두 가지 측면에 주의해야 합니다.
UTF-16도 유니코드 문자를 표현하기 위해 16비트 인코딩을 사용합니다. 즉, UTF-16 코드 단위(코드 단위)는 16비트입니다. 코드 단위는 문자 인코딩의 가장 기본적인 단위를 의미합니다. 즉, 모든 문자는 n(n≥1) 코드 단위로 구성되어야 합니다.
UTF-16에서는 16비트 길이가 65536자만 표현할 수 있기 때문에 BMP 범위 내의 모든 문자는 기본적으로 매핑되므로 U+D800 ~ U+DFFF 부분은 공백으로 남겨두고 보조 Flat 문자는 이 공백 부분을 사용하여 표현할 수도 있습니다. 이것이 공간 낭비 없이 모든 문자의 인코딩 문제를 해결하는 UTF-16 디자인의 독창성입니다.
그럼 보조기의 캐릭터는 어떻게 표현할까요? 실제로 보조 평면 문자의 코드 포인트는 대리 쌍이라고 하는 16비트 긴 코드 단위 쌍으로 인코딩되며, 대리 쌍은 BMP의 U+D800 ~ U+DFFF 부분에 속해야 합니다. 이는 전체 유니코드 문자 집합을 16비트 코드 단위로 인코딩하는 문제를 해결합니다. U+D800 ~ U+DFFF 부분은 에이전트 영역이라고 할 수 있으며, 그 중 U+D800 ~ U+DBFF 부분은 상위 에이전트 영역(선행 에이전트 영역)이라고 하고, U 부분은 +DC00 ~ U+DFFF를 하위 에이전트 영역(리어 에이전트 영역)이라고 합니다.
다음은 보조평면 문자인 U+64321을 UTF-16으로 인코딩하는 예를 통해 보조평면 문자의 인코딩 방법을 설명한다.
먼저 이 문자의 코드 포인트에서 0x10000을 빼면 20비트 길이의 값을 얻을 수 있습니다. 이 값의 범위는 0x0000 ~ 0xFFFF 이내여야 합니다.
Vx의 상위 10비트 값을 상위 에이전트의 연산 베이스 Vh로 사용하고, 하위 10비트 값을 사용 하위 에이전트의 작전 기지 Vl로 사용됩니다. 이 두 10비트 값의 값 범위는 0x0000 ~ 0x3FF 사이여야 합니다.
각각 상위 프록시 영역과 하위 프록시 영역의 시작 위치에 있는 코드 포인트를 사용하여 Vh 및 Vl에 대해 비트 OR 연산을 수행하고 결과는 U+64321의 보조 평면 UTF-16 인코딩.
따라서 결국 문자 U+64321은 상위 서로게이트와 하위 서로게이트로 구성된 서로게이트 쌍으로 인코딩됩니다. 0xDF21은 동시에 이 문자를 나타냅니다.
위의 예를 통해 보조 평면의 모든 문자는 UTF-16에서 두 개의 16비트 대리 인코딩으로 구성된 대리 쌍으로 인코딩된다는 것을 알 수 있습니다. 이는 프로그램 문자로 표시됩니다. 더 이상 16비트 공간이 필요하지 않고 32비트 공간이 필요합니다.
Java 프로그램에서는 char 데이터 형식을 사용하지 않는 것이 좋습니다
위의 유니코드 문자 집합과 UTF-16에 대한 설명을 마친 후 그 이유에 대해 알아보겠습니다. 사용하지 않는 것이 좋습니다. char 데이터 유형은 Java 프로그램에서 사용됩니다.
Java는 16비트 유니코드 문자 집합, 즉 UTF-16을 사용하므로 Java의 char 데이터 형식은 고정 길이이며 길이는 항상 16비트만 가능합니다. U+0000 ~ U+FFFF 사이의 문자는 BMP의 문자입니다. 코드 포인트가 이 범위를 초과하면 보조 문자를 사용하더라도 char 데이터 형식은 지원되지 않습니다. 보조 문자를 저장하려면 32비트 길이가 필요하고 이 문자를 저장하려면 String만 사용할 수 있기 때문입니다.
위에 작성된 코드가 char 데이터 유형을 사용하여 보조 평면의 문자를 저장하는 경우 컴파일러는 잘못된 문자 상수 오류를 보고합니다.
인터넷 사용자의 지속적인 증가와 인터넷 언어의 지속적인 풍부화로 인해 사용자는 풍부한 의미를 표현하기 위해 인터넷에서 일부 특수 문자를 점점 더 많이 사용하고 있으며 이러한 문자는 보조 평면에 속할 가능성이 높습니다. in 이므로 처리에 char 유형을 사용하면 프로그램의 견고성이 저하될 가능성이 있습니다.
문자열 세부 정보
문자열 길이 가져오기
문자열은 프로그래밍에서 사용하는 매우 일반적인 데이터 유형입니다. 문자열을 나타내는 데 사용됩니다. String의 소스 코드를 보면 기본 레이어가 실제로 char 유형 배열을 사용하여 문자를 저장하는 것을 볼 수 있습니다.
또한 length() 메소드를 호출하면 문자열의 길이, 즉 문자열의 문자 수를 얻을 수 있다는 것도 알고 있습니다. 구현은 기본 값 배열의 길이를 직접 반환하는 것입니다. 코드는 다음과 같습니다.
위의 문자 인코딩에 대한 지식을 결합하면 Java의 char 길이는 항상 16비트라는 것을 알 수 있습니다. 문자열에 보조 문자를 사용하는 경우 For For String을 저장하려면 2개의 char 유형 길이가 필요합니다. 문자를 저장하는 기본 배열 값에는 2개의 배열 요소 위치가 필요합니다. 따라서 다음 프로그램에서는 예상치 못한 결과를 얻게 됩니다.
우리 생각에 따르면 문자열 tt에는 8자만 있어야 하지만 실제 출력은 9입니다. 위에서 이미 Java가 16비트 유니코드 문자 집합을 사용한다고 언급했으므로 Java의 코드 단위 길이도 16비트입니다. 보조 문자를 표현하려면 두 개의 코드 단위가 필요하므로 문자열의 tt 문자는