Java에서 GBK를 UTF-8로 변환하는 잘못된 코드에 대한 솔루션
GBK 인코딩을 사용하고 상대방이 UTF-8 인코딩을 사용하는 경우 데이터를 보낼 때 GBK 인코딩 데이터를 UTF-8 인코딩으로 변환해야 합니다. 상대방이 데이터를 왜곡하지 않도록 데이터를 저장합니다.
문제 발생: GBK를 UTF-8로 변환하면 홀수 개의 한자가 깨져 보이지만 짝수 개의 한자는 깨지지 않습니다.
원인 분석:
public static void analyze() throws UnsupportedEncodingException { String gbk = "我来了"; String utf8 = new String(gbk.getBytes("UTF-8")); for (byte b : gbk.getBytes("UTF-8")) { System.out.print(b + " "); } System.out.println(); for (byte b : utf8.getBytes()) { System.out.print(b + " "); } } /* -26 -120 -111 -26 -99 -91 -28 -70 -122 -26 -120 -111 -26 -99 -91 -28 -70 63 ! */
마지막 바이트가 다르다는 점에 유의하세요. 위 줄은 올바른 UTF-8 인코딩입니다. 그렇다면 다음 줄의 마지막 바이트가 -122가 아닌 63인 이유는 무엇입니까? 이것이 횡설수설의 원인입니다.
GBK 인코딩은 중국어에서 2바이트인 반면, UTF-8 인코딩은 중국어에서 3바이트입니다. getBytes("UTF-8") 메소드를 호출하면 계산을 통해 바이트가 추가되므로 GBK에서 2바이트가 됩니다. UTF-8에 해당하는 3바이트입니다. 따라서 위 예의 한자 세 개는 9바이트를 출력합니다.
(관련 동영상 튜토리얼 공유: java 동영상 튜토리얼)
문제 해결
바이트가 올바른지 확인하는 것이 마지막입니다. getBytes("UTF-8")를 호출하여 바이트 배열로 변환할 때 ISO-8859-1 인코딩된 문자열을 생성합니다. ISO-8859-1 인코딩은 1바이트가 1문자에 해당하므로 마지막 바이트가 실수되지 않음을 의미합니다. .
아아아아위 내용은 Java의 GBK에서 UTF-8 왜곡 코드에 대한 솔루션의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!