한자가 깨져 보이는 이유: 디코딩 방식과 인코딩 방식이 일치하지 않습니다. UTF-8로 인코딩된 중국어 문자는 3바이트로 변환되고, gbk로 인코딩된 경우 2바이트로 변환되며, UTF-8로 인코딩된 영어 문자는 gbk로 인코딩된 경우 1바이트로 변환됩니다. 1바이트로 변환됩니다.
이 튜토리얼의 운영 환경: Windows 7 시스템, Dell G3 컴퓨터.
이런 식으로 생각한 사람이 있을지 모르겠습니다. 문자열에는 문자뿐만 아니라 그것을 숨기는 인코딩 정보도 포함되어 있습니다. 예를 들어, Java에서는 String str = "Hello"라고 생각했습니다. 문자열 str은 유니코드 인코딩이나 gbk, iso-8859-1 등의 인코딩 방법을 숨깁니다. 이러한 이해는 잘못된 것입니다. 문자는 다른 정보가 없는 문자일 뿐입니다. 사람들이 파일에서 보는 문자열은 메모리의 디지털 정보를 읽어서 일부로 디코딩하는 시스템이라는 것이 올바른 이해입니다. 즉, 텍스트 파일을 두 번 클릭하면 시스템이 메모리에 있는 디지털 정보를 읽고 표시합니다. 텍스트 파일을 저장할 때 시스템은 설정한 인코딩 방식으로 파일을 인코딩한 후 저장합니다. 기억 속으로. 그래서 왜곡된 문자도 일부 문자일 뿐이고 이상한 문자일 뿐이며 "코드"가 없습니다.
그럼 코드가 왜곡되는 이유에 대해 이야기해보겠습니다그래서 우리가 묻고 싶은 질문은: 왜 디코딩 방식과 인코딩 방식이 왜곡되어 나타나는 걸까요?
다음은 utf-8, gbk, iso-8859-1의 세 가지 인코딩 방법을 예시로 보여줍니다.
@Test public void testEncode() throws Exception { String str = "你好",en = "h?h"; System.out.println("========中文字符utf-8======="); byte[] utf8 = str.getBytes(); // 以utf-8方式编码 ,default:utf-8 for (byte b : utf8) { System.out.print(b + "\t"); } System.out.println("\n"+"========英文字符utf-8======="); byte[] utf8_en = en.getBytes(); // 以utf-8方式编码 ,default:utf-8 for (byte b : utf8_en) { System.out.print(b + "\t"); } System.out.println("\n"+"========中文字符gbk========="); byte[] gbk = str.getBytes("gbk"); for (byte b : gbk) { System.out.print(b + "\t"); } System.out.println("\n"+"========英文字符gbk========="); byte[] gbk_en = en.getBytes("gbk"); for (byte b : gbk_en) { System.out.print(b + "\t"); } String s = new String(utf8,"utf-8"); String s1 = new String(utf8,"gbk"); System.out.println("\n"+s + "====gbk:" + s1); }
위 방법을 테스트하면 인쇄된 결과는 다음과 같습니다.
========中文字符utf-8======= -28 -67 -96 -27 -91 -67 ========英文字符utf-8======= 104 63 104 ========中文字符gbk========= -60 -29 -70 -61 ========英文字符gbk========= 104 63 104 你好====gbk:浣犲ソ ------------------------------------------------------------------------------------
다음과 같이 결론을 내릴 수 있습니다.
한자는 utf-8로 인코딩하면 3바이트로 변환되고, 2바이트로 변환됩니다. gbk로 인코딩된 경우 ;
영어 문자는 utf-8로 인코딩된 경우 1바이트로 변환되고, gbk로 인코딩된 경우 1바이트로 변환됩니다.
바이트 배열 utf8이 utf-8 모드에서 디코딩되면 잘못된 문자가 없고 원본 "Hello"가 코드의 29-31행과 결합된 인쇄의 마지막 행에서 볼 수 있습니다. "는 여전히 남아있지만 gbk 모드로 디코딩하면 디코딩할 때 왜곡된 문자 3개가 나타납니다. 왜 2개가 아닌 3개가 있는 걸까요? 6/2=3.
다음으로 iso-8859-1에 대해 이야기해 보겠습니다. 이 인코딩은 영어 시리즈에서 사용됩니다. 즉, 중국어를 표현할 수 없다는 뜻입니다(사용하려면 iso-8859와 호환되는 다른 인코딩을 사용해야 합니다). -1 인코딩 방식) 문자는 영어 물음표 '?'로 처리됩니다. , 모든 영어 문자는 유니코드 인코딩을 제외하고 고정 바이트 코드 표현을 사용합니다.
@Test public void testISO() throws Exception { String str = "你好"; byte[] bs = str.getBytes("iso-8859-1"); for (byte b : bs) { System.out.println(b); } System.out.println(new String(bs,"iso-8859-1")); System.out.println(new String(bs,"utf-8")); System.out.println(new String(bs,"gbk")); System.out.println(new String(bs,"unicode")); }
결과 인쇄
63 63 ?? ?? ?? 㼿
설명 63 =》?, 모든 중국어가 ?로 간주되므로 이 코드가 실행되면: byte[] bs = "Hello".getBytes("iso-8859-1" );정보가 잃어버린.
Execute String str = new String(bs, "any charset"); str은 더 이상 "Hello"와 동일하지 않지만 두 개의 물음표??. 그래서 Tomcat에서는 한자가 ????????라는 긴 문자열로 바뀌는 것을 자주 보게 되는데, 이것이 유래입니다.
iso-8859-1, utf-8, gbk에서는 하나의 바이트코드가 하나의 영어 문자를 나타냅니다.
유니코드 인코딩에서는 하나의 바이트코드가 어떤 문자도 표현할 수 없으며, 두 개의 바이트코드(경우에 따라 4개)여야 한다고 규정되어 있습니다. 문자를 나타낼 수 있습니다.
너무나 많은 사람들이 왜 그렇게 많은 인코딩 방법을 사용하는지 궁금해 할 것입니다. utf-8로 통합하면 모든 문자를 표현할 수 없나요?
인코딩은 어떤 문자를 표현할 수 있는지 여부뿐만 아니라 전송 및 저장에 관한 것입니다.
1. UTF-8은 실제로 거의 모든 알려진 문자를 나타낼 수 있습니다. 앞에서 언급했듯이 UTF-8 인코딩에서는 3바이트만이 한자를 나타내므로 공간을 많이 차지하며 전송 및 저장에 도움이 되지 않습니다(전송과 저장은 모두 바이너리로 수행됨)다양한 인코딩 방법의 규칙 이해하기: https://jingyan.baidu.com/article/020278118741e91bcd9ce566.html2. 문자는 iso-8859-1과 같이 가장 많은 공간을 절약합니다. 하지만 세상에는 영어 캐릭터뿐만 아니라 다양한 지역, 국가의 캐릭터도 존재합니다. 따라서 문자 수는 2의 8승보다 커야 합니다.
위의 두 가지 점을 합치면 자연스럽게 다양한 인코딩 방식이 등장하게 됩니다.
더 많은 프로그래밍 관련 지식을 보려면 프로그래밍 교육을 방문하세요! !
위 내용은 중국어 글자가 깨지는 원인은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!