>일반적인 문제 >중국어 글자가 깨지는 원인은 무엇입니까?

중국어 글자가 깨지는 원인은 무엇입니까?

青灯夜游
青灯夜游원래의
2022-11-09 11:14:0438206검색

한자가 깨져 보이는 이유: 디코딩 방식과 인코딩 방식이 일치하지 않습니다. UTF-8로 인코딩된 중국어 문자는 3바이트로 변환되고, gbk로 인코딩된 경우 2바이트로 변환되며, UTF-8로 인코딩된 영어 문자는 gbk로 인코딩된 경우 1바이트로 변환됩니다. 1바이트로 변환됩니다.

중국어 글자가 깨지는 원인은 무엇입니까?

이 튜토리얼의 운영 환경: Windows 7 시스템, Dell G3 컴퓨터.

먼저 왜곡된 문자가 무엇인지부터 이야기해 봅시다

이런 식으로 생각한 사람이 있을지 모르겠습니다. 문자열에는 문자뿐만 아니라 그것을 숨기는 인코딩 정보도 포함되어 있습니다. 예를 들어, Java에서는 String str = "Hello"라고 생각했습니다. 문자열 str은 유니코드 인코딩이나 gbk, iso-8859-1 등의 인코딩 방법을 숨깁니다. 이러한 이해는 잘못된 것입니다. 문자는 다른 정보가 없는 문자일 뿐입니다. 사람들이 파일에서 보는 문자열은 메모리의 디지털 정보를 읽어서 일부로 디코딩하는 시스템이라는 것이 올바른 이해입니다. 즉, 텍스트 파일을 두 번 클릭하면 시스템이 메모리에 있는 디지털 정보를 읽고 표시합니다. 텍스트 파일을 저장할 때 시스템은 설정한 인코딩 방식으로 파일을 인코딩한 후 저장합니다. 기억 속으로. 그래서 왜곡된 문자도 일부 문자일 뿐이고 이상한 문자일 뿐이며 "코드"가 없습니다.

그럼 코드가 왜곡되는 이유에 대해 이야기해보겠습니다

우리는 인터넷에서 코드가 왜곡되는 이유에 대한 설명을 자주 봅니다. 코드가 왜곡되는 이유는 디코딩 방법과 인코딩 방법의 불일치로 인해 발생합니다. 틀린 말은 아니지만 같은 문장 자체가 왜곡된 코드는 요약일 뿐, 왜곡된 코드를 이해하는 데 도움이 되지 않습니다.

그래서 우리가 묻고 싶은 질문은: 왜 디코딩 방식과 인코딩 방식이 왜곡되어 나타나는 걸까요?

다음은 utf-8, gbk, iso-8859-1의 세 가지 인코딩 방법을 예시로 보여줍니다.

     @Test
     public void testEncode() throws Exception {
        String str = "你好",en = "h?h";
        
        System.out.println("========中文字符utf-8=======");
        byte[] utf8 = str.getBytes(); // 以utf-8方式编码 ,default:utf-8
        for (byte b : utf8) {            
            System.out.print(b + "\t");
        }
        
        System.out.println("\n"+"========英文字符utf-8=======");
        byte[] utf8_en = en.getBytes(); // 以utf-8方式编码 ,default:utf-8
        for (byte b : utf8_en) {            
            System.out.print(b + "\t");
        }
        
        System.out.println("\n"+"========中文字符gbk=========");
        byte[] gbk = str.getBytes("gbk");
        for (byte b : gbk) {            
            System.out.print(b + "\t");
        }
        
        System.out.println("\n"+"========英文字符gbk=========");
        byte[] gbk_en = en.getBytes("gbk");
        for (byte b : gbk_en) {            
            System.out.print(b + "\t");
        }
        
        String s = new String(utf8,"utf-8");
        String s1 = new String(utf8,"gbk");
        System.out.println("\n"+s + "====gbk:" + s1);
     }

위 방법을 테스트하면 인쇄된 결과는 다음과 같습니다.

========中文字符utf-8=======
-28 -67  -96 -27  -91 -67  
========英文字符utf-8=======
104 63  104 
========中文字符gbk=========
-60 -29  -70 -61  
========英文字符gbk=========
104 63  104 
你好====gbk:浣犲ソ
------------------------------------------------------------------------------------

다음과 같이 결론을 내릴 수 있습니다.

한자는 utf-8로 인코딩하면 3바이트로 변환되고, 2바이트로 변환됩니다. gbk로 인코딩된 경우 ;

영어 문자는 utf-8로 인코딩된 경우 1바이트로 변환되고, gbk로 인코딩된 경우 1바이트로 변환됩니다.

바이트 배열 utf8이 utf-8 모드에서 디코딩되면 잘못된 문자가 없고 원본 "Hello"가 코드의 29-31행과 결합된 인쇄의 마지막 행에서 볼 수 있습니다. "는 여전히 남아있지만 gbk 모드로 디코딩하면 디코딩할 때 왜곡된 문자 3개가 나타납니다. 왜 2개가 아닌 3개가 있는 걸까요? 6/2=3.

다음으로 iso-8859-1에 대해 이야기해 보겠습니다. 이 인코딩은 영어 시리즈에서 사용됩니다. 즉, 중국어를 표현할 수 없다는 뜻입니다(사용하려면 iso-8859와 호환되는 다른 인코딩을 사용해야 합니다). -1 인코딩 방식) 문자는 영어 물음표 '?'로 처리됩니다. , 모든 영어 문자는 유니코드 인코딩을 제외하고 고정 바이트 코드 표현을 사용합니다.

     @Test
     public void testISO() throws Exception {
         String str = "你好";
         byte[] bs = str.getBytes("iso-8859-1");
         for (byte b : bs) {
            System.out.println(b);
         }
         System.out.println(new String(bs,"iso-8859-1"));
         System.out.println(new String(bs,"utf-8"));
         System.out.println(new String(bs,"gbk"));
         System.out.println(new String(bs,"unicode"));         
     }

결과 인쇄

63
63
??
??
??
㼿

설명 63 =》?, 모든 중국어가 ?로 간주되므로 이 코드가 실행되면: byte[] bs = "Hello".getBytes("iso-8859-1" );정보가 잃어버린.

Execute String str = new String(bs, "any charset"); str은 더 이상 "Hello"와 동일하지 않지만 두 개의 물음표??. 그래서 Tomcat에서는 한자가 ????????라는 긴 문자열로 바뀌는 것을 자주 보게 되는데, 이것이 유래입니다.

iso-8859-1, utf-8, gbk에서는 하나의 바이트코드가 하나의 영어 문자를 나타냅니다.

유니코드 인코딩에서는 하나의 바이트코드가 어떤 문자도 표현할 수 없으며, 두 개의 바이트코드(경우에 따라 4개)여야 한다고 규정되어 있습니다. 문자를 나타낼 수 있습니다.

너무나 많은 사람들이 왜 그렇게 많은 인코딩 방법을 사용하는지 궁금해 할 것입니다. utf-8로 통합하면 모든 문자를 표현할 수 없나요?

인코딩은 어떤 문자를 표현할 수 있는지 여부뿐만 아니라 전송 및 저장에 관한 것입니다.

1. UTF-8은 실제로 거의 모든 알려진 문자를 나타낼 수 있습니다. 앞에서 언급했듯이 UTF-8 인코딩에서는 3바이트만이 한자를 나타내므로 공간을 많이 차지하며 전송 및 저장에 도움이 되지 않습니다(전송과 저장은 모두 바이너리로 수행됨)

2. 문자는 iso-8859-1과 같이 가장 많은 공간을 절약합니다. 하지만 세상에는 영어 캐릭터뿐만 아니라 다양한 지역, 국가의 캐릭터도 존재합니다. 따라서 문자 수는 2의 8승보다 커야 합니다.

위의 두 가지 점을 합치면 자연스럽게 다양한 인코딩 방식이 등장하게 됩니다.

다양한 인코딩 방법의 규칙 이해하기: https://jingyan.baidu.com/article/020278118741e91bcd9ce566.html

더 많은 프로그래밍 관련 지식을 보려면 프로그래밍 교육을 방문하세요! !

위 내용은 중국어 글자가 깨지는 원인은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.