>  기사  >  Java  >  Java에서 문자열은 몇 바이트를 차지합니까?

Java에서 문자열은 몇 바이트를 차지합니까?

王林
王林원래의
2019-11-22 15:39:338198검색

Java에서 문자열은 몇 바이트를 차지합니까?

먼저 char는 Java의 기본 유형이 차지하는 바이트 수가 고정되어 있습니다. 예를 들어 int는 4바이트를 차지하고 double은 차지합니다. 8바이트. 이는 Java가 차지하는 유형을 다른 플랫폼에서 고정할 수 있으므로 Java의 이식성을 보장합니다. 따라서 Java의 char 유형은 고정적으로 2바이트를 차지합니다. (참고: char 유형은 한자를 저장할 수도 있습니다.)

둘째, String은 보다 유연한 저장 방법을 사용합니다. String에서는 영문자 하나가 1바이트를 차지하고, 한자는 인코딩에 따라 차지하는 바이트 수가 달라집니다. UTF-8 인코딩에서는 한자 하나가 3바이트를 차지하고, GBK 인코딩을 사용하면 한자 하나가 2바이트를 차지합니다.

테스트 코드는 다음과 같습니다.

import java.io.UnsupportedEncodingException;

public class StrTest {

    public static void main(String[] args) throws UnsupportedEncodingException {
        String str1 = "hello";
        String str2 = "你好abc";

        System.out.println("utf-8编码下'hello'所占的字节数:" + str1.getBytes("utf-8").length);
        System.out.println("gbk编码下'hello'所占的字节数:" + str1.getBytes("gbk").length);

        System.out.println("utf-8编码下'你好abc'所占的字节数:" + str2.getBytes("utf-8").length);
        System.out.println("gbk编码下你好'你好abc'所占的字节数:" + str2.getBytes("gbk").length);
    }

}

출력 결과:

utf-8编码下’hello’所占的字节数: 5
gbk编码下’hello’所占的字节数: 5
utf-8编码下’你好abc’所占的字节数: 9
gbk编码下你好’你好abc’所占的字节数: 7

String에 대해서는 영어인 것을 알 수 있습니다 문자 고정 1바이트를 점유하는 반면, 한자는 2(GBK 인코딩) 또는 3(UTF-8 인코딩) 바이트를 차지합니다. 또한 이 방법을 사용하여 여기서 설명하지 않는 다른 인코딩의 상태를 확인할 수도 있습니다.

마지막으로 문자열의 특성에 따라 문자열에 중국어 문자가 포함되어 있는지 확인할 수 있습니다. 예:

public class StrTest {

    public static void main(String[] args) throws UnsupportedEncodingException {
        searchChineseCharacter("Good morning");
        searchChineseCharacter("hello 早上好");
    }

    //找出一个字符串中的汉字
    public static void searchChineseCharacter(String str){
        //正则表达式,用于匹配中文字符
        String regex = "[\u4e00-\u9fa5]";

        //如果str的长度和其所占字节数不等,说明包含中文
        if (str.length() != str.getBytes().length){
            Pattern pattern = Pattern.compile(regex);
            Matcher matcher = pattern.matcher(str);
            System.out.print("'" + str + "' 中的汉字为:");

            while (matcher.find()){
                System.out.print(matcher.group());
            }
        }

        else {
            System.out.println("'" + str + "' 中无汉字");
        }
    }

}

출력 결과:

‘Good morning’ 中无汉字
‘hello 早上好’ 中的汉字为:早上好
#🎜🎜 #추천 튜토리얼:

java 입문 튜토리얼

위 내용은 Java에서 문자열은 몇 바이트를 차지합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.