Java基础入门之字符编码-java教程-PHP中文网

首页

Java

java教程

Java基础入门之字符编码

巴扎黑

Jul 21, 2017 pm 02:40 PM

java基础编码

一、ASII

美国(国家)信息交换标准(代)码。

计算机中只有数字,一切都是用数字表示,屏幕上显示的一个一个的字符也不例外。

一个字节可表示的数字为0-255,足以显示键盘上的所有的字符例如. a 为97 b为 98。这种数字与字符对应的编码规则,称为Asc11 码,ASC11 码的最高bit位都是0，也就是说,ASC11码的值都在0-127之间。

二、GB2312和GBK（中国的本地字符集）

中国大陆将每个中文字符都用2个字节表示,中文字符第个字节最高bit位都是1。这种编码格式称为 (gb2312) 国标码那么gb2312码对应的数字都是负数。

在此gb2312基础上,又增了一些,比如繁体字 ,称为GBK

附：

GB18030编码是在GBK编码基础上的扩充，因为汉字更多，仅仅使用两位编码已经不能容纳要求的汉字，所以采用了2\4位混和的办法，可以支持更多的汉字编码。

三、ANSI

为了扩充ASCII编码，以用于显示本国的语言，不同的国家和地区制定了不同的标准，由此产生了 GB2312, BIG5, JIS等各自的编码标准。这些使用 2 个字节来代表一个字符的各种汉字延伸编码方式，称为 ANSI 编码，又称为"MBCS（Muilti-Bytes Charecter Set，多字节字符集）"。在简体中文系统下，ANSI 编码代表 GB2312 编码，在日文操作系统下，ANSI 编码代表 JIS 编码，所以在中文 windows下要转码成gb2312,gbk只需要把文本保存为ANSI 编码即可。不同 ANSI 编码之间互不兼容。

四、本地字符集

在中国大陆使用的计算机系统上, GBK和GB2312就被称为该系统的本地字符集。

"中国 " 的中字,在中国大陆的编码是16进制的D6D0,在台湾是 A4A4 台湾的编码称为BIG5 大五码。在一个国家的本地化系统中出现的一个字符,通过电子邮件传到另外一个国家的本地化系统中,看到的就不是那个原始字符了,而是另外一个国家的字符或乱码。

五、Unicode编码

ISO 组织将全世界的符号进行了统一,称之为Unicode编码。

“中”这个符号,在全世界都是16进制的 4e2d。如果所有的计算机都使用Unicode编码,则"中"这个字,在全世界上的计算机上都能显示为"中"，Unicode 编码的字符占用两个字节大小,对于AC11 码所表示的字符,只是简单地在AS11码原来占用的一个字节的前面,增中一个所有bits为0的字节, 它表示的字符的个数不会超过65535 ,实际上,它还保留了2000多个数值没有用于编码。

unicode 一统天下的局面还没有形成,在相当长时间内,本地化字符编码将与Unicode编码共存

java中的字符使用的都是Unicode编码。

java在通过Unicode保证跨平台的特性前提下,也支持本地平台字符集。

六、UTF-8

在java语言和其他程序的开发过程中.特别是XML 还涉及到UTF-8 UTF-16。广义上的unicode也包含 UTF8 和utf-16

UTF-8

--ASC11码字符保持原样,伋然只占用一个字节。

--对于其他国家的字符,UTF-8 使用2个或三个字节来表示。

--使用utf-8 编码的文件,通常都要用 EF BB BF 作为文件开头的三个字节数据。

七、UTF-8和unicode编码之间的转换规则

-- 0001-007f (一个字节)

0xxxxxx

-- 0000或其泛围在 0080 到 07ff之间的字符,

110xxxxx 10xxxxxx (11个有效bit位) (0080-07ff之间)一个unicode有16位，实际上只有11个有效位,其余都是标志。

-- 0800 到 ffff 之间的字符,1110xxxx 10xxxxxx 10xxxxxx (16比特有效位)，软件很容易根据UTF-8 编码中那些固定不变的bit值,来确定一个字符占用的是一个字节,还是两个字节,还是三个字节。

八、UTF-8的优点

-- 不出现ox00 (在c语言中,\0 代表符串的结束结束标志，说明已经到了字符串的末尾)unicode 中对于ACS11 字符,它都要占用两个字节,增加一个内容为空(0x00)的字节,浪费,而且这个字节,在C语言和其他程序有中特殊的应用。

-- 便于应用程序检查数据在传输中是否发生了错误它可以检查出数据传输过程中是否出现了错误。

-- 直接处理使用ASC11的文档

九、联通,联想和联

在记事本中输入联通联想,联,查看.分别会看到一些错误情况

联通 (或联系) 出现乱码

用ue打开,查看一下16进制，分别是C1AA CDA8 C1AA CFE8 //这些都是用的GB2312编码如果是中,则是D6D0，也就是 C1AA 是联 CDA8 是通CFE8是想。可以用以下方式得到它产的二进制表示：

int x=0xCDA8;
System.out.println(Integer.toBinaryString(x)  );

//11000001 10101010 联 11001101 10101000 通

记事本中的文件,默认是按中文字符集GB2312来存诸的,所以"联"字就被解析成了 1100 0001 1010 1010 ,通字就被存成了 1100 1101 1010 1000, 打开记事本文档的时候,这些二进制形式,恰好都都对应上了 UTF-8 的规则,所以系统就认为这是一个UTF-8 编码的文件就按UTF-8来解释,出现了乱码,解决的方法:保存的时候,直接按utf-8 保存就不会出现了。

十、用程序查看字符的编码

查看中文字符的GB2312 码

查看中文字符的UTF-8 码

查看中文字符的Unicode 码

public static void main(String[] args) throws UnsupportedEncodingException {
          String str="中国";        //查看字符的unicode码,将一个字符转成整数,得到的就是unicode值/*    for(int i=0;i<str.length();i++){
            int unicodeCode=str.charAt(i);
            System.out.println(unicodeCode); // 20013,22269
            
            System.out.println(Integer.toHexString(unicodeCode)); //对应的16进制 4e2d,56fd
        }*///查看字符的gb2312码byte [] buff =str.getBytes("gb2312");        for(int i=0;i<buff.length;i++){
            System.out.println(buff[i]); // -42,-48,   -71,-6System.out.println(Integer.toHexString(buff[i]));  //ffffffd6 ,ffffffd0    ffffffb9,fffffffa        }
    }

以上是Java基础入门之字符编码的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn