在正常javaweb開發中常會發現字元轉換的需求,會存在中文字符轉換亂碼的現象,如何解決以及其轉換原理我至今懵懵懂懂,於是專門寫了個測試代碼進行嘗試,總算理清了編碼,先上結論,總結如下:
utf8中存放有各種語言編碼,目前主流開發中會使用utf8進行編碼解碼,該方式不會產生亂碼,產生亂碼有以下幾種情況
1、gbk(中文)、 iso-8859-1(無中文)等其他方式進行編碼,則只能以其對應方式進行解碼,否則為亂碼
2、使用utf8編碼用其他方式解碼則會導致亂碼,需進行一次轉換
3、使用無對應字元(中文)的字元集(iso-8859-1)編碼會導致亂碼,且無法還原解碼
1.如何編碼就如何解碼
/** * 测试编码转换 中文 => utf-8 编码 - 解码 */ @Test public void test0() { String test = "测试"; System.out.println(Arrays.toString(test.getBytes(StandardCharsets.UTF_8)));//[-26, -75, -117, -24, -81, -107] System.out.println(new String(test.getBytes(StandardCharsets.UTF_8), StandardCharsets.UTF_8));//测试 }
/** * 测试编码转换 中文 => gbk 编码 - 解码 */ @Test public void test1() throws UnsupportedEncodingException { String test = "测试"; System.out.println(Arrays.toString(test.getBytes("gbk")));//[-78, -30, -54, -44] System.out.println(new String(test.getBytes("gbk"), "GBK"));//测试 }
utf8編碼-錯誤形式解碼
#/** * 测试编码转换 中文 => utf-8 编码- gbk解码 */ @Test public void test2() throws UnsupportedEncodingException { String test = "测试"; System.out.println(Arrays.toString(test.getBytes(StandardCharsets.UTF_8)));//[-26, -75, -117, -24, -81, -107] System.out.println(new String(test.getBytes(StandardCharsets.UTF_8), "gbk"));//娴嬭瘯 }
正確做法,按錯誤的解碼形式(gbk)作為中轉,將其按錯誤形式(gbk)重新還原編碼(utf8-encode),再使用utf8進行一次正確解碼(utf8-decode)即可得到原來的字元
/** * 测试编码转换 中文 => utf-8 编码 - gbk 解码 ===> gbk 编码 - utf-8解码 * "测试" => (utf8-encode)[-26, -75, -117, -24, -81, -107] => (gbk-decode)娴嬭瘯 * "娴嬭瘯" => (utf8-encode)[-26, -75, -117, -24, -81, -107] => (utf8-decode)"测试" */ @Test public void test3() throws UnsupportedEncodingException { String test = "测试"; String test_gbk_utf8 = new String(test.getBytes(StandardCharsets.UTF_8), "gbk"); System.out.println(test_gbk_utf8);//娴嬭瘯 String test_utf8_gbk = new String(test_gbk_utf8.getBytes("gbk"), StandardCharsets.UTF_8); System.out.println(test_utf8_gbk);//测试 }
3.無對應字元編碼
@Test public void test4() throws UnsupportedEncodingException { String test = "测试"; System.out.println(Arrays.toString(test.getBytes(StandardCharsets.ISO_8859_1)));//[63, 63] System.out.println(new String(test.getBytes(StandardCharsets.ISO_8859_1), StandardCharsets.ISO_8859_1));//?? }
該情況下即使使用原先的編碼方式進行解碼也無法還原字元了,屬於不可逆的狀態
下面這行代碼的含義是: 獲取目標字符串str的gbk編碼格式的二進制碼,然後將二進制碼按照utf8編碼格式重新編碼成字串,當然,下面這種寫法百分百會亂碼,因為編碼格式不一致.
new String(str.getBytes("gbk"),"utf8")
如果要傳輸一個字串,首先要按照一定的編碼格式將字串轉換成字節流,當字節流傳輸到接收方的時候再將字節流按照某種編碼格式轉換成字符串.亂碼也正是產生在重新轉換成字串的過程中.以下是我對中文亂碼的測試:
String str="彩虹"; String [] a=new String[] {"gbk","unicode","utf8","gb2312"}; for (int i=0;i<a.length;i++){ for (int j=0;j<a.length;j++){ System.out.println("二进制格式: "+a[i]+"编码格式: "+a[j]); System.out.println("编码后的字符串: "+new String(str.getBytes(a[i]),a[j])); } }
二進位格式: gbk編碼格式: gbk
#可以看出,如果二進位編碼格式和字串的編碼格式不同就會造成亂碼.
編碼後的字串: 彩虹
二進位格式: gbk編碼格式: unicode
編碼後的字串: 닊뫧
二進位格式: gbk編碼格式: utf8
編碼後的字串: �ʺ�
#二進位格式: gbk gb2312
編碼後的字符串: 彩虹
二進制格式: unicode編碼格式: gbk
編碼後的字符串: �_i嗊
二進制格式: unicode編碼格式: unicode
編碼後的字串: 彩虹
二進位格式: unicode編碼格式: utf8
編碼後的字串: ��_i�y
二進位格式: unicode編碼格式: gb2312
編碼後的字串: ��_i�y
二進位格式: utf8編碼格式: gbk
編碼後的字串: 褰╄櫣
二進位格式: utf8編碼格式: unicode
編碼後的字串: 馹
二進位格式: utf8編碼格式: utf8
編碼後的字串: 彩虹
二進位格式: utf8編碼格式: gb2312
編碼後的字串: �# ╄制格式: gb2312編碼格式: gbk
編碼後的字串: 彩虹
二進位格式: gb2312編碼格式: unicode
編碼後的字串: 닊뫧
二進位格式: ##編碼後的字串: �ʺ�
二進位格式: gb2312編碼格式: gb2312
編碼後的字串: 彩虹
為什麼gbk,gb2312轉換沒有亂碼?
亂碼的資料可以轉變回來嗎?
如果希望恢復的亂碼資料中有問號,那麼這條資料恢復的可能性就不大了.因為除了"?"的其他亂碼其實都是有自己的編碼規則的,只要逆向的解碼並按照正確的編碼格式重新編碼就可以恢復.但是"?"除外,因為當位元組流按照某種編碼格式重新編譯的時候,位元組資料中無法按照該編碼格式轉換成有意義字元的位元組都會轉換成"?",所以就算逆向的編碼成位元組流,所有的"?"都會轉換成同一位元組,也就失去了他本身的意義.
如果乱码中不包含"?",那么还是有希望转换回去的,我以上述乱码中的 "褰╄櫣" 为例重新进行了一次转换,代码如下:
String str="褰╄櫣"; String [] charset=new String[] {"gbk","unicode","utf8","gb2312"}; for (int i=0;i<charset.length;i++){ for (int j=0;j<charset.length;j++){ System.out.println("二进制格式: "+charset[i]+"编码格式: "+charset[j]); System.out.println("编码后的字符串: "+new String(str.getBytes(charset[i]),charset[j])); } }
二进制格式: gbk编码格式: gbk
编码后的字符串: 褰╄櫣
二进制格式: gbk编码格式: unicode
编码后的字符串: ꧨ馹
二进制格式: gbk编码格式: utf8
编码后的字符串: 彩虹
二进制格式: gbk编码格式: gb2312
编码后的字符串: 褰╄��
二进制格式: unicode编码格式: gbk
编码后的字符串: ��0%Dj�
二进制格式: unicode编码格式: unicode
编码后的字符串: 褰╄櫣
二进制格式: unicode编码格式: utf8
编码后的字符串: ���0%Dj�
二进制格式: unicode编码格式: gb2312
编码后的字符串: ���0%Dj�
二进制格式: utf8编码格式: gbk
编码后的字符串: 瑜扳晞娅�
二进制格式: utf8编码格式: unicode
编码后的字符串: 냢閄�
二进制格式: utf8编码格式: utf8
编码后的字符串: 褰╄櫣
二进制格式: utf8编码格式: gb2312
编码后的字符串: 瑜扳��娅�
二进制格式: gb2312编码格式: gbk
编码后的字符串: 褰╄?
二进制格式: gb2312编码格式: unicode
编码后的字符串: ꧨ�
二进制格式: gb2312编码格式: utf8
编码后的字符串: 彩�?
二进制格式: gb2312编码格式: gb2312
编码后的字符串: 褰╄?
可以看到 其中一种转换方式成功的将乱码转变回了正常的中文汉字
二进制格式: gbk编码格式: utf8
编码后的字符串: 彩虹
以上是java編碼轉換過程是怎麼樣的的詳細內容。更多資訊請關注PHP中文網其他相關文章!