首頁  >  文章  >  Java  >  java中GBK轉UTF-8亂碼的解決方法

java中GBK轉UTF-8亂碼的解決方法

angryTom
angryTom原創
2020-02-10 10:53:478427瀏覽

java中GBK轉UTF-8亂碼的解決方法

java中GBK轉UTF-8亂碼的解決方法

如果自己採用的是GBK編碼,對方採用得到是UTF-8編碼,發送資料時需要將GBK編碼資料轉換成UTF-8編碼數據,這樣對方才不會亂碼。

問題出現:GBK轉UTF-8時,奇數個中文會亂碼,偶數個中文不會亂碼。

原因分析:

public static void analyze() throws UnsupportedEncodingException {
String gbk = "我来了";
String utf8 = new String(gbk.getBytes("UTF-8"));
for (byte b : gbk.getBytes("UTF-8")) {
System.out.print(b + " ");
}
System.out.println();
for (byte b : utf8.getBytes()) {
System.out.print(b + " ");
}
}
/*
-26 -120 -111 -26 -99 -91 -28 -70 -122
-26 -120 -111 -26 -99 -91 -28 -70 63 !
*/

注意最後一個位元組不同,上面一行才是正確的UTF-8編碼。那為什麼下面一行最後一個位元組是63,而不是-122呢?這就是造成亂碼的原因所在。

GBK編碼是一個中文2個字節,而UTF-8編碼是一個中文3個字節,當我們呼叫getBytes("UTF-8")方法時,會透過計算來增加位元組,使得從GBK的2個位元組變成UTF-8對應的3個位元組。因此,上例3個中文輸出了9個位元組。

(相關影片教學分享:java影片教學

解決問題

保證位元組正確才是硬道理。當呼叫getBytes("UTF-8")轉換成位元組數組後,建立ISO-8859-1編碼的字串,ISO-8859-1編碼是一個位元組對應一個字符,因此不會使最後一個位元組錯誤。

public static void correctEncode() throws UnsupportedEncodingException {
String gbk = "我来了";
String iso = new String(gbk.getBytes("UTF-8"),"ISO-8859-1");
for (byte b : iso.getBytes("ISO-8859-1")) {
System.out.print(b + " ");
}
System.out.println();
//模拟UTF-8编码的网站显示
System.out.println(new String(iso.getBytes("ISO-8859-1"),"UTF-8"));
}
/*
-26 -120 -111 -26 -99 -91 -28 -70 -122
我来了
*/

以上是java中GBK轉UTF-8亂碼的解決方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn