首頁 >Java >java教程 >java中GBK轉UTF-8亂碼的解決方法

java中GBK轉UTF-8亂碼的解決方法

angryTom原創: 2020-02-10 10:53:478637瀏覽

java中GBK轉UTF-8亂碼的解決方法

如果自己採用的是GBK編碼，對方採用得到是UTF-8編碼，發送資料時需要將GBK編碼資料轉換成UTF-8編碼數據，這樣對方才不會亂碼。

問題出現：GBK轉UTF-8時，奇數個中文會亂碼，偶數個中文不會亂碼。

原因分析：

public static void analyze() throws UnsupportedEncodingException {
String gbk = "我来了";
String utf8 = new String(gbk.getBytes("UTF-8"));
for (byte b : gbk.getBytes("UTF-8")) {
System.out.print(b + " ");
}
System.out.println();
for (byte b : utf8.getBytes()) {
System.out.print(b + " ");
}
}
/*
-26 -120 -111 -26 -99 -91 -28 -70 -122
-26 -120 -111 -26 -99 -91 -28 -70 63 !
*/

注意最後一個位元組不同，上面一行才是正確的UTF-8編碼。那為什麼下面一行最後一個位元組是63，而不是-122呢？這就是造成亂碼的原因所在。

GBK編碼是一個中文2個字節，而UTF-8編碼是一個中文3個字節，當我們呼叫getBytes("UTF-8")方法時，會透過計算來增加位元組，使得從GBK的2個位元組變成UTF-8對應的3個位元組。因此，上例3個中文輸出了9個位元組。

（相關影片教學分享：java影片教學）

解決問題

保證位元組正確才是硬道理。當呼叫getBytes("UTF-8")轉換成位元組數組後，建立ISO-8859-1編碼的字串，ISO-8859-1編碼是一個位元組對應一個字符，因此不會使最後一個位元組錯誤。

public static void correctEncode() throws UnsupportedEncodingException {
String gbk = "我来了";
String iso = new String(gbk.getBytes("UTF-8"),"ISO-8859-1");
for (byte b : iso.getBytes("ISO-8859-1")) {
System.out.print(b + " ");
}
System.out.println();
//模拟UTF-8编码的网站显示
System.out.println(new String(iso.getBytes("ISO-8859-1"),"UTF-8"));
}
/*
-26 -120 -111 -26 -99 -91 -28 -70 -122
我来了
*/

以上是java中GBK轉UTF-8亂碼的解決方法的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述：

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

上一篇：java如何開啟本機html文件下一篇：java如何開啟本機html文件

看更多