搜索
首页JavaJava基础java出现乱码的原因与解决方法详解

java出现乱码的原因与解决方法详解

Nov 28, 2019 am 10:11 AM
java乱码

java出现乱码的原因与解决方法详解

java在字符串中统一用Unicode表示。(推荐:java视频教程

对于任意一个字符串:String string = “测试字符串”;

如果源文件是GBK编码,操作系统默认环境编码也为GBK,那么编译的时候,JVM将按照GBK编码将字节数组解析为字符,然后将字符转换为Unicode格式的字节数组,作为内部存储(字节数组→字符→Unicode字节数组)

当打印这个字符串时,JVM根据操作系统本地的语言环境,将Unicode转换为GBK,然后操作系统将GBK格式的内容显示出来。

当源码文件是UTF-8, 我们需要通知编译器源码的格式,javac -encoding utf-8 … , 编译时,JVM按照utf-8 解析成字符,然后转换为unicode格式的字节数组, 那么不论源码文件是什么格式,同样的字符串,最后得到的unicode字节数组是完全一致的,显示的时候,也是转成GBK来显示(跟OS环境有关)

乱码是如何产生的?

本质上都是由于字符串原本的编码格式与读取时解析用的编码格式不一致导致的。

乱码指的是程序显示出来的字符文本无法用任何语言去解读。一般情况下会包含大量的?。乱码问题是所有计算机用户或多或少会遇到的问题。

造成乱码的原因就是因为使用了错误的字符编码去解码字节流,因此当我们在思考任何跟文本显示有关的问题时,请时刻保持清醒:当前使用的字符编码是什么。只有这样,我们才能正确分析和处理乱码问题。

例如最常见的网页乱码问题。如果你是网站技术人员,遇到这样的问题,需要检查以下原因:

1、服务器返回的响应头Content-Type没有指明字符编码

2、网页内是否使用META HTTP-EQUIV标签指定了字符编码

3、网页文件本身存储时使用的字符编码和网页声明的字符编码是否一致

java代码中的乱码问题如何解决呢?

例如:String s = “测试字符串”;

System.out.println( new String(s.getBytes(),"UTF-8")); 
//错误,因为getBytes()默认使用GBK编码, 而解析时使用UTF-8编码,肯定出错。

其中getBytes()是将Unicode转换为操作系统默认格式的字节数组,即“测试字符串”的GBK格式,new String (bytes, Charset) 中的charset 是指定读取byte的方式,这里指定为UTF-8,即把bytes的内容当做UTF-8来读取。

如下两种方式得到的结果都是正确的,因为它们的源内容编码和解析用的编码是一致的。

System.out.println( new String(s.getBytes(),"GBK"));
System.out.println( new String(s.getBytes("UTF-8"),"UTF-8"));

那么,如何利用getBytes 和 new String() 来进行编码转换呢?

网上流传着一种错误的方法:

GBK--> UTF-8: new String( s.getBytes("GBK") , "UTF-8);

这种方式是完全错误的,因为getBytes 的编码与 UTF-8 不一致,肯定是乱码。

但是为什么在tomcat 下,使用 new String(s.getBytes(“iso-8859-1”) ,”GBK”) 却可以用呢?

答案是:

tomcat 默认使用iso-8859-1编码, 也就是说,如果原本字符串是GBK的,tomcat传输过程中,将GBK转成iso-8859-1了,默认情况下,使用iso-8859-1读取中文肯定是有问题的。

那么我们需要将iso-8859-1 再转成GBK, 而iso-8859-1 是单字节编码的,即他认为一个字节是一个字符, 那么这种转换不会对原来的字节数组做任何改变,因为字节数组本来就是由单个字节组成的。

如果之前用GBK编码,那么转成iso-8859-1后编码内容完全没变, 则 s.getBytes(“iso-8859-1”) 实际上还是原来GBK的编码内容则 new String(s.getBytes(“iso-8859-1”) ,”GBK”) 就可以正确解码了。 所以说这是一种巧合。

如何正确的将GBK转UTF-8 ? (实际上是unicode转UTF-8)

//利用getBytes将unicode字符串转成UTF-8格式的字节数组,然后用utf-8 对这个字节数组解码成新的字符串
new String( s.getBytes("utf-8") , "utf-8");

UTF-8 转GBK原理也是一样
new String( s.getBytes("GBK") , "GBK");

其实核心工作都由getBytes(charset)做了。getBytes的JDK描述:Encoding this String into a sequence of bytes using the named charset,storing the result into a new byte array.

OutputStreamWriter w1 = new OutputStreamWriter(new FileOutputStream("D:\\file1.txt"),"UTF-8");
InputStreamReader( stream, charset)

可以帮助我们轻松的按照指定编码读写文件。

附录:
HttpClient post请求中文乱码问题解决

最近接到现场同事反馈,在掉接口的过程中,厂家收到的请求报文中文是乱码的。我检查了版控的代码,找到如下解决办法:

原始代码(中文乱码):

HttpPost httpPost = new HttpPost(url);
DefaultHttpClient httpClient = new DefaultHttpClient();
//请求头
httpPost.setHeader("Accept", MediaType.APPLICATION_JSON);
httpPost.setHeader("Content-Type", "application/json;charset=UTF-8");
//请求实体
StringEntity reqEntity = new StringEntity(reqStr);
httpPost.setEntity(reqEntity);
//获取响应
HttpResponse httpResp = httpClient.execute(httpPost);
HttpEntity respEntity = httpResp.getEntity();

解决办法:

方法一:
//请求实体
HttpEntity reqEntity = new ByteArrayEntity(reqStr.getBytes("UTF-8"));
//StringEntity reqEntity = new StringEntity(reqStr);
httpPost.setEntity(reqEntity);

方法二:
//请求实体
StringEntity reqEntity = new StringEntity(reqStr,Charset.forName("UTF-8"));
httpPost.setEntity(reqEntity);

更多java知识请关注java基础教程栏目。

以上是java出现乱码的原因与解决方法详解的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
Java中有哪些不同的垃圾收集算法(串行,并行,CMS,G1,ZGC)?Java中有哪些不同的垃圾收集算法(串行,并行,CMS,G1,ZGC)?Mar 14, 2025 pm 05:06 PM

本文讨论了各种Java垃圾收集算法(串行,并行,CMS,G1,ZGC),它们的性能影响和适合大量堆的应用。

什么是Java虚拟机(JVM),它在内部如何工作?什么是Java虚拟机(JVM),它在内部如何工作?Mar 14, 2025 pm 05:05 PM

本文讨论了Java虚拟机(JVM),详细介绍了其在不同平台运行Java程序中的作用。它说明了JVM的内部流程,密钥组件,内存管理,垃圾收集和性能Optimizatio

如何使用Java的Nashorn Engine用JavaScript脚本?如何使用Java的Nashorn Engine用JavaScript脚本?Mar 14, 2025 pm 05:00 PM

Java的Nashorn Engine可以在Java应用程序中启用JavaScript脚本。关键步骤包括设置Nashorn,管理脚本和优化性能。主要问题涉及安全性,内存管理和未来兼容性

如何使用Java的Try-with-Resources语句进行自动资源管理?如何使用Java的Try-with-Resources语句进行自动资源管理?Mar 14, 2025 pm 04:59 PM

Java的Try-with-Resources通过自动关闭文件流或数据库连接等资源来简化资源管理,从而提高代码可读性和可维护性。

如何使用Java的枚举来表示固定的值集?如何使用Java的枚举来表示固定的值集?Mar 14, 2025 pm 04:57 PM

Java枚举代表固定的值集,通过自定义方法和构造函数提供类型安全性,可读性和其他功能。它们增强了代码组织,可用于开关语句中以进行有效的价值处理。

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版