この記事では、ファイル作成時のエンコーディングを指定するJavaの実装方法を中心に、サンプルコードを交えて詳しく紹介するjavaに関する知識を提供するので、どなたにも役立ちます。勉強や仕事をする上で参考になる内容ですので、皆様のお役に立てれば幸いです。
推奨学習: 「java ビデオ チュートリアル 」
前書き: 最近、Java IO ストリームに関する知識を学びました。文書を読んだり書いたりすることで、学んだ知識を練習して定着させたいと考えています。 File クラスを使用してファイルを作成するときに、ファイルで使用されるエンコーディングをどのように指定すればよいのかをふと考えました。そこで、ファイルのエンコードを確認するにはどうすればよいのかと考えました。
まず、インターネットにアクセスして答えを見つけます。結果は次のとおりです:
FileInputStream fis=new FileInputStream(“xxxx.txt”); OutputStreamWriter osw=new OutputStreamWriter(fis,“UTF-8”);
上記のコードは、おそらく、ファイルを書き込むときに、 UTF-8で書かれた文字が思っていたものと違うので、ファイル作成時にエンコードを指定したい。以下のように、
File myfile = new File("test.txt”, “UTF-8”); if (!myfile.exists()) myfile.createNewFile();
そこで、Java API 8 の公式ドキュメントを確認してみました。 ファイルには、文字エンコーディングを指定できるコンストラクターが提供されていません。
同時に、set や get などの文字エンコーディングにアクセスする他のメソッドは提供されていません。これは、文字エンコーディングがファイルの固有のプロパティではないことを示しています。 。ファイルの作成時間、ファイルの変更時間、読み取り可能、書き込み可能、実行可能かどうかなど、これらはファイルの固有の属性、またはメタ情報であり、ファイルの一部です。
コンピュータに保存されている情報はすべて 01 の文字列であり、テキストも例外ではありません。
文字の処理には 2 つのプロセスが含まれます。 エンコードとデコード
エンコード: 文字を 01 文字列に「マッピング」します。
デコード: 01文字列は文字
に「マップ」されます。GBK や UTF-8 などの文字エンコードが異なると、エンコードとデコードに異なるルールが使用されます。
同じテキスト文字列: 「中国」の場合、UTF-8 エンコーディングを使用して保存します。通常、中国語の文字 (基になる 01 文字列の 16 進数形式) を保存するには 3 バイトが使用されます。
GBK エンコードを使用して保存し、中国語の文字を表す 2 バイトを使用します。
テキスト エディターでテキストを作成して保存すると、エディターは設定した文字エンコード タイプに従ってテキストを 01 文字列に「マッピング」します。
設定した文字タイプは、エディタがテキストを 10 個の文字列にエンコードするための単なる変換ルールであり、テキストの属性ではありません。
エディターがテキスト ファイルを開くと、基になる 01 文字列ではなくテキストが表示されます。これは、エディターが特定のテキスト エンコーディングを使用して 01 文字列を文字にデコードするためです。デコード時に使用される文字エンコードが一貫しているか、そのエンコードと互換性がある場合、テキストは正しく表示されます。デコード時の文字エンコーディングが一致していない、またはエンコーディングと互換性がない場合、文字化けが発生します。
たとえば、GBK エンコードを使用したテキスト ファイルがあります。内容は「明るい月はいつ出ますか」というものです。
# #私は VS コード (Microsoft の非常に使いやすいテキスト エディタ) を使用してファイルを開きます。用語的には、ファイルをデコードすることです。使用されるデフォルトのテキストエンコーディングは UTF-8 であり、デコーディングも同じです。ただし、テキストの最下層は GBK でエンコードされた 01 文字列 (2 バイトと 1 文字) であるため、UTF-8 を使用して 01 文字列をデコードすると、エンコードとデコードの不一致により必然的に文字化けが発生します。このとき、対応する GBK エンコードを手動で選択している限り、デコードされたファイルは文字化けしません。 文字化けは、文字エンコーディングがファイル の固有の属性ではないことを側面から示しています。
私はこの点を説明するためだけにこれまで多くのことを話しました:文字エンコーディングはデコードおよびエンコード時に使用されるルールであり、ファイルの固有の属性ではありません。
なぜファイル属性の一部として文字エンコーディングを設定しなかったのか疑問に思わずにはいられません。GBK に設定して設定できると仮定すると、オペレーティング システムはその機能を維持する必要があります。ファイルが書き込みできないのと同じように、プログラムがファイルに書き込もうとすると、オペレーティング システムは書き込みを拒否します。オペレーティング システムが書き込む必要があるバイトは GBK エンコード要件を満たしている必要があります。その後、バイトが書き込まれるたびに、オペレーティング システムが一部の特殊なバイトは GBK または UTF-8 のいずれかを表す可能性があり、曖昧であるため、バイトの正当性のチェックには非常に大きなパフォーマンス オーバーヘッドが必要であり、実装すら不可能です。さて、これを行う意味は何でしょうか? ファイルを開くときにエディターがエンコードのプロパティに基づいて正しいエンコードを選択できるようにするためでしょうか?スマートなエディターは、コンテンツの最初の数バイトに基づいて、01 文字列が使用するエンコーディングを推測できます。また、デコードに使用する文字エンコードを手動で設定することもできます。
ファイル作成時にファイルのエンコーディングを指定できません。テキストをファイルに書き込むとき (たとえば、テキスト エディターの Ctrl S を押して保存します。これは基本的に書き込み操作を実行します)、テキストを 01 文字列のエンコード ルールに変換することを選択できます。
FileInputStream fis=new FileInputStream(“xxxx.txt”); OutputStreamWriter osw=new OutputStreamWriter(fis,“UTF-8”);推奨学習: "
java ビデオ チュートリアル "
以上がファイル作成時にエンコーディングを指定するJava実装方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。