.NET (C#) で中国語でエンコードされたファイルを正しく読み取るためのチュートリアルの例-C#.Net チュートリアル-php.cn

ホームページ

バックエンド開発

C#.Net チュートリアル

.NET (C#) で中国語でエンコードされたファイルを正しく読み取るためのチュートリアルの例

Y2J

Apr 24, 2017 pm 04:56 PM

.netc#

まず、読者がエンコードや BOM に詳しくない場合は、まずこの記事を読むことをお勧めします: .NET (C#): 文字エンコーディング (エンコーディング) とバイトオーダーマーク (BOM)。
中国語エンコーディングは基本的に 2 つのカテゴリに分類できます:
1. GBK、GB2312、GB18030 などの ANSI エンコーディングの拡張セット。このタイプのエンコーディング (GB18030 などのいくつかの新しい標準中国語エンコーディング) には BOM はありません。および GBK エンコーディングは、GB2312 エンコーディングと将来互換性があります)。
2. Unicode エンコーディングセット: UTF-8、UTF-16、UTF-32 など。このタイプのコーディングには、BOM があってもなくてもかまいません。
3. 一部の Unicode エンコーディングには、いわゆるリトルエンディアンとビッグエンディアンという特定のバイト順序の問題もあります (UTF16 など)。ただし、UTF8 にはバイト順序の問題がありません。

基本的な知識を理解したら、中国語のテキストファイルを正しく開く方法のトピックに戻りましょう。確認する必要がある最初の情報は、Unicode でエンコードされたファイルに BOM が含まれているかどうかです。

BOM が含まれていれば、すべてを言うのは簡単です! BOM を見つければ、その特定のエンコーディングが分かるからです。 BOM が見つからない場合は、Unicode ではありません。システムのデフォルトの ANSI 拡張中国語エンコーディングセットを使用してテキストファイルを開くと問題ありません。
そして、Unicode エンコードに BOM がない場合 (ユーザーから提供されたすべての Unicode ファイルに BOM があることは保証できません)、元のバイトから GBK かどうかを手動で判断する必要があります。それともUTF8でしょうか？それとも他のエンコーディングでしょうか？。これには、特定のエンコード検出アルゴリズムが必要です (「charset|encoding detect」で検索できます)。もちろん、エンコード検出アルゴリズムは 100% 正確ではない可能性があります。だからこそ、Windows メモ帳は事実のバグを隠しました。 ChromeでWebを閲覧していると文字化けが発生することもあります。個人的には、Notepad++ のコーディング認識は非常に正確であると感じています。
このプロジェクトのようなコーディング認識アルゴリズムは多数あります: https://code.google.com/p/ude

Unicode に BOM が付属している場合、サードパーティのライブラリは必要ありません。ただし、説明しなければならないことがいくつかあります。

問題は、.NET のテキスト読み取りメソッド (File クラスと StreamReader) がデフォルトで UTF8 エンコーディングで読み取ることです。そのため、そのような GBK テキストファイルは (エンコーディングが指定されていない場合) .NET で直接開かれ、結果は間違いなく文字化けする！

まず第一に、ここでの最も効果的な解決策は、システムのデフォルトの ANSI 拡張エンコーディングを使用することです。これは、テキストを読み取るためのシステムのデフォルトの非 Unicode エンコーディングです。参照コード:

//输出系统默认非Unicode编码Console.WriteLine(Encoding.Default.EncodingName);//使用系统默认非Unicode编码来打开文件var fileContent = File.ReadAllText("C:\test.txt", Encoding.Default);

簡体字中国語 Windows システムでは、出力されるはずです。 :

簡体字中国語 (GB2312)...

そして、この方法の使用は簡体字中国語に限定されません。

もちろん、GBK エンコーディングなどのエンコーディングを手動で指定することもできますが、指定した GBK エンコーディングを使用して Unicode ファイルを開く場合でも、ファイルは正常に開かれますか?答えはまだ成功しています。その理由は、.NET はファイルを開くときにデフォルトで BOM を自動的に検出し、BOM に基づいて取得したエンコーディングを使用してファイルを開くためです。BOM がない場合は、ユーザーが指定したエンコーディング領域でファイルが開かれます。ユーザーがエンコードを指定しない場合は、UTF8 エンコードが使用されます。

この「BOM を自動的に認識する」パラメーターは、detectEncodingFromByteOrderMarks パラメーターに対応する StreamReader のコンストラクターで設定できます。

ただし、Fileクラスの対応するメソッドには設定できません。 (例: File.ReadAllText)。

たとえば、次のコードは次を使用します:

GB2312 エンコード、GB2312 テキストを読み取るために BOM を自動的に認識

GB2312 エンコード、Unicode テキストを読み取るために BOM を自動的に認識

GB2312 エンコード、Unicode テキストを読み取るために BOM を認識しない

static void Main(){    var gb2312 = Encoding.GetEncoding("GB2312");    //用GB2312编码，自动觉察BOM 来读取GB2312文本    ReadFile("gbk.txt", gb2312, true);    //用GB2312编码，自动觉察BOM 来读取Unicode文本    ReadFile("unicode.txt", gb2312, true);    //用GB2312编码，不觉察BOM 来读取Unicode文本    ReadFile("unicode.txt", gb2312, false);}//通过StreamReader读取文本 static void ReadFile(string path, Encoding enc, bool detectEncodingFromByteOrderMarks){    StreamReader sr;    using (sr = new StreamReader(path, enc, detectEncodingFromByteOrderMarks))    {        Console.WriteLine(sr.ReadToEnd());    }}

出力:

a刘a刘???

3行目が文字化けしています。

上記を見ると、GB2312 エンコードを使用して Unicode ファイルを開くことも成功します。 [BOM を自動的に検出する] パラメーターが True であるため、ファイルに BOM があることが判明すると、.NET は BOM を通じてそのファイルが Unicode ファイルであることを検出し、Unicode を使用してファイルを開きます。もちろん、BOM がない場合は、指定されたエンコードパラメータを使用してファイルが開きます。 GB2312 エンコードされたテキストの場合、明らかに BOM がないため、GB2312 エンコードを指定する必要があります。指定しないと、.NET はデフォルトの UTF8 エンコードを使用してファイルを解析し、結果は読み取られません。 3 行目の文字化けは、「BOM を自動的に検出する」が False であるためです。.NET は、指定された GB2312 エンコードを直接使用して、BOM を含む Unicode エンコードされたテキストファイルを読み取りますが、これは明らかに成功しません。

もちろん、BOM がない場合は、テキストを開くためのデフォルトのエンコーディングを指定することもできます。これについては、以前の記事 (.NET (C#): ファイルからのエンコーディング検出) に書きました。

コード:

static void Main(){    PrintText("gb2312.txt");    PrintText("unicode.txt");}//根据文件自动觉察编码并输出内容static void PrintText(string path){    var enc = GetEncoding(path, Encoding.GetEncoding("GB2312"));    using (var sr = new StreamReader(path, enc))    {        Console.WriteLine(sr.ReadToEnd());    }}/// <summary>/// 根据文件尝试返回字符编码/// </summary>/// <param name="file">文件路径</param>/// <param name="defEnc">没有BOM返回的默认编码</param>/// <returns>如果文件无法读取，返回null。否则，返回根据BOM判断的编码或者缺省编码（没有BOM）。</returns>static Encoding GetEncoding(string file, Encoding defEnc){    using (var stream = File.OpenRead(file))    {        //判断流可读？        if (!stream.CanRead)            return null;        //字节数组存储BOM        var bom = new byte[4];        //实际读入的长度        int readc;        readc = stream.Read(bom, 0, 4);        if (readc >= 2)        {            if (readc >= 4)            {                //UTF32，Big-Endian                if (CheckBytes(bom, 4, 0x00, 0x00, 0xFE, 0xFF))                    return new UTF32Encoding(true, true);                //UTF32，Little-Endian                if (CheckBytes(bom, 4, 0xFF, 0xFE, 0x00, 0x00))                    return new UTF32Encoding(false, true);            }            //UTF8            if (readc >= 3 && CheckBytes(bom, 3, 0xEF, 0xBB, 0xBF))                return new UTF8Encoding(true);            //UTF16，Big-Endian            if (CheckBytes(bom, 2, 0xFE, 0xFF))                return new UnicodeEncoding(true, true);            //UTF16，Little-Endian            if (CheckBytes(bom, 2, 0xFF, 0xFE))                return new UnicodeEncoding(false, true);        }        return defEnc;    }}//辅助函数，判断字节中的值static bool CheckBytes(byte[] bytes, int count, params int[] values){    for (int i = 0; i < count; i++)        if (bytes[i] != values[i])            return false;    return true;}

上記のコードでは、Unicode テキストの場合、GetEncoding メソッドは UTF16 エンコーディングを返します (より具体的には、BOM に従ってビッグエンディアンまたはリトルエンディアンの UTF16 エンコーディングも返します)。一方、BOM のないファイルは、デフォルト値 GB2312 エンコーディング。

.NET(C#): ファイルからエンコーディングを検出

.NET(C#): 文字エンコーディング (Encoding) とバイトオーダーマーク (BOM)

.NET(C#): System Text を使用します。「ストリーミングテキスト」を処理するデコーダークラス

.NET (C#): アセンブリマニフェストリソースと RESX リソースについての簡単な説明

以上が.NET (C#) で中国語でエンコードされたファイルを正しく読み取るためのチュートリアルの例の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

C＃と.NET：2つの関係を理解しますApr 17, 2025 am 12:07 AM

C＃と.NETの関係は切り離せませんが、同じものではありません。 C＃はプログラミング言語であり、.NETは開発プラットフォームです。 C＃は、コードの書き込み、.NETの中間言語（IL）にコンパイルされ、.NET Runtime（CLR）によって実行されるために使用されます。

C＃.NETは、複数のアプリケーション開発をサポートする強力なツールとライブラリを提供するため、依然として重要です。 1）C＃は.NETフレームワークを組み合わせて、開発を効率的かつ便利にします。 2）C＃のタイプの安全性とゴミ収集メカニズムは、その利点を高めます。 3）.NETは、クロスプラットフォームの実行環境とリッチAPIを提供し、開発の柔軟性を向上させます。

Webからデスクトップまで：C＃.NETの汎用性Apr 15, 2025 am 12:07 AM

c＃.netisversatileforbothwebanddesktopdevelopment.1）forweb、useasp.netfordynamicapplications.2）fordesktop、equindowsorwpfforrichinterfaces.3）usexamarinforcross-platformdeveliment、enabling deshacrosswindows、

c＃.net and the Future：新しいテクノロジーへの適応Apr 14, 2025 am 12:06 AM

C＃と.NETは、継続的な更新と最適化を通じて、新しいテクノロジーのニーズに適応します。 1）C＃9.0および.NET5は、レコードタイプとパフォーマンスの最適化を導入します。 2）.Netcoreは、クラウドネイティブおよびコンテナ化されたサポートを強化します。 3）ASP.Netcoreは、最新のWebテクノロジーと統合されています。 4）ML.NETは、機械学習と人工知能をサポートしています。 5）非同期プログラミングとベストプラクティスはパフォーマンスを改善します。

c＃.netはあなたにぴったりですか？その適用性の評価Apr 13, 2025 am 12:03 AM

c＃.netissuitableforenterprise-levelApplicationsとsystemduetoitsSystemdutyping、richlibraries、androbustperformance.

.NET内のC＃コード：プログラミングプロセスの調査Apr 12, 2025 am 12:02 AM

.NETでのC＃のプログラミングプロセスには、次の手順が含まれます。1）C＃コードの作成、2）中間言語（IL）にコンパイルし、3）.NETランタイム（CLR）によって実行される。 .NETのC＃の利点は、デスクトップアプリケーションからWebサービスまでのさまざまな開発シナリオに適した、最新の構文、強力なタイプシステム、および.NETフレームワークとの緊密な統合です。

C＃.NET：コアの概念とプログラミングの基礎を探るApr 10, 2025 am 09:32 AM

C＃は、Microsoftによって開発された最新のオブジェクト指向プログラミング言語であり、.NETフレームワークの一部として開発されています。 1.C＃は、カプセル化、継承、多型を含むオブジェクト指向プログラミング（OOP）をサポートしています。 2。C＃の非同期プログラミングは非同期を通じて実装され、適用応答性を向上させるためにキーワードを待ちます。 3. LINQを使用してデータ収集を簡潔に処理します。 4.一般的なエラーには、null参照の例外と、範囲外の例外インデックスが含まれます。デバッグスキルには、デバッガーと例外処理の使用が含まれます。 5.パフォーマンスの最適化には、StringBuilderの使用と、不必要な梱包とボクシングの回避が含まれます。

テストC＃.NETアプリケーション：ユニット、統合、およびエンドツーエンドテストApr 09, 2025 am 12:04 AM

C＃.NETアプリケーションのテスト戦略には、ユニットテスト、統合テスト、エンドツーエンドテストが含まれます。 1.単位テストにより、コードの最小ユニットがMSTEST、ヌニット、またはXUNITフレームワークを使用して独立して動作することを保証します。 2。統合テストでは、一般的に使用されるシミュレートされたデータと外部サービスを組み合わせた複数のユニットの機能を検証します。 3.エンドツーエンドのテストでは、ユーザーの完全な操作プロセスをシミュレートし、通常、セレンは自動テストに使用されます。

See all articles