ホームページ  >  記事  >  バックエンド開発  >  .NET (C#) で中国語でエンコードされたファイルを正しく読み取るためのチュートリアルの例

.NET (C#) で中国語でエンコードされたファイルを正しく読み取るためのチュートリアルの例

Y2J
Y2Jオリジナル
2017-04-24 16:56:052089ブラウズ

まず、読者がエンコードや BOM に詳しくない場合は、まずこの記事を読むことをお勧めします: .NET (C#): 文字エンコーディング (エンコーディング) とバイト オーダー マーク (BOM)。
中国語エンコーディングは基本的に 2 つのカテゴリに分類できます:
1. GBK、GB2312、GB18030 などの ANSI エンコーディングの拡張セット。このタイプのエンコーディング (GB18030 などのいくつかの新しい標準中国語エンコーディング) には BOM はありません。および GBK エンコーディングは、GB2312 エンコーディングと将来互換性があります)。
2. Unicode エンコーディング セット: UTF-8、UTF-16、UTF-32 など。このタイプのコーディングには、BOM があってもなくてもかまいません。
3. 一部の Unicode エンコーディングには、いわゆるリトル エンディアンとビッグ エンディアンという特定のバイト順序の問題もあります (UTF16 など)。ただし、UTF8 にはバイト順序の問題がありません。

基本的な知識を理解したら、中国語のテキスト ファイルを正しく開く方法のトピックに戻りましょう。確認する必要がある最初の情報は、Unicode でエンコードされたファイルに BOM が含まれているかどうかです。

BOM が含まれていれば、すべてを言うのは簡単です! BOM を見つければ、その特定のエンコーディングが分かるからです。 BOM が見つからない場合は、Unicode ではありません。システムのデフォルトの ANSI 拡張中国語エンコーディング セットを使用してテキスト ファイルを開くと問題ありません。
そして、Unicode エンコードに BOM がない場合 (ユーザーから提供されたすべての Unicode ファイルに BOM があることは保証できません)、元のバイトから GBK かどうかを手動で判断する必要があります。それともUTF8でしょうか?それとも他のエンコーディングでしょうか? 。これには、特定のエンコード検出アルゴリズムが必要です (「charset|encoding detect」で検索できます)。もちろん、エンコード検出アルゴリズムは 100% 正確ではない可能性があります。だからこそ、Windows メモ帳は事実のバグを隠しました。 ChromeでWebを閲覧していると文字化けが発生することもあります。個人的には、Notepad++ のコーディング認識は非常に正確であると感じています。
このプロジェクトのようなコーディング認識アルゴリズムは多数あります: https://code.google.com/p/ude


Unicode に BOM が付属している場合、サードパーティのライブラリは必要ありません。ただし、説明しなければならないことがいくつかあります。

問題は、.NET のテキスト読み取りメソッド (File クラスと StreamReader) がデフォルトで UTF8 エンコーディングで読み取ることです。そのため、そのような GBK テキスト ファイルは (エンコーディングが指定されていない場合) .NET で直接開かれ、結果は間違いなく文字化けする!

まず第一に、ここでの最も効果的な解決策は、システムのデフォルトの ANSI 拡張エンコーディングを使用することです。これは、テキストを読み取るためのシステムのデフォルトの非 Unicode エンコーディングです。 参照コード:

//输出系统默认非Unicode编码Console.WriteLine(Encoding.Default.EncodingName);//使用系统默认非Unicode编码来打开文件var fileContent = File.ReadAllText("C:\test.txt", Encoding.Default);

簡体字中国語 Windows システムでは、出力されるはずです。 :

簡体字中国語 (GB2312)c4e674e240a84e4911288fab8da88983...

そして、この方法の使用は簡体字中国語に限定されません。

もちろん、GBK エンコーディングなどのエンコーディングを手動で指定することもできますが、指定した GBK エンコーディングを使用して Unicode ファイルを開く場合でも、ファイルは正常に開かれますか?答えはまだ成功しています。その理由は、.NET はファイルを開くときにデフォルトで BOM を自動的に検出し、BOM に基づいて取得したエンコーディングを使用してファイルを開くためです。BOM がない場合は、ユーザーが指定したエンコーディング領域でファイルが開かれます。ユーザーがエンコードを指定しない場合は、UTF8 エンコードが使用されます。

この「BOM を自動的に認識する」パラメーターは、detectEncodingFromByteOrderMarks パラメーターに対応する StreamReader のコンストラクターで設定できます。

ただし、Fileクラスの対応するメソッドには設定できません。 (例: File.ReadAllText)。

たとえば、次のコードは次を使用します:

GB2312 エンコード、GB2312 テキストを読み取るために BOM を自動的に認識

GB2312 エンコード、Unicode テキストを読み取るために BOM を自動的に認識

GB2312 エンコード、Unicode テキストを読み取るために BOM を認識しない

static void Main(){    var gb2312 = Encoding.GetEncoding("GB2312");    //用GB2312编码,自动觉察BOM 来读取GB2312文本    ReadFile("gbk.txt", gb2312, true);    //用GB2312编码,自动觉察BOM 来读取Unicode文本    ReadFile("unicode.txt", gb2312, true);    //用GB2312编码,不觉察BOM 来读取Unicode文本    ReadFile("unicode.txt", gb2312, false);}//通过StreamReader读取文本 static void ReadFile(string path, Encoding enc, bool detectEncodingFromByteOrderMarks){    StreamReader sr;    using (sr = new StreamReader(path, enc, detectEncodingFromByteOrderMarks))    {        Console.WriteLine(sr.ReadToEnd());    }}

出力:

a刘a刘???

3行目が文字化けしています。

上記を見ると、GB2312 エンコードを使用して Unicode ファイルを開くことも成功します。 [BOM を自動的に検出する] パラメーターが True であるため、ファイルに BOM があることが判明すると、.NET は BOM を通じてそのファイルが Unicode ファイルであることを検出し、Unicode を使用してファイルを開きます。もちろん、BOM がない場合は、指定されたエンコード パラメータを使用してファイルが開きます。 GB2312 エンコードされたテキストの場合、明らかに BOM がないため、GB2312 エンコードを指定する必要があります。指定しないと、.NET はデフォルトの UTF8 エンコードを使用してファイルを解析し、結果は読み取られません。 3 行目の文字化けは、「BOM を自動的に検出する」が False であるためです。.NET は、指定された GB2312 エンコードを直接使用して、BOM を含む Unicode エンコードされたテキスト ファイルを読み取りますが、これは明らかに成功しません。

もちろん、BOM がない場合は、テキストを開くためのデフォルトのエンコーディングを指定することもできます。これについては、以前の記事 (.NET (C#): ファイルからのエンコーディング検出) に書きました。

コード:

static void Main(){    PrintText("gb2312.txt");    PrintText("unicode.txt");}//根据文件自动觉察编码并输出内容static void PrintText(string path){    var enc = GetEncoding(path, Encoding.GetEncoding("GB2312"));    using (var sr = new StreamReader(path, enc))    {        Console.WriteLine(sr.ReadToEnd());    }}/// <summary>/// 根据文件尝试返回字符编码/// </summary>/// <param name="file">文件路径</param>/// <param name="defEnc">没有BOM返回的默认编码</param>/// <returns>如果文件无法读取,返回null。否则,返回根据BOM判断的编码或者缺省编码(没有BOM)。</returns>static Encoding GetEncoding(string file, Encoding defEnc){    using (var stream = File.OpenRead(file))    {        //判断流可读?        if (!stream.CanRead)            return null;        //字节数组存储BOM        var bom = new byte[4];        //实际读入的长度        int readc;        readc = stream.Read(bom, 0, 4);        if (readc >= 2)        {            if (readc >= 4)            {                //UTF32,Big-Endian                if (CheckBytes(bom, 4, 0x00, 0x00, 0xFE, 0xFF))                    return new UTF32Encoding(true, true);                //UTF32,Little-Endian                if (CheckBytes(bom, 4, 0xFF, 0xFE, 0x00, 0x00))                    return new UTF32Encoding(false, true);            }            //UTF8            if (readc >= 3 && CheckBytes(bom, 3, 0xEF, 0xBB, 0xBF))                return new UTF8Encoding(true);            //UTF16,Big-Endian            if (CheckBytes(bom, 2, 0xFE, 0xFF))                return new UnicodeEncoding(true, true);            //UTF16,Little-Endian            if (CheckBytes(bom, 2, 0xFF, 0xFE))                return new UnicodeEncoding(false, true);        }        return defEnc;    }}//辅助函数,判断字节中的值static bool CheckBytes(byte[] bytes, int count, params int[] values){    for (int i = 0; i < count; i++)        if (bytes[i] != values[i])            return false;    return true;}

上記のコードでは、Unicode テキストの場合、GetEncoding メソッドは UTF16 エンコーディングを返します (より具体的には、BOM に従ってビッグ エンディアンまたはリトル エンディアンの UTF16 エンコーディングも返します)。一方、BOM のないファイルは、デフォルト値 GB2312 エンコーディング。

関連記事:

.NET(C#): ファイルからエンコーディングを検出

.NET(C#): 文字エンコーディング (Encoding) とバイト オーダー マーク (BOM)

.NET(C#): System Text を使用します。 「ストリーミング テキスト」を処理するデコーダー クラス

.NET (C#): アセンブリ マニフェスト リソースと RESX リソースについての簡単な説明

以上が.NET (C#) で中国語でエンコードされたファイルを正しく読み取るためのチュートリアルの例の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。