検索
ホームページバックエンド開発C#.Net チュートリアル.NET (C#) で中国語でエンコードされたファイルを正しく読み取るためのチュートリアルの例

まず、読者がエンコードや BOM に詳しくない場合は、まずこの記事を読むことをお勧めします: .NET (C#): 文字エンコーディング (エンコーディング) とバイト オーダー マーク (BOM)。
中国語エンコーディングは基本的に 2 つのカテゴリに分類できます:
1. GBK、GB2312、GB18030 などの ANSI エンコーディングの拡張セット。このタイプのエンコーディング (GB18030 などのいくつかの新しい標準中国語エンコーディング) には BOM はありません。および GBK エンコーディングは、GB2312 エンコーディングと将来互換性があります)。
2. Unicode エンコーディング セット: UTF-8、UTF-16、UTF-32 など。このタイプのコーディングには、BOM があってもなくてもかまいません。
3. 一部の Unicode エンコーディングには、いわゆるリトル エンディアンとビッグ エンディアンという特定のバイト順序の問題もあります (UTF16 など)。ただし、UTF8 にはバイト順序の問題がありません。

基本的な知識を理解したら、中国語のテキスト ファイルを正しく開く方法のトピックに戻りましょう。確認する必要がある最初の情報は、Unicode でエンコードされたファイルに BOM が含まれているかどうかです。

BOM が含まれていれば、すべてを言うのは簡単です! BOM を見つければ、その特定のエンコーディングが分かるからです。 BOM が見つからない場合は、Unicode ではありません。システムのデフォルトの ANSI 拡張中国語エンコーディング セットを使用してテキスト ファイルを開くと問題ありません。
そして、Unicode エンコードに BOM がない場合 (ユーザーから提供されたすべての Unicode ファイルに BOM があることは保証できません)、元のバイトから GBK かどうかを手動で判断する必要があります。それともUTF8でしょうか?それとも他のエンコーディングでしょうか? 。これには、特定のエンコード検出アルゴリズムが必要です (「charset|encoding detect」で検索できます)。もちろん、エンコード検出アルゴリズムは 100% 正確ではない可能性があります。だからこそ、Windows メモ帳は事実のバグを隠しました。 ChromeでWebを閲覧していると文字化けが発生することもあります。個人的には、Notepad++ のコーディング認識は非常に正確であると感じています。
このプロジェクトのようなコーディング認識アルゴリズムは多数あります: https://code.google.com/p/ude


Unicode に BOM が付属している場合、サードパーティのライブラリは必要ありません。ただし、説明しなければならないことがいくつかあります。

問題は、.NET のテキスト読み取りメソッド (File クラスと StreamReader) がデフォルトで UTF8 エンコーディングで読み取ることです。そのため、そのような GBK テキスト ファイルは (エンコーディングが指定されていない場合) .NET で直接開かれ、結果は間違いなく文字化けする!

まず第一に、ここでの最も効果的な解決策は、システムのデフォルトの ANSI 拡張エンコーディングを使用することです。これは、テキストを読み取るためのシステムのデフォルトの非 Unicode エンコーディングです。 参照コード:

//输出系统默认非Unicode编码Console.WriteLine(Encoding.Default.EncodingName);//使用系统默认非Unicode编码来打开文件var fileContent = File.ReadAllText("C:\test.txt", Encoding.Default);

簡体字中国語 Windows システムでは、出力されるはずです。 :

簡体字中国語 (GB2312)...

そして、この方法の使用は簡体字中国語に限定されません。

もちろん、GBK エンコーディングなどのエンコーディングを手動で指定することもできますが、指定した GBK エンコーディングを使用して Unicode ファイルを開く場合でも、ファイルは正常に開かれますか?答えはまだ成功しています。その理由は、.NET はファイルを開くときにデフォルトで BOM を自動的に検出し、BOM に基づいて取得したエンコーディングを使用してファイルを開くためです。BOM がない場合は、ユーザーが指定したエンコーディング領域でファイルが開かれます。ユーザーがエンコードを指定しない場合は、UTF8 エンコードが使用されます。

この「BOM を自動的に認識する」パラメーターは、detectEncodingFromByteOrderMarks パラメーターに対応する StreamReader のコンストラクターで設定できます。

ただし、Fileクラスの対応するメソッドには設定できません。 (例: File.ReadAllText)。

たとえば、次のコードは次を使用します:

GB2312 エンコード、GB2312 テキストを読み取るために BOM を自動的に認識

GB2312 エンコード、Unicode テキストを読み取るために BOM を自動的に認識

GB2312 エンコード、Unicode テキストを読み取るために BOM を認識しない

static void Main(){    var gb2312 = Encoding.GetEncoding("GB2312");    //用GB2312编码,自动觉察BOM 来读取GB2312文本    ReadFile("gbk.txt", gb2312, true);    //用GB2312编码,自动觉察BOM 来读取Unicode文本    ReadFile("unicode.txt", gb2312, true);    //用GB2312编码,不觉察BOM 来读取Unicode文本    ReadFile("unicode.txt", gb2312, false);}//通过StreamReader读取文本 static void ReadFile(string path, Encoding enc, bool detectEncodingFromByteOrderMarks){    StreamReader sr;    using (sr = new StreamReader(path, enc, detectEncodingFromByteOrderMarks))    {        Console.WriteLine(sr.ReadToEnd());    }}

出力:

a刘a刘???

3行目が文字化けしています。

上記を見ると、GB2312 エンコードを使用して Unicode ファイルを開くことも成功します。 [BOM を自動的に検出する] パラメーターが True であるため、ファイルに BOM があることが判明すると、.NET は BOM を通じてそのファイルが Unicode ファイルであることを検出し、Unicode を使用してファイルを開きます。もちろん、BOM がない場合は、指定されたエンコード パラメータを使用してファイルが開きます。 GB2312 エンコードされたテキストの場合、明らかに BOM がないため、GB2312 エンコードを指定する必要があります。指定しないと、.NET はデフォルトの UTF8 エンコードを使用してファイルを解析し、結果は読み取られません。 3 行目の文字化けは、「BOM を自動的に検出する」が False であるためです。.NET は、指定された GB2312 エンコードを直接使用して、BOM を含む Unicode エンコードされたテキスト ファイルを読み取りますが、これは明らかに成功しません。

もちろん、BOM がない場合は、テキストを開くためのデフォルトのエンコーディングを指定することもできます。これについては、以前の記事 (.NET (C#): ファイルからのエンコーディング検出) に書きました。

コード:

static void Main(){    PrintText("gb2312.txt");    PrintText("unicode.txt");}//根据文件自动觉察编码并输出内容static void PrintText(string path){    var enc = GetEncoding(path, Encoding.GetEncoding("GB2312"));    using (var sr = new StreamReader(path, enc))    {        Console.WriteLine(sr.ReadToEnd());    }}/// <summary>/// 根据文件尝试返回字符编码/// </summary>/// <param name="file">文件路径</param>/// <param name="defEnc">没有BOM返回的默认编码</param>/// <returns>如果文件无法读取,返回null。否则,返回根据BOM判断的编码或者缺省编码(没有BOM)。</returns>static Encoding GetEncoding(string file, Encoding defEnc){    using (var stream = File.OpenRead(file))    {        //判断流可读?        if (!stream.CanRead)            return null;        //字节数组存储BOM        var bom = new byte[4];        //实际读入的长度        int readc;        readc = stream.Read(bom, 0, 4);        if (readc >= 2)        {            if (readc >= 4)            {                //UTF32,Big-Endian                if (CheckBytes(bom, 4, 0x00, 0x00, 0xFE, 0xFF))                    return new UTF32Encoding(true, true);                //UTF32,Little-Endian                if (CheckBytes(bom, 4, 0xFF, 0xFE, 0x00, 0x00))                    return new UTF32Encoding(false, true);            }            //UTF8            if (readc >= 3 && CheckBytes(bom, 3, 0xEF, 0xBB, 0xBF))                return new UTF8Encoding(true);            //UTF16,Big-Endian            if (CheckBytes(bom, 2, 0xFE, 0xFF))                return new UnicodeEncoding(true, true);            //UTF16,Little-Endian            if (CheckBytes(bom, 2, 0xFF, 0xFE))                return new UnicodeEncoding(false, true);        }        return defEnc;    }}//辅助函数,判断字节中的值static bool CheckBytes(byte[] bytes, int count, params int[] values){    for (int i = 0; i < count; i++)        if (bytes[i] != values[i])            return false;    return true;}

上記のコードでは、Unicode テキストの場合、GetEncoding メソッドは UTF16 エンコーディングを返します (より具体的には、BOM に従ってビッグ エンディアンまたはリトル エンディアンの UTF16 エンコーディングも返します)。一方、BOM のないファイルは、デフォルト値 GB2312 エンコーディング。

関連記事:

.NET(C#): ファイルからエンコーディングを検出

.NET(C#): 文字エンコーディング (Encoding) とバイト オーダー マーク (BOM)

.NET(C#): System Text を使用します。 「ストリーミング テキスト」を処理するデコーダー クラス

.NET (C#): アセンブリ マニフェスト リソースと RESX リソースについての簡単な説明

以上が.NET (C#) で中国語でエンコードされたファイルを正しく読み取るためのチュートリアルの例の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
C#.NET:コアの概念とプログラミングの基礎を探るC#.NET:コアの概念とプログラミングの基礎を探るApr 10, 2025 am 09:32 AM

C#は、Microsoftによって開発された最新のオブジェクト指向プログラミング言語であり、.NETフレームワークの一部として開発されています。 1.C#は、カプセル化、継承、多型を含むオブジェクト指向プログラミング(OOP)をサポートしています。 2。C#の非同期プログラミングは非同期を通じて実装され、適用応答性を向上させるためにキーワードを待ちます。 3. LINQを使用してデータ収集を簡潔に処理します。 4.一般的なエラーには、null参照の例外と、範囲外の例外インデックスが含まれます。デバッグスキルには、デバッガーと例外処理の使用が含まれます。 5.パフォーマンスの最適化には、StringBuilderの使用と、不必要な梱包とボクシングの回避が含まれます。

テストC#.NETアプリケーション:ユニット、統合、およびエンドツーエンドテストテストC#.NETアプリケーション:ユニット、統合、およびエンドツーエンドテストApr 09, 2025 am 12:04 AM

C#.NETアプリケーションのテスト戦略には、ユニットテスト、統合テスト、エンドツーエンドテストが含まれます。 1.単位テストにより、コードの最小ユニットがMSTEST、ヌニット、またはXUNITフレームワークを使用して独立して動作することを保証します。 2。統合テストでは、一般的に使用されるシミュレートされたデータと外部サービスを組み合わせた複数のユニットの機能を検証します。 3.エンドツーエンドのテストでは、ユーザーの完全な操作プロセスをシミュレートし、通常、セレンは自動テストに使用されます。

高度なC#.NETチュートリアル:次のシニア開発者インタビューをエース高度なC#.NETチュートリアル:次のシニア開発者インタビューをエースApr 08, 2025 am 12:06 AM

C#シニア開発者とのインタビューでは、非同期プログラミング、LINQ、.NETフレームワークの内部作業原則などのコア知識をマスターする必要があります。 1.非同期プログラミングは、非同期を通じて操作を簡素化し、アプリケーションの応答性を向上させるのを待ちます。 2.LinqはSQLスタイルでデータを操作し、パフォーマンスに注意を払います。 3.ネットフレームワークのCLRはメモリを管理し、ガベージコレクションに注意して使用する必要があります。

c#.netインタビューの質問と回答:専門知識を高めるc#.netインタビューの質問と回答:専門知識を高めるApr 07, 2025 am 12:01 AM

C#.NETインタビューの質問と回答には、基本的な知識、コアの概念、高度な使用が含まれます。 1)基本知識:C#は、Microsoftが開発したオブジェクト指向言語であり、主に.NETフレームワークで使用されています。 2)コアの概念:委任とイベントは動的な結合方法を可能にし、LINQは強力なクエリ関数を提供します。 3)高度な使用:非同期プログラミングは応答性を向上させ、式ツリーは動的コード構造に使用されます。

C#.NETを使用したマイクロサービスの構築:建築家向けの実用的なガイドC#.NETを使用したマイクロサービスの構築:建築家向けの実用的なガイドApr 06, 2025 am 12:08 AM

C#.NETは、その強力なエコシステムと豊富なサポートのため、マイクロサービスを構築するために人気のある選択肢です。 1)asp.netcoreを使用してRestfulapiを作成して、順序の作成とクエリを処理します。 2)GRPCを使用して、マイクロサービス間の効率的な通信を実現し、注文サービスを定義および実装します。 3)Dockerコンテナ化されたマイクロサービスを介して展開と管理を簡素化します。

C#.NETセキュリティベストプラクティス:一般的な脆弱性の防止C#.NETセキュリティベストプラクティス:一般的な脆弱性の防止Apr 05, 2025 am 12:01 AM

C#および.NETのセキュリティベストプラクティスには、入力検証、出力エンコード、例外処理、認証と承認が含まれます。 1)正規表現または組み込みのメソッドを使用して入力を検証して、悪意のあるデータがシステムに入るのを防ぎます。 2)XSS攻撃を防ぐための出力エンコード、httputility.htmlencodeメソッドを使用します。 3)例外処理により、情報の漏れが回避され、エラーが記録されますが、詳細情報はユーザーに返されません。 4)ASP.Netidentityおよび請求に基づく許可を使用して、不正アクセスから申請を保護します。

C言語で:それはどういう意味ですかC言語で:それはどういう意味ですかApr 03, 2025 pm 07:24 PM

C言語におけるコロン( ':')の意味:条件付きステートメント:条件付き式とステートメントの分離ブロックループステートメント:初期化、条件付きおよび増分式のマクロ定義の分離:マクロ名とマクロ値の分離単一行コメント:コメントアレイの寸法としてのコロンから行までのコンテンツを表す:アレイの寸法を指定する

C言語では何を意味しますかC言語では何を意味しますかApr 03, 2025 pm 07:21 PM

c言語は、後の運動後演算子であり、その動作メカニズムには次のものが含まれます。最初に変数の値を取得します。 aの値を1 x1。増加した後、aの値を返します。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません