C# でデータを正しく解釈するには、文字列のエンコーディングを正確に識別することが最も重要です。 一部の文字列はエンコーディングを明示的に宣言していますが、多くは宣言していません。 これには課題がありますが、信頼できるソリューションが重要です。
この記事では、文字列エンコードを検出するための堅牢な C# 方法について詳しく説明します。このアプローチでは、BOM マーカー、UTF-8 および UTF-16 パターン、ソース ファイル内の明示的なエンコーディング宣言など、いくつかの要素が考慮されます。
次のコードは、文字列のエンコードを検出するための包括的なアプローチを提供します。
<code class="language-csharp">public Encoding detectTextEncoding(string filename, out String text, int taster = 1000) { // Attempts to identify UTF-7, UTF-8/16/32 encodings. // ... (Implementation details omitted for brevity) ... // Heuristic check for UTF-8 without a BOM. // ... (Implementation details omitted for brevity) ... // Heuristic check for UTF-16 without a BOM. // ... (Implementation details omitted for brevity) ... // Searches for "charset=xyz" or "encoding=xyz" within the file. // ... (Implementation details omitted for brevity) ... // Default fallback encoding. text = Encoding.Default.GetString(b); // Assuming 'b' is a byte array representing the file content. return Encoding.Default; }</code>
detectTextEncoding
メソッドは、ファイル名とオプションの taster
パラメーター (デフォルトは 1000 バイト) を使用して、エンコード検出のために検査されるデータの量を制御します。検出されたエンコーディングを返し、デコードされた文字列を text
出力パラメーターに割り当てます。
この方法は高精度を目指していますが、特に非 Unicode エンコードの場合、完全に確実なエンコード検出方法はありません。 このアプローチでは、エラーを最小限に抑え、正しい識別の可能性を最大限に高めるために複数の戦略が採用されています。
C# での文字列エンコード検出に対するこの多面的なアプローチにより、信頼性と柔軟性が向上します。さまざまな要素を考慮し、フォールバック メカニズムを組み込むことで、さまざまなシナリオにわたって文字列データを正確に解釈できるようになります。
以上がC# で文字列のエンコーディングを確実に判断するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。