テキストファイルのコーディングの自動検出さまざまなアプリケーションでは、さまざまなソースからのテキストファイルは避けられないため、潜在的なエラーにつながる可能性があります。この記事では、このような問題の課題を減らすために、自動検出テキストファイルコードページを調べます。
StreamReaderの構築された関数のdetectencoding frombyteorderlksメソッドは、Unicodeラベルを備えたIBM850やWindows1252などの一般的なコードページを検出できます。
この検出限界を解決する1つの方法は、人為的な支援を使用することです。
人工補助検出スキーム:
メモ帳のドキュメントを確認し、既知の文字に応じて言語を推測します。
ユーザーが既知のテキストを提供できるようにするユーザーインターフェイスを作成します。
ループで利用可能なすべてのコードページと同様に、提供されているコードページを正しく表示します。
- 複数のコードページが有効な結果を提供する場合、ユーザーは選択範囲を狭めるために他のテキスト入力を提供します。
-
注:- 理解する必要があります。この情報はテキストファイルに固有のものではないため、正確な検出コードページを事前またはユーザー入力を理解する必要があります。
以上が特にIBM850やWindows-1252などのコードページに対して、テキストファイルエンコーディングを自動的に検出するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。