java.nio.charset.CharsetDecoder を使用して文字セットメソッドを自動的に識別する-＆＃＆チュートリアル-php.cn

ホームページ

Java

＆＃＆チュートリアル

java.nio.charset.CharsetDecoder を使用して文字セットメソッドを自動的に識別する

高洛峰

Mar 12, 2017 am 09:43 AM

java

この記事では、java.nio.charset.CharsetDecoder を使用して文字セットを自動的に識別する方法を紹介しますは、インターネット上にある文字セットを自動的に識別する方法を研究しました。サードパーティのクラスライブラリ

jchardetを使用します。実際に jchardet を使用する cpdetector もあります。 JDK の java.nio.charset.CharsetDecoder を使用して文字セットを識別できることを偶然発見しました。

1. 原則

一般に、InputStreamReader を構築するには 2 つの方法があります:

InputStreamReader reader = new InputStreamReader(in, charsetName);

または

InputStreamReader reader = new InputStreamReader(in, charset);

文字セットが一致しない場合、 d文字が出力されます。

CharsetDecoderを使用する構築方法もあります:

CharsetDecoder cd = charset.newDecoder();
InputStreamReader reader = new InputStreamReader(in, cd);

一致しない場合、

例外をスローします

java.nio.charset.MalformedInputException: Input length = 1
    at java.nio.charset.CoderResult.throwException(CoderResult.java:277)
    at sun.nio.cs.StreamDecoder.implRead(StreamDecoder.java:338)
    at sun.nio.cs.StreamDecoder.read(StreamDecoder.java:177)
        ....

このようにして使用できます。文字セット検出として。

2. AutoCharsetReader の使用

AutoCharsetReader は、上記の原則に基づいて、Reader を参照して記述されたクラスであり、Charset 適応型の InputStreamReader とみなすことができます。

AutoCharsetReader ar= new AutoCharsetReader(in);char c = ar.read();
...char[] cbuf = new char[2000];
ar.read(cbuf);
...
BufferedReader br = new BufferedReader(ar);
br.readLine();
...

もう 1 つの例は、フルテキスト

index

を作成する Lucene の TextField には Reader パラメータが必要です。このクラスを直接使用できます:

Field field = new TextField("content", new AutoCharsetReader(file));

ファイルを読み取った後、ファイルの文字セット。読後ですのでご了承ください。

Charset charset = ar.charset();

3. 代替文字セット

文字セットを最終決定するために複数の試行が使用されるため、代替文字セットを提供する必要があります。現在のコードで提供されるデフォルトの代替文字セットは次のとおりです。

    private final static String[] _defaultCharsets = {        
            "US-ASCII",            "UTF-8",            "GB2312", 
            "BIG5",            "GBK",            "GB18030",                
            "UTF-16BE", 
            "UTF-16LE", 
            "UTF-16",            "UNICODE"};

代替文字セットを変更するメソッドも提供されます。例:

AutoCharsetReader ar = new AutoCharsetReader(in).setCharset("ascii", "utf-8", "gbk");

順序は検出結果に影響します。たとえば、GBK が GB2312 より前の場合、GBK には GB2312 が含まれるため、検出結果は GB2312 ではなく GBK のみになります。

4. 文字セット検出のみ

は文字セット検出のみに使用できます:

charset = AutoCharsetReader.quickDetect(file.toURI().toURL(), charsets);
or:
charset = AutoCharsetReader.deepDetect(file.toURI().toURL(), charsets, stops);

quickDetect は 1 文字のみを読み取り、単一の文字セットファイルに適しています。 HTML の場合、文字セットを知るためにすべてを読む必要がある場合があるため、deepDetect を使用します。パラメーター

charsets

は

null にすることができます。ファイルのセットが「utf-8」であることが検出された場合、既知の可能な文字セットは「ascii」、「utf-8」、「gb2312」、および「gbk」です。または「 gbk」を使用すると、ファイルの読み取りを続行せずに、結果をすぐに返すことができます。この時点で、stops パラメータを {"utf-8", "gbk"} に割り当てることができます。

null

の場合は、すべて読む必要があります。 5. その他

効率を上げるために、このクラスにはバッファが装備されています。最初の文字セットのデコードに失敗した場合、io を再読み込みする必要はありません。バッファサイズのデフォルトは 8192 です。オブジェクトの構築時にバッファサイズを自分で定義できます。パラメータが 16 未満の場合は、16 に設定します。

以上がjava.nio.charset.CharsetDecoder を使用して文字セットメソッドを自動的に識別するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

高度なJavaプロジェクト管理、自動化の構築、依存関係の解像度にMavenまたはGradleを使用するにはどうすればよいですか？Mar 17, 2025 pm 05:46 PM

この記事では、Javaプロジェクト管理、自動化の構築、依存関係の解像度にMavenとGradleを使用して、アプローチと最適化戦略を比較して説明します。

適切なバージョン化と依存関係管理を備えたカスタムJavaライブラリ（JARファイル）を作成および使用するにはどうすればよいですか？Mar 17, 2025 pm 05:45 PM

この記事では、MavenやGradleなどのツールを使用して、適切なバージョン化と依存関係管理を使用して、カスタムJavaライブラリ（JARファイル）の作成と使用について説明します。

カフェインやグアバキャッシュなどのライブラリを使用して、Javaアプリケーションにマルチレベルキャッシュを実装するにはどうすればよいですか？Mar 17, 2025 pm 05:44 PM

この記事では、カフェインとグアバキャッシュを使用してJavaでマルチレベルキャッシュを実装してアプリケーションのパフォーマンスを向上させています。セットアップ、統合、パフォーマンスの利点をカバーし、構成と立ち退きポリシー管理Best Pra

キャッシュや怠zyなロードなどの高度な機能を備えたオブジェクトリレーショナルマッピングにJPA（Java Persistence API）を使用するにはどうすればよいですか？Mar 17, 2025 pm 05:43 PM

この記事では、キャッシュや怠zyなロードなどの高度な機能を備えたオブジェクトリレーショナルマッピングにJPAを使用することについて説明します。潜在的な落とし穴を強調しながら、パフォーマンスを最適化するためのセットアップ、エンティティマッピング、およびベストプラクティスをカバーしています。[159文字]