ホームページ  >  記事  >  Java  >  Java 文字列内の Unicode コードポイントを効率的に反復するにはどうすればよいですか?

Java 文字列内の Unicode コードポイントを効率的に反復するにはどうすればよいですか?

Mary-Kate Olsen
Mary-Kate Olsenオリジナル
2024-11-02 06:49:02490ブラウズ

How to Efficiently Iterate Over Unicode Codepoints in Java Strings?

Java String での Unicode コードポイントの反復

String クラスは Unicode コードポイントにアクセスするための codePointAt(int) メソッドを提供しますが、そのインデックス付けは依存しますコードポイント オフセットではなく文字オフセットに基づいて。これにより、高サロゲート範囲内の文字の処理と、文字ごとのスキャンを使用した提案された反復アプローチの効率についての懸念が生じます。

改良された反復ソリューション

Java内部の文字列表現では、UTF-16 ベースのエンコード スキームが使用されます。 Basic Multilingual Plane (BMP) の外側の文字は、代理スキームを使用してエンコードされます。効率的に反復するには、次の標準的なアプローチの使用を検討してください:

<code class="java">final int length = s.length();
for (int offset = 0; offset < length; ) {
   final int codepoint = s.codePointAt(offset);

   // process the codepoint

   offset += Character.charCount(codepoint);
}</code>

このアプローチは、BMP の外の文字のサロゲート ペアを正しく処理します。 Character.charCount(codepoint) を利用することで、各コードポイントの適切な文字数だけオフセットを効率的に増加させます。

以上がJava 文字列内の Unicode コードポイントを効率的に反復するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。